오픈AI ‘보고 듣고 말하는’ 생성AI 뉴모델 ‘GPT-4o’ 공개

오픈AI가 현지시간으로 13일 새로운 인공지능 모델인 GPT-4o를 공개했다. 해당 모델은 텍스트, 음성, 이미지를 입력으로 받아들이고, 다양한 형식으로 응답을 출력할 수 있는 기능을 갖추고 있다. 이로 인해 인간처럼 들리는 억양과 음성 대화가 가능해졌다.

GPT-4o 주요 특징

GPT-4o는 사용자의 음성 입력에 대해 약 0.2~0.3초 내로 반응할 수 있으며, 이는 인간의 대화 반응 속도와 유사하다. 또한, 챗GPT는 사용자가 말하는 동안 답변 생성을 중단할 수 있다. 이는 실시간 상호작용에서 AI의 사용성을 크게 향상시키는 요소다.

오픈AI의 CEO 샘 알트만(Sam Altman)은 “GPT-4o는 영화 속 AI처럼 느껴진다”고 평가했다.

데모에서 공개된 대로, 새 모델은 사용자의 요구에 따라 말하는 방식의 억양을 변경하거나 농담에 반응하는 등 인간과 같은 음성 인터랙션을 제공한다.

일정 및 향후 계획

현재 모든 사용자가 텍스트 및 이미지 기능을 사용할 수 있으며, 일부는 무료로 한정된 액세스를 제공받는다. 오픈AI는 향후 몇 주 내에 유료 버전에 새로운 AI 음성 및 화상 인식 기능을 추가할 계획이다. 또한, 이용료가 조정될 예정이다.

모델 명칭의 의미

‘GPT-4o’의 ‘o’는 영어 접두사 ‘omni’에서 유래되었으며, ‘모든’을 의미하며 다양한 능력을 가리킨다. 모델이 다양한 형태의 입력과 출력을 처리할 수 있는 능력을 상징한다.

GPT-4o 다기능 AI 모델

오픈AI가 개발한 최신 AI 모델 GPT-4o는 텍스트, 시각, 음성을 포괄하는 다양한 기능을 갖추고 있다. 특히 상호 작용과 학습 능력으로 다양한 형식의 입력과 출력을 처리할 수 있다.

GPT-4o는 다음과 같은 다양한 사용법을 지원한다:

  • GPT-4o와 상호 작용
  • 동시 통역
  • 의견 충돌 상황 시뮬레이션
  • 수학 문제 해결 방법 교육 등

위험 관리 및 안전성 강화

오픈AI는 GPT-4o의 개발 과정에서 텍스트, 시각, 음성 데이터를 포괄하는 단일 AI 모델을 통한 엔드 투 엔드 트레이닝을 진행했다.

모든 입력과 출력을 동일한 망으로 처리할 수 있는 기술 도입으로 높은 융합성을 자랑한다. 그러나 이와 같은 기능으로 인해 위험 요소가 발생할 수 있으며, 오픈AI는 이를 인지하고 있다.

오픈AI는 기술 인프라 및 안전성 강화를 위해 지속적으로 노력할 예정이며, 이미 사회심리학, 공평성, 오정보 등의 분야에 70명 이상의 외부 전문가 팀과 함께 리스크를 확인하고 경감하는 작업을 실시했다고 전했다.

✉ eb@economybloc.com

└관련뉴스📨

소프트뱅크그룹, 엔비디아 지분 전량 매각 후 주가 10% 급락

블룸버그 “AI·가상자산 투자 열기 식으며 뉴욕증시 기술주 약세”

오픈AI 샘 알트만 “테슬라 배송 늦어 환불도 불가” 공개 비판

비트코인 채굴기업들 BTC·AI가 견인…’라이엇’ 사상 최대 수익

‘빅쇼트’ 마이클 버리, 투자자문사 등록 말소…팔란티어 공매도

미 노동통계국, 셧다운 영향 10월 CPI 발표 연기

로빈후드, 아반티스(AVNT) 코인 상장

TKO–폴리마켓 다년 계약…UFC에 실시간 예측시장 도입

인기뉴스

1

JP모건, ‘JPM 코인’ 베이스 블록체인에 도입

키넥시스
2

디지털자산 · 코인 주요소식 헤드라인

이코노미블록 디지털자산 주요소식
3

나스닥, 캐너리 리플(XRP) ETF 상장 절차 완료

XRP 레저 - 리플
4

미 SEC 위원장, 가상자산 ‘토큰 분류 체계’ 마련 검토

폴 앳킨스(Paul Atkins)
5

미국 연방정부 43일간 셧다운 종료…트럼프 서명

트럼프
6

아크 인베스트, USDC 발행사 써클 주식 35만3328주 매입

써클
7

바이낸스, 로렌조 프로토콜(BANK)·메테오라(MET) 코인 현물마켓 상장 예정

바이낸스
미국 증시 / 프리픽
이코노미블록 디지털자산 주요소식
이더리움 ETF
트럼프