오픈AI ‘보고 듣고 말하는’ 생성AI 뉴모델 ‘GPT-4o’ 공개

오픈AI가 현지시간으로 13일 새로운 인공지능 모델인 GPT-4o를 공개했다. 해당 모델은 텍스트, 음성, 이미지를 입력으로 받아들이고, 다양한 형식으로 응답을 출력할 수 있는 기능을 갖추고 있다. 이로 인해 인간처럼 들리는 억양과 음성 대화가 가능해졌다.

GPT-4o 주요 특징

GPT-4o는 사용자의 음성 입력에 대해 약 0.2~0.3초 내로 반응할 수 있으며, 이는 인간의 대화 반응 속도와 유사하다. 또한, 챗GPT는 사용자가 말하는 동안 답변 생성을 중단할 수 있다. 이는 실시간 상호작용에서 AI의 사용성을 크게 향상시키는 요소다.

오픈AI의 CEO 샘 알트만(Sam Altman)은 “GPT-4o는 영화 속 AI처럼 느껴진다”고 평가했다.

데모에서 공개된 대로, 새 모델은 사용자의 요구에 따라 말하는 방식의 억양을 변경하거나 농담에 반응하는 등 인간과 같은 음성 인터랙션을 제공한다.

일정 및 향후 계획

현재 모든 사용자가 텍스트 및 이미지 기능을 사용할 수 있으며, 일부는 무료로 한정된 액세스를 제공받는다. 오픈AI는 향후 몇 주 내에 유료 버전에 새로운 AI 음성 및 화상 인식 기능을 추가할 계획이다. 또한, 이용료가 조정될 예정이다.

모델 명칭의 의미

‘GPT-4o’의 ‘o’는 영어 접두사 ‘omni’에서 유래되었으며, ‘모든’을 의미하며 다양한 능력을 가리킨다. 모델이 다양한 형태의 입력과 출력을 처리할 수 있는 능력을 상징한다.

GPT-4o 다기능 AI 모델

오픈AI가 개발한 최신 AI 모델 GPT-4o는 텍스트, 시각, 음성을 포괄하는 다양한 기능을 갖추고 있다. 특히 상호 작용과 학습 능력으로 다양한 형식의 입력과 출력을 처리할 수 있다.

GPT-4o는 다음과 같은 다양한 사용법을 지원한다:

  • GPT-4o와 상호 작용
  • 동시 통역
  • 의견 충돌 상황 시뮬레이션
  • 수학 문제 해결 방법 교육 등

위험 관리 및 안전성 강화

오픈AI는 GPT-4o의 개발 과정에서 텍스트, 시각, 음성 데이터를 포괄하는 단일 AI 모델을 통한 엔드 투 엔드 트레이닝을 진행했다.

모든 입력과 출력을 동일한 망으로 처리할 수 있는 기술 도입으로 높은 융합성을 자랑한다. 그러나 이와 같은 기능으로 인해 위험 요소가 발생할 수 있으며, 오픈AI는 이를 인지하고 있다.

오픈AI는 기술 인프라 및 안전성 강화를 위해 지속적으로 노력할 예정이며, 이미 사회심리학, 공평성, 오정보 등의 분야에 70명 이상의 외부 전문가 팀과 함께 리스크를 확인하고 경감하는 작업을 실시했다고 전했다.

✉ eb@economybloc.com

└관련뉴스📨

소프트뱅크그룹, 엔비디아 지분 전량 매각 후 주가 10% 급락

블룸버그 “AI·가상자산 투자 열기 식으며 뉴욕증시 기술주 약세”

오픈AI 샘 알트만 “테슬라 배송 늦어 환불도 불가” 공개 비판

비트코인 채굴기업들 BTC·AI가 견인…’라이엇’ 사상 최대 수익

바이낸스, 로렌조 프로토콜(BANK)·메테오라(MET) 코인 현물마켓 상장 예정

비트코인 10만달러 심리적 지지선…글래스노드 “신규 유입 없인 반전 어려워”

이더리움 기반 토큰화 자산 $2010억 돌파 전체시장서 3분의 2 차지

자체 자산 동결 가능한 블록체인 16개, 탈중앙화 논쟁

인기뉴스

1

JP모건, ‘JPM 코인’ 베이스 블록체인에 도입

키넥시스
2

모건스탠리, 비트코인 ‘수확기’ 비유…“겨울 오기 전 차익 실현해야”

모건스탠리(Morgan Stanley)
3

디지털자산 · 코인 주요소식 헤드라인

이코노미블록 디지털자산 주요소식
4

나스닥, 캐너리 리플(XRP) ETF 상장 절차 완료

XRP 레저 - 리플
5

미 SEC 위원장, 가상자산 ‘토큰 분류 체계’ 마련 검토

폴 앳킨스(Paul Atkins)
6

미국 연방정부 43일간 셧다운 종료…트럼프 서명

트럼프
7

아크 인베스트, USDC 발행사 써클 주식 35만3328주 매입

써클
이코노미블록 디지털자산 주요소식
이더리움 ETF
트럼프
비트코인 현물 ETF