오픈AI ‘보고 듣고 말하는’ 생성AI 뉴모델 ‘GPT-4o’ 공개

오픈AI가 현지시간으로 13일 새로운 인공지능 모델인 GPT-4o를 공개했다. 해당 모델은 텍스트, 음성, 이미지를 입력으로 받아들이고, 다양한 형식으로 응답을 출력할 수 있는 기능을 갖추고 있다. 이로 인해 인간처럼 들리는 억양과 음성 대화가 가능해졌다.

GPT-4o 주요 특징

GPT-4o는 사용자의 음성 입력에 대해 약 0.2~0.3초 내로 반응할 수 있으며, 이는 인간의 대화 반응 속도와 유사하다. 또한, 챗GPT는 사용자가 말하는 동안 답변 생성을 중단할 수 있다. 이는 실시간 상호작용에서 AI의 사용성을 크게 향상시키는 요소다.

오픈AI의 CEO 샘 알트만(Sam Altman)은 “GPT-4o는 영화 속 AI처럼 느껴진다”고 평가했다.

데모에서 공개된 대로, 새 모델은 사용자의 요구에 따라 말하는 방식의 억양을 변경하거나 농담에 반응하는 등 인간과 같은 음성 인터랙션을 제공한다.

일정 및 향후 계획

현재 모든 사용자가 텍스트 및 이미지 기능을 사용할 수 있으며, 일부는 무료로 한정된 액세스를 제공받는다. 오픈AI는 향후 몇 주 내에 유료 버전에 새로운 AI 음성 및 화상 인식 기능을 추가할 계획이다. 또한, 이용료가 조정될 예정이다.

모델 명칭의 의미

‘GPT-4o’의 ‘o’는 영어 접두사 ‘omni’에서 유래되었으며, ‘모든’을 의미하며 다양한 능력을 가리킨다. 모델이 다양한 형태의 입력과 출력을 처리할 수 있는 능력을 상징한다.

GPT-4o 다기능 AI 모델

오픈AI가 개발한 최신 AI 모델 GPT-4o는 텍스트, 시각, 음성을 포괄하는 다양한 기능을 갖추고 있다. 특히 상호 작용과 학습 능력으로 다양한 형식의 입력과 출력을 처리할 수 있다.

GPT-4o는 다음과 같은 다양한 사용법을 지원한다:

  • GPT-4o와 상호 작용
  • 동시 통역
  • 의견 충돌 상황 시뮬레이션
  • 수학 문제 해결 방법 교육 등

위험 관리 및 안전성 강화

오픈AI는 GPT-4o의 개발 과정에서 텍스트, 시각, 음성 데이터를 포괄하는 단일 AI 모델을 통한 엔드 투 엔드 트레이닝을 진행했다.

모든 입력과 출력을 동일한 망으로 처리할 수 있는 기술 도입으로 높은 융합성을 자랑한다. 그러나 이와 같은 기능으로 인해 위험 요소가 발생할 수 있으며, 오픈AI는 이를 인지하고 있다.

오픈AI는 기술 인프라 및 안전성 강화를 위해 지속적으로 노력할 예정이며, 이미 사회심리학, 공평성, 오정보 등의 분야에 70명 이상의 외부 전문가 팀과 함께 리스크를 확인하고 경감하는 작업을 실시했다고 전했다.

✉ ebl@economybloc.com

└관련 뉴스

최신 뉴스📨

인기뉴스🚀

1

코인베이스, 플로키(FLOKI) 코인 상장 예정

코인베이스
2

에이다·아발란체·도지코인 현물 ETF도 신청 유력

도지코인 일론 머스크 이미지
3

유명 공매도 기관 시트론, 마이크로스트래티지 과열 주장하며 숏 포지션 개설…비트코인은 여전히 낙관

마이크로스트래티지 로고
4

업비트, 수이 네트워크 블록생성 중단으로 SUI 코인 입출금 중단

업비트
5

비탈릭 부테린, 제시 폴락…익명성 ANON 코인 매수

ANON

20일: $LYX – Dencun 하드포크
20일: $ENA – 1286만 토큰 언락
20일: FTX – 바이비트 $1억7500만 합의 법원 심리
21일: $POLYX – Polymesh AMA
21일: $EGLD – Spica V1.8.4.0 업데이트
21일–23일: 크립토 엑스포 밀란 2024 개최
21일: $ILV – Beyond Wave 3 출시
🌐21일: 엔비디아 실적
22일: $ID – 1849만 토큰 언락
23일: $KARRAT – 1136만 토큰 언락
23일: $ZEC – Zcashd 6.0.0 업데이트
23일: $ZEC – 반감기

*해당일정은 연기/취소될 수 있습니다

크립토 공포 & 탐욕 지수

Latest Crypto Fear & Greed Index