오픈AI ‘보고 듣고 말하는’ 생성AI 뉴모델 ‘GPT-4o’ 공개

오픈AI가 현지시간으로 13일 새로운 인공지능 모델인 GPT-4o를 공개했다. 해당 모델은 텍스트, 음성, 이미지를 입력으로 받아들이고, 다양한 형식으로 응답을 출력할 수 있는 기능을 갖추고 있다. 이로 인해 인간처럼 들리는 억양과 음성 대화가 가능해졌다.

GPT-4o 주요 특징

GPT-4o는 사용자의 음성 입력에 대해 약 0.2~0.3초 내로 반응할 수 있으며, 이는 인간의 대화 반응 속도와 유사하다. 또한, 챗GPT는 사용자가 말하는 동안 답변 생성을 중단할 수 있다. 이는 실시간 상호작용에서 AI의 사용성을 크게 향상시키는 요소다.

오픈AI의 CEO 샘 알트만(Sam Altman)은 “GPT-4o는 영화 속 AI처럼 느껴진다”고 평가했다.

데모에서 공개된 대로, 새 모델은 사용자의 요구에 따라 말하는 방식의 억양을 변경하거나 농담에 반응하는 등 인간과 같은 음성 인터랙션을 제공한다.

일정 및 향후 계획

현재 모든 사용자가 텍스트 및 이미지 기능을 사용할 수 있으며, 일부는 무료로 한정된 액세스를 제공받는다. 오픈AI는 향후 몇 주 내에 유료 버전에 새로운 AI 음성 및 화상 인식 기능을 추가할 계획이다. 또한, 이용료가 조정될 예정이다.

모델 명칭의 의미

‘GPT-4o’의 ‘o’는 영어 접두사 ‘omni’에서 유래되었으며, ‘모든’을 의미하며 다양한 능력을 가리킨다. 모델이 다양한 형태의 입력과 출력을 처리할 수 있는 능력을 상징한다.

GPT-4o 다기능 AI 모델

오픈AI가 개발한 최신 AI 모델 GPT-4o는 텍스트, 시각, 음성을 포괄하는 다양한 기능을 갖추고 있다. 특히 상호 작용과 학습 능력으로 다양한 형식의 입력과 출력을 처리할 수 있다.

GPT-4o는 다음과 같은 다양한 사용법을 지원한다:

  • GPT-4o와 상호 작용
  • 동시 통역
  • 의견 충돌 상황 시뮬레이션
  • 수학 문제 해결 방법 교육 등

위험 관리 및 안전성 강화

오픈AI는 GPT-4o의 개발 과정에서 텍스트, 시각, 음성 데이터를 포괄하는 단일 AI 모델을 통한 엔드 투 엔드 트레이닝을 진행했다.

모든 입력과 출력을 동일한 망으로 처리할 수 있는 기술 도입으로 높은 융합성을 자랑한다. 그러나 이와 같은 기능으로 인해 위험 요소가 발생할 수 있으며, 오픈AI는 이를 인지하고 있다.

오픈AI는 기술 인프라 및 안전성 강화를 위해 지속적으로 노력할 예정이며, 이미 사회심리학, 공평성, 오정보 등의 분야에 70명 이상의 외부 전문가 팀과 함께 리스크를 확인하고 경감하는 작업을 실시했다고 전했다.

✉ eb@economybloc.com

└관련뉴스

이더리움 재단, ‘dAI 팀’ 신설…AI·블록체인 결합 연구 추진

美 연준, 스테이블코인·토큰화 논의하는 ‘결제 혁신’ 회의 10월 개최

머스크, 애플·오픈AI ‘아이폰 AI 독점’ 소송 제기

엔비디아, 중국 판매용 블랙웰 기반 AI칩 B30A 개발

칠리즈, e스포츠 팀 OG 지분 51% 인수

에이더블유이·아고라, 블록체인 기반 AI 토론 플랫폼 만든다

바이비트, 롬바트(BARD) 코인 사전 무기한 선물마켓 상장 예정

아이오에스티 x 콘플럭스 전략적 파트너십

이더리움 ETF
비트코인 현물 ETF
비트코인 및 골드 이미지
메타마스크

인기뉴스

1

에테나 재단, ENA 코인 수수료 구조 전환 추진

에테나 랩스(Ethena Labs)
2

빗썸, 아반티스(AVNT) 코인 에어드랍 이벤트 진행

빗썸
3

비트멕스, 17일 국내 유명 고래 트레이더 ‘워뇨띠’와 실시간 AMA 개최

워뇨띠
4

아발론 랩스, BTC트레저리스넷 기준 비트코인 보유 5위 비공개 기업

아발론 랩스(Avalon Labs)
5

바이낸스, 바운드리스(ZKC) 코인 무기한 선물마켓 상장 예정

바이낸스
6

디지털자산 · 코인 주요소식 헤드라인

7

바이낸스, 월드리버티파이낸셜 유에스디(USD1) 솔라나 네트워크 지원

바이낸스