오픈AI ‘보고 듣고 말하는’ 생성AI 뉴모델 ‘GPT-4o’ 공개

오픈AI가 현지시간으로 13일 새로운 인공지능 모델인 GPT-4o를 공개했다. 해당 모델은 텍스트, 음성, 이미지를 입력으로 받아들이고, 다양한 형식으로 응답을 출력할 수 있는 기능을 갖추고 있다. 이로 인해 인간처럼 들리는 억양과 음성 대화가 가능해졌다.

GPT-4o 주요 특징

GPT-4o는 사용자의 음성 입력에 대해 약 0.2~0.3초 내로 반응할 수 있으며, 이는 인간의 대화 반응 속도와 유사하다. 또한, 챗GPT는 사용자가 말하는 동안 답변 생성을 중단할 수 있다. 이는 실시간 상호작용에서 AI의 사용성을 크게 향상시키는 요소다.

오픈AI의 CEO 샘 알트만(Sam Altman)은 “GPT-4o는 영화 속 AI처럼 느껴진다”고 평가했다.

데모에서 공개된 대로, 새 모델은 사용자의 요구에 따라 말하는 방식의 억양을 변경하거나 농담에 반응하는 등 인간과 같은 음성 인터랙션을 제공한다.

일정 및 향후 계획

현재 모든 사용자가 텍스트 및 이미지 기능을 사용할 수 있으며, 일부는 무료로 한정된 액세스를 제공받는다. 오픈AI는 향후 몇 주 내에 유료 버전에 새로운 AI 음성 및 화상 인식 기능을 추가할 계획이다. 또한, 이용료가 조정될 예정이다.

모델 명칭의 의미

‘GPT-4o’의 ‘o’는 영어 접두사 ‘omni’에서 유래되었으며, ‘모든’을 의미하며 다양한 능력을 가리킨다. 모델이 다양한 형태의 입력과 출력을 처리할 수 있는 능력을 상징한다.

GPT-4o 다기능 AI 모델

오픈AI가 개발한 최신 AI 모델 GPT-4o는 텍스트, 시각, 음성을 포괄하는 다양한 기능을 갖추고 있다. 특히 상호 작용과 학습 능력으로 다양한 형식의 입력과 출력을 처리할 수 있다.

GPT-4o는 다음과 같은 다양한 사용법을 지원한다:

  • GPT-4o와 상호 작용
  • 동시 통역
  • 의견 충돌 상황 시뮬레이션
  • 수학 문제 해결 방법 교육 등

위험 관리 및 안전성 강화

오픈AI는 GPT-4o의 개발 과정에서 텍스트, 시각, 음성 데이터를 포괄하는 단일 AI 모델을 통한 엔드 투 엔드 트레이닝을 진행했다.

모든 입력과 출력을 동일한 망으로 처리할 수 있는 기술 도입으로 높은 융합성을 자랑한다. 그러나 이와 같은 기능으로 인해 위험 요소가 발생할 수 있으며, 오픈AI는 이를 인지하고 있다.

오픈AI는 기술 인프라 및 안전성 강화를 위해 지속적으로 노력할 예정이며, 이미 사회심리학, 공평성, 오정보 등의 분야에 70명 이상의 외부 전문가 팀과 함께 리스크를 확인하고 경감하는 작업을 실시했다고 전했다.

✉ eb@economybloc.com

└관련뉴스

이더리움 재단, ‘dAI 팀’ 신설…AI·블록체인 결합 연구 추진

美 연준, 스테이블코인·토큰화 논의하는 ‘결제 혁신’ 회의 10월 개최

머스크, 애플·오픈AI ‘아이폰 AI 독점’ 소송 제기

엔비디아, 중국 판매용 블랙웰 기반 AI칩 B30A 개발

바이비트, 롬바드(BARD) 코인 현물마켓 상장 예정

바이낸스, 디에이전트AI(AIA) 알파 · 무기한 선물마켓 상장 예정

칠리즈, e스포츠 팀 OG 지분 51% 인수

에이더블유이·아고라, 블록체인 기반 AI 토론 플랫폼 만든다

이더리움 ETF
비트코인 현물 ETF
비트코인 및 골드 이미지
메타마스크

인기뉴스

1

에테나 재단, ENA 코인 수수료 구조 전환 추진

에테나 랩스(Ethena Labs)
2

비트멕스, 17일 국내 유명 고래 트레이더 ‘워뇨띠’와 실시간 AMA 개최

워뇨띠
3

아발론 랩스, BTC트레저리스넷 기준 비트코인 보유 5위 비공개 기업

아발론 랩스(Avalon Labs)
4

바이낸스, 바운드리스(ZKC) 코인 무기한 선물마켓 상장 예정

바이낸스
5

디지털자산 · 코인 주요소식 헤드라인

6

바이낸스, 월드리버티파이낸셜 유에스디(USD1) 솔라나 네트워크 지원

바이낸스
7

비트코인 전략 비축법 추진 위해 워싱턴 집결한 세일러 등 가상자산 업계 인사들

신시아 루미스 / 뉴욕포스트