마크 저커버그가 이끄는 메타가 인공지능(AI) 분야에서 새로운 도전에 나섰다.
저커버그는 최근 이미지바인드(ImageBind)라는 새로운 AI 모델을 발표했다. 이 모델은 이미지, 비디오, 오디오, 깊이, 열, 공간 이동 등 총 6가지 감각을 결합해 보다 몰입감 있는 경험을 생성할 수 있도록 설계되었다.
이미지바인드, 어떻게 작동하나
이미지바인드는 연구 프로젝트로, 생성형 AI 기술을 활용해 새로운 방식의 경험을 만들어 낸다.
이 모델은 이미지 페어링 데이터를 학습해 여러 감각 정보를 통합할 수 있도록 설계되었다. 메타는 “이미지바인드는 사진 속 물체를 소리, 3D 모양, 온도 감각, 움직이는 방식과 연결해 보다 정교한 정보 처리가 가능하다”고 설명했다.
이미지바인드 테스트 사례
모델에 호랑이 이미지와 폭포 오디오를 입력하면, 이미지바인드는 이 두 요소를 결합해 새로운 비디오를 생성한다.
예를 들어, ‘작은 생물’이라는 텍스트, ‘열대 우림’이라는 이미지, ‘비’라는 오디오, 새 사진(IMU) 등을 함께 입력하면, 이를 결합해 하나의 비디오를 만드는 방식이다.
이미지바인드의 잠재력과 전망
메타는 이미지바인드가 다양한 데이터 유형을 학습하는 다중 감각 AI 시스템 개발의 일환이라고 밝혔다.
이를 통해 연구자들은 몰입형 가상 세계를 설계하거나 3D 및 IMU 센서를 결합한 새로운 시스템을 개발할 수 있다.
또한, 텍스트, 오디오, 이미지 데이터를 결합해 사진, 비디오, 오디오 파일 또는 텍스트 메시지를 검색하고 디지털 기억을 탐색하는 방식도 가능해질 것으로 예상된다.
이미지바인드는 가상 현실(VR)과 증강 현실(AR) 같은 분야에서도 새로운 가능성을 제시할 것으로 보인다.
현재 이미지바인드는 테스트 단계에 있으며, 향후 오픈 소스화를 통해 다양한 응용 사례가 등장할 것으로 기대된다.