마크 저커버그가 이끄는 전 페이스북, 메타가 인공 지능(AI) 분야에서 새로운 도전을 시작했다.
저커버그는 이미지바인드(ImageBind)라는 새로운 AI 모델을 공개 발표를했다.
이 AI 모델은 여러 감각을 결합하여 경험을 창출하며, 이미지, 비디오, 오디오, 깊이, 열, 공간 이동 등 총 6가지 감각을 이해한다.
이미지바인드, 어떻게 작동하나?
이미지바인드는 연구 프로젝트로, 제너레이티브 AI를 활용한 경험을 만들어 낸다.
이 모델은 이미지 페어링 데이터를 활용하여 여러 양식에 대한 임베딩 공간을 학습하고, 이를 통해 다른 모델이 새로운 방식을 이해할 수 있도록 돕는다.
“이미지바인드는 사진의 물체를 소리, 3D 모양, 따뜻하거나 차가운 정도, 움직이는 방식과 연결하는 전체적인 정보를 기계에 제공합니다.”라고 메타는 설명했다.
이미지바인드, 테스트로 본 작동 방식
모델에 호랑이 이미지와 폭포 오디오를 입력하면, 이미지바인드는 이 두 요소를 결합하여 비디오를 생성한다.
예를 들어, ‘작은 생물’이라는 텍스트와 ‘열대 우림’이라는 이미지, ‘비’라는 오디오, 새 사진(IMU) 등을 입력하면, 이들을 결합하여 하나의 비디오를 생성한다.
이미지바인드의 잠재력과 전망
메타는 이미지바인드가 주변의 가능한 모든 유형의 데이터에서 학습하는 다중 모드 AI 시스템을 만들기 위한 노력의 일부라고 밝혔다.
이 모델은 연구자들이 몰입형 가상 세계를 설계하거나 경험하기 위해 3D 및 IMU 센서를 결합하는 등의 새로운 시스템을 개발하려는 노력을 돕는다.
또한, 이미지바인드는 텍스트, 오디오, 이미지의 조합을 활용하여 사진, 비디오, 오디오 파일 또는 텍스트 메시지를 검색하고 추억을 탐색하는 방법을 제공할 수 있다는 것이 메타의 전망이다.
이렇게 보면 이미지바인드는 사용자가 자신의 디지털 추억을 더 효과적으로 관리하고 탐색할 수 있도록 도와주는 매개체가 될 수 있다.
즉, 이미지바인드는 기계가 사람과 같이 다양한 감각을 통합적으로 이해하고 경험을 생성하는 능력을 부여하는 도구로, 이를 통해 가상 현실, 증강 현실 등의 분야에서 새로운 가능성을 열어줄 것으로 기대된다.
이제 이미지바인드의 테스트와 오픈 소싱이 시작되며, 앞으로 어떤 변화와 발전이 이루어질지 주목할 필요가 있다.
관련뉴스