사하라에이아이, 마이크로소프트 멀티모달 수학 추론 벤치마크 구축 참여

MATHVISTA 구축
6000건 라벨링

사하라 AI는 17일 마이크로소프트 리서치와 함께 멀티모달 AI 평가용 벤치마크인 MATHVISTA 구축에 참여했다고 밝혔다.

사하라 AI에 따르면 이 벤치마크에는 6000건 이상의 정밀 라벨링 데이터가 들어갔다. MATHVISTA는 GPT-4V, 바드, 클로드, 제미니 같은 모델의 이미지 기반 수학 추론 성능을 시험하는 데 쓰인다.

마이크로소프트 리서치의 하오 청 수석 연구원은 이 작업이 복잡한 지침 이해와 논리 추론이 필요해 다른 라벨링 제공처가 맡기 어려운 과제였다고 말했다.

사하라 AI는 작업자가 산술, 대수, 기하, 통계, 시계열 수치 판단 같은 과제를 맡았다고 적었다. 또 단순 숫자 읽기와 실제 수학 추론이 필요한 문제를 구분해야 했다고 설명했다.

사하라 AI에 따르면 MATHVISTA는 지난 한 달 1만3000회 이상 내려받았고 누적 다운로드는 27만5864회다. 12개 기반 모델을 평가한 논문에서는 GPT-4V 정확도가 49.9%로 사람보다 10.4%포인트 낮게 나왔다고 덧붙였다.

사하라 AI는 마이크로소프트 리서치와 추가 협업도 이어갈 계획이라고 밝혔다.

✉ eb@economybloc.com

관련뉴스