마이크로소프트, Phi-4-Reasoning-Vision-15B 출시: 수학, 과학, GUI 이해를 위한 소형 멀티모달 모델

마이크로소프트, Phi-4-Reasoning-Vision-15B 출시: 수학, 과학, GUI 이해를 위한 소형 멀티모달 모델

최근 딥러닝 모델들은 비상한 발전을 거듭하며, 특히 이미지와 텍스트를 함께 이해하는 멀티모달 모델은 다양한 분야에서 혁신적인 가능성을 제시하고 있습니다. 그러나 이러한 모델들은 규모가 커질수록 막대한 컴퓨팅 자원과 데이터가 요구되는 반면, 추론 속도 저하와 배포 비용 증가라는 문제점도 안고 있습니다. 이러한 문제를 해결하고, 효율적인 성능을 유지하면서도 특정 분야에 특화된 모델을 개발하기 위한 노력이 계속되고 있습니다. 마이크로소프트 역시 이러한 흐름에 발맞춰 새로운 멀티모달 모델인 Phi-4-Reasoning-Vision-15B를 공개하며 주목을 받고 있습니다.

Phi-4-Reasoning-Vision-15B는 기존 모델들이 겪던 어려움을 극복하고, 특정 분야에서 뛰어난 성능을 발휘할 수 있도록 설계되었습니다. 이 모델은 과학 및 수학적 추론, 사용자 인터페이스 이해와 같은 까다로운 작업에서 효율성을 높이고, 멀티모달 기술의 활용 범위를 확대하는 데 기여할 것으로 기대됩니다. 이번 출시를 통해 멀티모달 기술의 발전 방향과 마이크로소프트의 전략을 엿볼 수 있을 것입니다.

Phi-4-Reasoning-Vision-15B의 핵심 구성 요소와 설계 철학

Phi-4-Reasoning-Vision-15B는 Phi-4-Reasoning 언어 모델과 SigLIP-2 비전 인코더를 결합하여 구축되었습니다. 이 두 가지 구성 요소는 미드-퓨전 아키텍처를 통해 연결되어 있으며, 이는 이미지 데이터를 시각적 토큰으로 변환한 후, 이를 언어 모델 임베딩 공간으로 투영하여 처리하는 방식을 의미합니다. 이러한 설계는 강력한 크로스-모달 추론을 유지하면서도, 무거운 이른-퓨전 디자인에 비해 훈련 및 추론 비용을 관리 가능하게 만드는 실용적인 절충안이라고 할 수 있습니다. 특히, 멀티모달 학습 데이터 부족 문제를 해결하기 위해 기존 모델의 기반을 활용했습니다.

소형 모델 전략의 배경과 장점

최근의 비전-언어 모델들은 파라미터 수와 토큰 사용량이 증가하는 추세에 있습니다. 이는 지연 시간 증가 및 배포 비용 증가로 이어질 수 있습니다. 마이크로소프트는 이러한 문제를 해결하기 위해 Phi-4-Reasoning-Vision-15B를 더 작은 모델로 설계했습니다. 이 모델은 매우 큰 훈련 데이터 세트나 과도한 추론 시간 토큰 생성에 의존하지 않고도 일반적인 멀티모달 워크로드를 처리할 수 있습니다. 2000억 개의 멀티모달 토큰으로 훈련되었으며, 이는 Phi-4-Reasoning (160억 개의 토큰) 및 Phi-4 기본 모델 (400억 개의 고유 토큰)을 기반으로 합니다. 이는 Qwen 2.5 VL, Qwen 3 VL, Kimi-VL, Gemma 3과 같은 최근의 멀티모달 모델에 사용된 1조 토큰보다 훨씬 적은 규모입니다. 이러한 소형 모델 전략은 모델의 효율성을 높이고, 다양한 환경에서 활용될 수 있도록 돕는 중요한 요소입니다.

고해상도 인식의 중요성과 구현 방식

마이크로소프트 팀은 멀티모달 추론 실패의 주요 원인이 종종 인식 실패에서 비롯된다는 것을 발견했습니다. 모델이 추론 능력 부족으로 답을 맞히지 못하는 것이 아니라, 고밀도 이미지에서 관련 시각적 세부 사항을 추출하는 데 실패하기 때문입니다. Phi-4-Reasoning-Vision-15B는 이러한 문제를 해결하기 위해 동적 해상도 비전 인코더를 사용하며, 최대 3,600개의 시각적 토큰을 지원합니다. 이를 통해 GUI 그래운딩 및 세밀한 문서 분석과 같은 고해상도 이해 작업을 지원합니다. 마이크로소프트 팀은 고해상도, 동적 해상도 인코더가 일관된 개선을 가져다주며, 정확한 인식은 고품질 추론의 필수 조건이라고 강조합니다. 멀티모달 모델의 성능을 극대화하기 위해서는 멀티모달 데이터의 질 또한 매우 중요합니다.

혼합 추론 전략: 효율성과 정확성 확보

Phi-4-Reasoning-Vision-15B는 모든 작업에 체인-오브-소트(Chain-of-Thought) 스타일의 추론을 강제하는 대신, 멀티모달 추론과 비-추론 훈련 전략을 혼합하여 사용합니다. 추론 샘플은 <think>…</think> 트레이스를 포함하며, 비-추론 샘플은 <nothink>로 시작하여 캡션, 그래운딩, OCR, 간단한 VQA와 같은 인지-중심 작업을 위해 사용됩니다. 추론 데이터는 전체 훈련 혼합물의 약 20%를 차지합니다. 이 하이브리드 설정은 더 긴 추론이 정확성을 향상시키지 않는 작업에서 모델이 직접 응답할 수 있도록 하고, 수학 및 과학과 같은 작업에서는 구조화된 추론을 호출할 수 있도록 합니다. 멀티모달 모델의 성능 향상을 위해 다양한 데이터셋을 활용하는 전략이 필요합니다.

주요 응용 분야와 성능

마이크로소프트 팀은 과학 및 수학적 추론(손으로 쓴 방정식, 다이어그램, 차트, 테이블, 정량적 문서)과 컴퓨터 사용 에이전트 작업(스크린 콘텐츠 해석, GUI 요소 위치 지정, 데스크톱, 웹 또는 모바일 인터페이스 상호 작용 지원)의 두 가지 주요 응용 분야를 강조합니다. 이 모델은 AI2DTEST, ChartQATEST, MathVerseMINI, MathVisionMINI, MathVistaMINI, MMMUVAL, MMStar, OCRBench 및 ScreenSpotv2에서 강력한 성능을 보였습니다. 이러한 결과는 모델이 멀티모달 분야에서 경쟁력 있는 성능을 제공한다는 것을 시사합니다.

결론

Phi-4-Reasoning-Vision-15B는 멀티모달 기술의 발전 방향을 보여주는 중요한 모델입니다. 마이크로소프트는 이 모델을 통해 효율성과 성능을 모두 갖춘 멀티모달 솔루션을 제공하고자 노력하고 있으며, 앞으로 이 모델이 다양한 분야에서 활용될 것으로 기대됩니다. 특히, 과학, 수학, 문서 이해, GUI 그래운딩과 같은 특정 분야에서 뛰어난 성능을 발휘할 수 있도록 설계되었으며, 멀티모달 기술의 활용 범위를 더욱 넓힐 것으로 전망됩니다.

심층 분석 및 시사점

Array

원문 출처: Microsoft Releases Phi-4-Reasoning-Vision-15B: A Compact Multimodal Model for Math, Science, and GUI Understanding

Gemini 3.0: 구글의 AI 전략 전환과 업무 자동화 시대AI 뉴스 & 트렌드

Gemini 3.0: 구글의 AI 전략 전환과 업무 자동화 시대

PENTACROSSPENTACROSS2026년 03월 07일
Liquid AI, LFM2-24B-A2B 출시: 온디바이스 AI 에이전트 워크플로우를 위한 새로운 가능성AI 뉴스 & 트렌드

Liquid AI, LFM2-24B-A2B 출시: 온디바이스 AI 에이전트 워크플로우를 위한 새로운 가능성

PENTACROSSPENTACROSS2026년 03월 07일
OpenAI 심포니: 구조화된 실행을 통한 자율 AI 코딩 에이전트 오케스트레이션 오픈 소스 프레임워크 출시AI 뉴스 & 트렌드

OpenAI 심포니: 구조화된 실행을 통한 자율 AI 코딩 에이전트 오케스트레이션 오픈 소스 프레임워크 출시

PENTACROSSPENTACROSS2026년 03월 07일
English English