NVIDIA 네모트론 3 슈퍼: 오픈 소스 하이브리드 맘바-어텐션 MoE 모델 출시, 에이전트 AI를 위한 처리량 5배 향상

인공지능 분야에서 폐쇄형(proprietary) 거대 모델과 투명한 오픈 소스 모델 간의 격차가 빠르게 좁혀지고 있습니다. 최근 NVIDIA가 공개한 Nemotron 3 Super는 이러한 변화를 보여주는 대표적인 사례입니다. 이 모델은 1200억 개의 파라미터로 구성되어 있으며, 복잡한 다중 에이전트 애플리케이션을 위해 특별히 설계되었습니다. 네모트론 3 Super의 등장은 AI 모델 개발의 새로운 지평을 열고 있습니다.

NVIDIA는 Nemotron 3 Super를 통해 AI 모델의 성능과 효율성, 그리고 접근성을 획기적으로 개선했습니다. 이 모델은 가벼운 300억 파라미터 모델인 Nemotron 3 Nano와 500억 파라미터 모델인 Nemotron 3 Ultra 사이에 위치하며, 기존 세대에 비해 최대 7배 더 높은 처리량과 두 배 더 높은 정확도를 제공합니다. 네모트론 3 Super는 개발자들이 성능과 효율성 사이에서 타협할 필요 없이 혁신적인 애플리케이션을 개발할 수 있도록 지원합니다.

Nemotron 3 Super의 혁신: 5가지 핵심 기술

Nemotron 3 Super의 뛰어난 성능은 다섯 가지 주요 기술적 혁신에 의해 뒷받침됩니다. 이러한 혁신은 모델의 효율성과 정확성을 극대화하여 다중 에이전트 AI 시스템에 적합한 환경을 제공합니다.

하이브리드 MoE 아키텍처: 이 모델은 메모리 효율적인 Mamba 레이어와 고정밀 Transformer 레이어를 지능적으로 결합합니다. 각 토큰을 생성할 때 일부 파라미터만 활성화하여 KV 및 SSM 캐시 사용 효율성을 4배 향상시킵니다.
멀티 토큰 예측 (MTP): 모델은 여러 미래 토큰을 동시에 예측하여 복잡한 추론 작업에서 최대 3배 빠른 추론 시간을 제공합니다. 이는 네모트론 모델의 빠른 속도를 가능하게 하는 중요한 요소입니다.
1백만 컨텍스트 윈도우: 이전 세대에 비해 7배 더 큰 컨텍스트 길이를 자랑하며, 개발자는 대량의 기술 보고서나 전체 코드를 모델 메모리에 직접 넣을 수 있습니다. 이는 다단계 워크플로우에서 재추론의 필요성을 없애줍니다.
잠재 MoE: 이 기술은 정보를 압축하고 동일한 컴퓨팅 비용으로 네 명의 전문가를 활성화할 수 있습니다. 이러한 혁신 없이는 동일한 정확도를 달성하기 위해 모델을 35배 더 크게 만들어야 했을 것입니다.
NeMo RL Gym 통합: 모델은 정적 텍스트뿐만 아니라 동적 피드백 루프를 통해 상호 작용 강화 학습 파이프라인을 통해 학습합니다. 이를 통해 지능 지수(Intelligence Index)를 효과적으로 두 배로 늘립니다.

다중 에이전트 AI를 위한 궁극적인 엔진, 네모트론 3 슈퍼

네모트론 3 Super는 단순한 대규모 언어 모델이 아니라, 계획, 검증, 복잡한 작업을 광범위한 시스템의 전문 모델 내에서 실행하도록 설계된 추론 엔진입니다. 이 모델의 아키텍처는 다중 에이전트 워크플로우에 혁신을 가져올 것입니다.

심층 추론을 위한 높은 처리량: 모델의 7배 더 높은 처리량은 탐색 공간을 물리적으로 확장합니다. 더 많은 토큰을 빠르게 처리하고 생성할 수 있으므로 더 많은 경로를 탐색하고 더 나은 응답을 평가할 수 있습니다.
장기 워크플로우에서의 재추론 방지: 다중 에이전트 시스템에서 에이전트는 끊임없이 컨텍스트를 주고받습니다. 1백만 토큰 컨텍스트 윈도우를 통해 모델은 전체 코드베이스나 긴 다단계 에이전트 대화 기록과 같은 방대한 상태를 메모리에 직접 유지할 수 있습니다.
에이전트별 훈련 환경: 모델 파이프라인은 정적 텍스트 데이터 세트에만 의존하는 것이 아니라, 15개 이상의 상호 작용 강화 학습 환경으로 확장되었습니다.
고급 도구 호출 기능: 실제 다중 에이전트 애플리케이션에서 모델은 텍스트로 응답하는 것뿐만 아니라 행동해야 합니다. 네모트론 3 Super는 출시 즉시 강력한 도구 호출 능력을 입증했습니다.

오픈 소스 및 훈련 규모

NVIDIA는 단순히 모델 가중치를 공개하는 것을 넘어 모델 스택 전체를 오픈 소스로 공개했습니다. 여기에는 훈련 데이터 세트, 라이브러리, 강화 학습 환경이 포함됩니다. 이러한 투명성은 Artificial Analysis에 의해 Nemotron 3 Super가 가장 매력적인 사분면에 속한다고 평가받는 근거가 되었습니다. 이 모델의 지능은 10조 개의 선별된 토큰으로 구성된 데이터 세트를 기반으로 구축되었으며, 고급 코딩 및 추론 작업에 90억~100억 개의 토큰이 추가되었습니다. 이는 네모트론 모델의 핵심 경쟁력입니다.

개발자를 위한 제어: ‘추론 예산’ 도입

원시 파라미터 수와 벤치마크 점수는 인상적이지만, 실제 기업 개발자는 지연 시간, 사용자 경험, 컴퓨팅 비용에 대한 정확한 제어가 필요합니다. NVIDIA는 ‘추론 예산’이라는 혁신적인 기능을 도입하여 지능과 속도 사이의 고전적인 딜레마를 해결했습니다. 개발자는 이제 특정 작업에 가장 적합한 모델의 ‘생각’ 정도를 동적으로 조정할 수 있습니다. 이를 통해 네모트론 모델은 사용자에게 최적의 답변을 제공하는 데 필요한 정확한 컴퓨팅 자원을 할당할 수 있습니다.

현실 세계 애플리케이션 및 가용성

네모트론 3 Super는 이미 소프트웨어 개발, 사이버 보안, 주권 AI 등 다양한 분야에서 뛰어난 성능을 입증하고 있습니다. 특히, 인도, 베트남, 한국, 유럽과 같은 지역에서 특정 지역 및 규제 프레임워크에 맞게 특화된 모델을 구축하는 데 활용되고 있습니다.

Nemotron 3 Super는 BF16, FP8, NVFP4 양자화 방식을 지원하며, DGX Spark에서 실행하려면 NVFP4가 필요합니다. Hugging Face에서 모델을 확인하고 연구 논문과 기술/개발자 블로그에서 자세한 정보를 얻을 수 있습니다.

심층 분석 및 시사점

Array

원문 출처: NVIDIA Releases Nemotron 3 Super: A 120B Parameter Open-Source Hybrid Mamba-Attention MoE Model Delivering 5x Higher Throughput for Agentic AI

NVIDIA 네모트론 3 슈퍼: 오픈 소스 하이브리드 맘바-어텐션 MoE 모델 출시, 에이전트 AI를 위한 처리량 5배 향상

Nemotron 3 Super의 혁신: 5가지 핵심 기술

다중 에이전트 AI를 위한 궁극적인 엔진, 네모트론 3 슈퍼

오픈 소스 및 훈련 규모

개발자를 위한 제어: ‘추론 예산’ 도입

현실 세계 애플리케이션 및 가용성

심층 분석 및 시사점

💡 함께 보면 좋은 글

Gemini Embedding 2: A New Vector Model for Multimodal Data

AI 자율 실험: Andrej Karpathy의 630라인 Python 툴, Autoresearch

자기 설계 메타 에이전트 구축: 자동 구성, 인스턴스화 및 개선

Kling Motion Control 3.0 출시: 얼굴 일관성 유지 시스템 ‘Element Binding’ 도입

PENTACROSS

NVIDIA 네모트론 3 슈퍼: 오픈 소스 하이브리드 맘바-어텐션 MoE 모델 출시, 에이전트 AI를 위한 처리량 5배 향상

Nemotron 3 Super의 혁신: 5가지 핵심 기술

다중 에이전트 AI를 위한 궁극적인 엔진, 네모트론 3 슈퍼

오픈 소스 및 훈련 규모

개발자를 위한 제어: ‘추론 예산’ 도입

현실 세계 애플리케이션 및 가용성

심층 분석 및 시사점

💡 함께 보면 좋은 글

Gemini Embedding 2: A New Vector Model for Multimodal Data

You May Also Like

AI 자율 실험: Andrej Karpathy의 630라인 Python 툴, Autoresearch

자기 설계 메타 에이전트 구축: 자동 구성, 인스턴스화 및 개선

Kling Motion Control 3.0 출시: 얼굴 일관성 유지 시스템 ‘Element Binding’ 도입

PENTACROSS