NVIDIA, 터미널 AI 에이전트 학습을 위한 데이터 엔지니어링 파이프라인 공개
최근 인공지능 분야에서 터미널 에이전트를 구축하기 위한 경쟁이 치열하게 전개되고 있지만, 데이터 부족이라는 심각한 난관에 부딪히고 있습니다. Claude Code나 Codex CLI와 같은 선도 모델들이 터미널 환경에서 뛰어난 성능을 보여줬지만, 이러한 모델들을 학습시키는 데 사용된 전략과 데이터 혼합 방식은 철저히 비밀에 부쳐져 있었습니다. 이러한 투명성 부족은 연구자와 개발자들이 시행착오를 거듭하는 결과를 초래했으며, 이는 상당한 비용과 시간을 낭비하게 만들었습니다. 터미널 에이전트 개발의 새로운 지평을 열기 위한 돌파구가 필요한 시점입니다.
NVIDIA는 이러한 상황을 타개하기 위해 고성능 터미널 에이전트 구축을 위한 종합적인 프레임워크를 공개했습니다. Terminal-Task-Gen과 Terminal-Corpus 데이터셋을 도입함으로써, NVIDIA는 개발자 커뮤니티에게 터미널 에이전트를 구축하기 위한 설계도를 제공하는 것과 같습니다. 단순한 코딩 대화가 아닌, 외과적 정밀도로 코드를 실행하는 에이전트 개발을 가능하게 하는 혁신적인 기술입니다.
데이터 희소성 문제의 심각성
터미널 환경에서 에이전트를 학습시키는 데 어려움은 twofold입니다. 첫째, 다양한 작업 프롬프트와 현실적인 환경을 구축하는 데 필요한 복잡한 의존성 파일과 같은 기초 자료의 부족 문제입니다. 둘째, 단계별 터미널 상호작용(‘트랙제토리’)을 캡처하는 것이 물류적으로 매우 어렵다는 점입니다. 인간의 상호작용은 기록하는 데 시간이 오래 걸리고, LLM 에이전트를 통한 합성 생성은 매 턴마다 새로운 Docker 환경을 시작해야 하므로 비용이 과도하게 듭니다. 이러한 터미널 에이전트 학습 과정의 어려움은 개발자들의 혁신적인 해결책을 요구하고 있습니다.
NVIDIA의 해결책: Terminal-Task-Gen
NVIDIA의 해결책은 ‘coarse-to-fine’ 데이터 생성 파이프라인인 Terminal-Task-Gen입니다. 이 파이프라인은 두 가지 뚜렷한 전략을 활용하여 비용을 들이지 않고도 학습 데이터를 확장합니다.
1. 데이터셋 적응 (Coarse Layer)
NVIDIA는 처음부터 시작하는 대신, 수학, 코드, 소프트웨어 엔지니어링(SWE) 도메인의 고품질 기존 지도 미세 조정(SFT) 데이터셋을 활용합니다. 이들은 이러한 정적 프롬프트를 상호 작용형 터미널 작업으로 변환합니다.
- 수학 및 코드: 163K개의 수학 프롬프트와 35K개의 코드 프롬프트를 사용하여 터미널 스캐폴드에 이 과제들을 래핑합니다.
- SWE: SWE-bench 및 SWE-reBench와 같은 저장소에서 32K개의 고유한 프롬프트를 가져옵니다. 중요한 점은 이 프로세스에서 초기 적응 단계에서 LLM이 필요하지 않아 효율적으로 데이터를 확장할 수 있다는 것입니다.
터미널 에이전트 학습을 위한 데이터 확보의 효율성을 높이는 핵심 전략입니다.
2. 합성 작업 생성 (Fine Layer)
일반적인 추론과 터미널 에이전시의 특정 요구 사항 사이의 격차를 해소하기 위해, NVIDIA 팀은 Terminal-Task-Gen을 사용하여 새롭고 실행 가능한 작업을 생성합니다.
- Seed 기반 생성: LLM은 기존의 과학 컴퓨팅 또는 알고리즘 문제를 ‘영감’으로 사용하여 새 작업을 합성합니다. 에이전트는 패키지를 설치하고 입력 파일을 읽고 결과를 작성해야 하므로 실제 개발자 워크플로우를 반영합니다.
- Skill 기반 생성: NVIDIA는 보안, 데이터 과학 및 시스템 관리와 같은 9개 도메인에 걸쳐 ‘primitive 터미널 기술’의 분류를 큐레이션했습니다. LLM은 그래프 탐색 + 네트워크 구성 + 파일 I/O와 같은 3~5개의 기술을 결합하여 단일의 복잡한 작업을 지시받습니다.
터미널 에이전트의 복잡한 기술적 과제를 해결하기 위한 정교한 전략입니다.
인프라 오버헤드 해결: Pre-Built Docker Images
이 연구에서 가장 중요한 엔지니어링 돌파구 중 하나는 Pre-Built Docker Images를 사용하는 것입니다. 이전 프레임워크는 각 작업마다 고유한 Dockerfile을 생성하여 빌드 시간이 크게 늘어나고 빈번한 실패를 초래했습니다. NVIDIA 팀은 대신 필수 라이브러리(예: 데이터 과학을 위한 pandas 또는 보안을 위한 암호화 도구)가 사전 구성된 9개의 공유 기본 이미지를 유지합니다. 이 ‘단일 패스’ 생성 방법은 대규모 병렬화를 가능하게 하고 리소스 발자국을 크게 줄입니다.
놀라운 성능 향상
이 데이터 중심 접근 방식의 결과는 놀랍습니다. NVIDIA 팀은 이 파이프라인을 사용하여 Qwen3에서 초기화된 Nemotron-Terminal 제품군을 학습했습니다.
기계 학습 모델을 훈련하거나 시스템 환경을 디버깅하는 것과 같은 엔드 투 엔드 워크플로우에 대해 에이전트를 테스트하는 Terminal-Bench 2.0 벤치마크에서 개선 사항은 뚜렷했습니다.
- Nemotron-Terminal-8B: 성공률이 2.5%에서 13.0%로 상승했습니다.
- Nemotron-Terminal-32B: 27.4%의 정확도를 달성했습니다.
이러한 결과는 32B 모델이 480B Qwen3-Coder(23.9%)보다 우수한 성능을 보였으며, Grok 4(23.1%) 및 GPT-5-Mini(24.0%)와 같은 독점적인 거대 모델과 경쟁할 수 있음을 입증합니다. 이는 터미널 에이전트의 경우 sheer parameter scale보다 고품질의 다양성이 풍부한 trajectory 데이터가 더욱 강력한 요소임을 보여줍니다.
주요 통찰력
NVIDIA의 연구는 데이터 엔지니어링에 대한 몇 가지 일반적인 신화를 뒤집습니다.
- 오류 필터링을 하지 마십시오: 연구팀은 ‘실패’한 trajectory를 훈련 데이터에서 필터링하지 않고 유지하는 것이 성능을 향상시켰습니다(12.4% vs 5.06% for success-only filtering). 모델에 실제 오류 상태와 복구 패턴을 노출하면 더욱 강력해집니다.
- Curriculum 학습을 건너뛰십시오: 연구팀은 쉬운 데이터부터 어려운 데이터까지 순차적으로 학습하는 ‘curriculum learning’을 실험했지만, 단순한 혼합 훈련이 훨씬 효과적입니다.
- Context Length 제한: 터미널 trajectory는 길 수 있지만, 대부분의 고품질 supervision은 표준 32,768-token 창 내에 들어맞습니다. Context Length를 약간 늘리면 성능이 저하될 가능성이 높습니다. 이는 long-tail trajectory가 경향적으로 노이즈가 많기 때문입니다.
터미널 에이전트 개발에 있어 데이터 관리의 중요성을 강조하는 내용입니다.
더 자세한 정보는 Paper 및 HF Project Page에서 확인할 수 있습니다. 또한 트위터에서 팔로우하고, 12만 명 이상의 ML SubReddit에 참여하고, 뉴스레터 구독하는 것을 잊지 마십시오. Telegram에도 참여하실 수 있습니다!
The post NVIDIA AI Releases Nemotron-Terminal: A Systematic Data Engineering Pipeline for Scaling LLM Terminal Agents first appeared on MarkTechPost.
심층 분석 및 시사점
Array
한국어
English
日本語