Categories: AI 뉴스 & 트렌드

NVIDIA의 오픈 데이터 구축 방식: AI 개발을 위한 협력

인공지능(AI) 기술의 발전은 모델의 성능과 효율성에 초점을 맞추는 경향이 있습니다. 하지만 AI 모델의 동작 방식은 궁극적으로 모델 학습에 사용되는 데이터 레이어에 크게 좌우됩니다. 특히 자율적인 에이전트 시스템이 발전함에 따라, 학습 데이터는 에이전트의 지식, 추론 능력, 안전성 등을 결정하는 중요한 요소가 됩니다. 그러나 현재 많은 학습 데이터는 투명하지 않거나, 단편화되어 있고, 팀 내에서만 공유되는 경우가 많습니다.

이러한 상황을 해결하기 위해 NVIDIA는 오픈 데이터 접근 방식을 채택하고 있습니다. 오픈 데이터는 개발자들이 고품질 모델을 구축하는 데 필요한 시간과 비용을 줄여주고, 에코시스템 전반에 걸쳐 모델 평가 및 개선을 용이하게 합니다. 이러한 이유로 NVIDIA는 오픈 모델, 도구, 훈련 기술과 함께 오픈 데이터 세트를 공개하고 있습니다. 이는 AI 개발의 새로운 패러다임을 제시하며, 업계 전체에 긍정적인 영향을 미칠 것으로 예상됩니다.

Toggle

AI-Data Bottlenecks (AI 데이터 병목 현상)

고품질 데이터 세트 구축은 여전히 AI 개발의 가장 큰 병목 현상 중 하나입니다. 많은 조직이 단일 모델 훈련 실행 전에 수백만 달러를 투자하고 몇 달, 심지어 1년 이상을 들여 데이터를 수집, 주석 처리 및 검증하는 데 시간을 소비합니다. 모델을 배포하더라도 도메인 전문 지식과 평가 프레임워크에 대한 접근성은 지속적인 과제로 남아있습니다. NVIDIA는 허용적인 라이선스로 HuggingFace에 데이터 세트를 게시하고 즉시 개발자가 구축할 수 있도록 GitHub에 훈련 레시피 및 평가 프레임워크를 제공하여 이러한 마찰을 줄이는 것을 목표로 합니다. 현재까지 NVIDIA는 180개 이상의 데이터 세트와 650개 이상의 오픈 모델을 통해 2페타바이트 이상의 AI 준비 훈련 데이터를 공유했으며, 이는 앞으로 더욱 확대될 것입니다.

Real-World Open Datasets (실제 오픈 데이터 세트)

NVIDIA의 오픈 데이터 릴리스는 로봇공학 및 자율 시스템부터 주권 AI, 생물학, 평가 벤치마크에 이르기까지 다양한 도메인을 포괄합니다. NVIDIA의 팀에서 구축한 이 데이터 세트는 공유된 데이터가 실제 AI 개발을 어떻게 가속화할 수 있는지 보여줍니다. NVIDIA는 오픈 데이터를 통해 다양한 분야에서 혁신적인 결과들을 만들어내고 있으며, 이는 AI 연구 및 개발에 새로운 가능성을 제시합니다.

Physical AI Collection (물리 AI 컬렉션)

로봇 공학 시스템은 구조화되고 다중 양식의 데이터를 필요로 합니다. 이 컬렉션에는 50만 개 이상의 로봇 공학 궤적, 5,700만 개의 그립 및 15TB의 다중 양식 데이터가 포함되어 있습니다. 여기에는 여러 그리퍼 유형 및 센서 구성에서 NVIDIA GR00T 추론 비전-언어-액션 모델을 개발하는 데 사용된 자산이 포함됩니다. 이 데이터 세트는 1,000만 회 이상 다운로드되었으며 Runway와 같이 최근에 출시된 GWM-Robotics 월드 모델을 개발한 기업과 로봇 시뮬레이션 회사 Lightwheel가 사용하고 있습니다. 또한 이 컬렉션에는 25개국 및 2,500개 이상의 도시를 아우르는 7대 카메라 구성, LiDAR 및 레이더를 포함한 1,700시간 이상의 다중 센서 데이터가 포함된 가장 지리적으로 다양한 AV 데이터 세트 중 하나가 포함되어 있습니다. 이러한 광범위한 적용 범위는 다양한 주행 환경에서 인지 벤치마킹을 지원하고 학업 데이터 세트를 광범위한 상업적 사용성으로 보완합니다.

Nemotron Personas Collection (Nemotron 페르소나 컬렉션)

Nemotron 페르소나는 실제 인구 통계 분포에 근거한 완전한 합성 페르소나 데이터 세트로, 지역 및 언어에 걸쳐 다양한 문화적으로 진정성 있는 개인을 대규모로 생성합니다. 이 컬렉션은 주권 AI 개발을 지원하며 현재 다음과 같은 인구 규모의 데이터 세트를 포함합니다. 미국(600만 명), 일본(600만 명), 인도(2,100만 명), 브라질(600만 명)(WideLabs와 공동 개발), 싱가포르(888,000명)(AI 싱가포르와 공동 개발). 이러한 데이터 세트는 이미 전 세계적으로 실제 배포를 지원하고 있습니다. CrowdStrike는 200만 명의 페르소나를 사용하여 NL→CQL 변환 정확도를 50.7%에서 90.4%로 개선했습니다. NTT Data와 APTO는 일본에서 데이터 세트를 사용하여 최소한의 독점 데이터로 도메인별 지식을 부트스트랩하여 법률 QA 정확도를 15.3%에서 79.3%로 개선하고 공격 성공률을 7%에서 0%로 줄였습니다. 또한 이 데이터 세트는 Nejumi 리더보드 최상위에 도달한 최첨단 10B 모델인 NVIDIA Nemotron-Nano-9B-v2-Japanese 개발을 지원했습니다.

La Proteina (라 프로테이나)

La Proteina는 생물학적 모델링 및 약물 발견 워크플로우를 위한 완전한 합성, 원자 수준의 단백질 데이터 세트입니다. 455,000개의 구조와 이전 기준보다 73%의 구조적 다양성 향상을 제공하며, PII 또는 라이선스 제약 없이 설계 준비가 된 분자 표현을 제공합니다. 옥스퍼드, 밀라, CIFAR의 연구자들과의 개방적인 협력을 통해 가능하게 된 과학적인 성과입니다.

SPEED-Bench (스피드 벤치)

SPEED-Bench는 추정 디코딩 성능을 평가하기 위한 표준 벤치마크입니다. 이 벤치마크에는 11가지 텍스트 범주에 걸쳐 의미적 다양성을 극대화하는 정성적 분할과 실제 의미 데이터로 정확한 처리량 파레토 곡선을 구축하기 위해 입력 시퀀스 길이 버킷(1K–32K)으로 구성된 처리량 분할의 두 가지 분할이 있습니다. 이미 Nemotron MTP 성능을 위한 주요 벤치마크로 내부적으로 채택된 SPEED-Bench는 팀이 프롬프트 복잡성과 컨텍스트 길이에 따라 초안 성능을 일관되게 평가할 수 있는 방법론을 제공합니다.

Retrieval-Synthetic-NVDocs-v1 (검색-합성-NVDocs-v1)

이 합성 검색 데이터 세트는 15,000개의 NVIDIA 공개 문서에서 생성된 쿼리, 패사지, 답변의 110,000개의 3중항을 제공합니다. 임베딩 및 RAG 시스템을 훈련하고 평가하도록 설계된 이 데이터 세트는 사실, 관계, 절차, 추론, 시간, 원인, 시각 등 다양한 추론 유형을 포함하는 의미론적으로 풍부한 QA 쌍과 구조, 다중 홉, 컨텍스트 쿼리와 같은 다양한 쿼리 유형을 제공합니다. 이 도메인 내 임베딩 모델의 미세 조정은 NDCG@10에서 11%의 성능 향상을 보여줍니다. 데이터 세트는 약 3~4일 안에 생성할 수 있으며, 8×A100 GPU에서 미세 조정에는 약 2시간이 소요되어 데이터 세트에서 배포된 모델로 빠른 반복을 가능하게 합니다.

Nemotron-ClimbMix (네모트론-클림믹스)

ClimbMix는 CLIMB 알고리즘을 사용하여 구축된 400B 토큰 사전 훈련 데이터 세트입니다. 이 알고리즘은 임베딩 기반 클러스터링과 반복적인 개선을 사용하여 언어 모델 훈련을 위한 고품질 데이터 혼합을 식별합니다. 이 데이터 세트는 이미 커뮤니티의 강력한 지지를 얻고 있습니다. Andrej Karpathy는 Nemotron-ClimbMix가 Time-to-GPT-2 리더보드에서 가장 큰 개선을 제공했다고 강조했으며, NanoChat Speedrun의 기본 데이터 레시피로 채택되었고 이전 FineWeb-Edu 설정을 사용하여 H100 컴퓨팅 시간을 약 33% 줄였습니다. ClimbMix는 CC-BY-NC-4.0 라이선스에 따라 공개됩니다.

이러한 공개는 다양한 모달리티와 모델 수명 주기 단계에서 AI 개발자가 의존하는 공유 참조 계층에 대한 지속적인 투자를 반영합니다. 오픈 데이터는 혁신적인 AI 모델 개발에 필수적인 요소이며, NVIDIA는 이러한 발전에 적극적으로 기여하고 있습니다.

Nemotron Training Datasets (네모트론 훈련 데이터 세트)

NVIDIA의 오픈 데이터 작업의 주요 구성 요소 중 하나는 Nemotron 모델 제품군을 훈련하고 정렬하는 데 사용되는 데이터 세트입니다. 지난 1년 동안 이러한 데이터 세트는 추론, 코딩 및 다국어 기능에 대한 지원을 강화하기 위해 진화해 왔습니다.

Nemotron Pre-Training Evolution (네모트론 사전 훈련 진화)

이전 릴리스는 일반 웹 코푸라에 크게 의존했지만 최신 릴리스는 수학, 코드 및 STEM 지식과 같은 고신호 도메인을 강조합니다. 이러한 신호 밀도의 증가는 모델이 강력한 추론 및 문제 해결 기능을 학습할 수 있도록 합니다. Nemotron 사전 훈련 스택에는 다음과 같은 다양한 기능에 대한 맞춤형 데이터 세트가 포함됩니다. Nemotron-CC – 전역적으로 중복 제거된 웹 데이터는 더 높은 신호 밀도를 위해 재작성되었습니다. Nemotron-CC-Math and Nemotron-CC-Code – 수학 및 코드 추론을 보존하는 LaTeX 및 코드 형식을 유지합니다. Nemotron-Pretraining-Code – 대규모 코드 저장소에서 큐레이팅된 프로그래밍 데이터 세트. Nemotron-Pretraining-Specialized – 알고리즘, 경제, 논리, STEM 추론과 같은 주요 도메인에서 기능을 향상시키기 위한 합성 데이터 세트. 함께 이러한 데이터 세트는 추론, 코딩 및 다국어 이해가 가능한 범용 언어 모델의 기초를 형성합니다.

Nemotron-Post-Training Evolution (네모트론-사후 훈련 진화)

모델이 더 강력해짐에 따라 사후 훈련 데이터는 모델 동작을 형성하는 데 더 큰 역할을 합니다. 최신 릴리스는 다국어 다양성, 구조화된 추론 감독 및 에이전트 스타일 상호 작용 데이터에 대한 강조가 더 큽니다. Nemotron 사후 훈련 스택에는 다음과 같은 주요 데이터 세트가 포함됩니다. Nemotron-Instruction-Following-Chat – 구조화된 대화 감독. Nemotron-Science – 합성 과학 추론 데이터 세트. Nemotron-Math-Proofs – 공식 수학 추론 데이터 세트. Nemotron-Agentic – 다단계 계획 및 도구 사용을 지원하는 데이터 세트. Nemotron-SWE – 소프트웨어 엔지니어링 작업에 대한 지침 조정 데이터 세트. 이러한 데이터 세트는 구조화된 감독을 제공하여 모델이 복잡한 지침을 따르고 추론 트레이스를 생성하며 다단계 작업에서 안정적으로 수행하도록 돕습니다. 초기 반복은 도메인 데이터와 혼합되어 ServiceNow의 Apriel Nemotron 15B / Apriel 1.6 Thinker를 개발했으며, 이는 15B 파라미터 규모에서 Gemini 2.5 Flash 및 Qwen3를 능가했습니다. Hugging Face의 SmolLM3와 같은 인기 있는 소형 언어 모델도 개발되었습니다.

Extreme Co-Design (극단적 공동 설계)

이러한 규모의 고품질 데이터 세트 설계를 위해서는 데이터 전략가, AI 연구원, 인프라 엔지니어 및 정책 전문가 간의 긴밀한 협력이 필요합니다. NVIDIA는 소프트웨어 및 하드웨어 엔지니어링 문제와 마찬가지로 데이터를 접근하여 규모로 병목 현상을 제거하기 위해 모든 구성 요소를 함께 설계하는 극단적 공동 설계를 통해 데이터를 접근합니다. 가능한 경우 NVIDIA는 방법론과 함께 데이터 세트를 공개합니다. 오픈 커뮤니티와 파트너는 이를 스트레스 테스트하고, 새로운 사례를 발견하고, 데이터 세트를 새로운 도메인으로 확장합니다. 이러한 통찰력은 직접적으로 다음 반복에 반영되어 내부 시스템과 더 넓은 AI 생태계를 개선합니다.

Start Cooking in the Open Kitchen (오픈 키친에서 요리 시작하기)

NVIDIA는 오픈 데이터를 오픈 키친과 마찬가지로 생각합니다. 재료는 눈에 보이고, 레시피는 공유되며, 모든 사람이 어떻게 음식이 준비되는지 배울 수 있습니다. NVIDIA는 데이터 과학 및 모델 구축에 열정을 가진 모든 사람이 Hugging Face에서 NVIDIA의 오픈 데이터 세트를 살펴보고 튜토리얼과 Nemotron labs를 사용해보고 Nemotron 커뮤니티에 참여하여 향후 데이터 세트에 협력하도록 장려합니다. 신뢰할 수 있는 차세대 AI 모델과 에이전트 시스템은 공유 기반을 통해 구축될 것입니다. 오픈 데이터는 그 중 하나입니다.