NVIDIA NeMo Retriever: 일반화된 에이전트 검색 파이프라인 소개

인공지능 검색 분야는 빠르게 진화하고 있으며, 많은 솔루션들이 특정 작업에 특화되어 뛰어난 성능을 보여주고 있습니다. 하지만 실제 기업 환경에서는 데이터가 완벽하게 정리되지 않고 다양한 종류의 문제가 발생할 수 있습니다. 이러한 환경에서 시스템은 시각적 레이아웃을 복잡하게 분석하고 심도 있는 논리적 추론을 수행하는 등 다양한 문제를 원활하게 처리할 수 있어야 합니다. NVIDIA NeMo Retriever는 이러한 요구 사항을 충족시키기 위해 개발되었습니다.

NeMo Retriever는 일반화 가능성에 중점을 두고 설계되었습니다. 데이터셋에 특정한 휴리스틱에 의존하는 대신, 에이전트 검색 파이프라인을 통해 데이터에 따라 검색 및 추론 전략을 동적으로 조정합니다. 이를 통해 다양한 벤치마크에서 최첨단 성능을 달성하면서도 기반 아키텍처의 변경 없이 뛰어난 성능을 유지합니다. 즉, 에이전트 검색 기술은 기업의 다양한 정보 검색 요구 사항을 충족하는 데 중요한 역할을 합니다.

The Motivation: Why Semantic Similarity Isn’t Enough (의미 유사성이 부족한 이유)

수년간, 의미 유사성을 기반으로 한 밀집 검색이 정보 검색의 표준으로 자리 잡았습니다. 하지만 검색 애플리케이션이 확장됨에 따라 관련 문서를 찾는 것은 단순한 의미 유사성만으로는 충분하지 않습니다. 복잡한 문서 검색에는 추론 능력, 현실 세계 시스템에 대한 이해, 반복적인 탐색이 필요합니다. LLM은 추론에 뛰어나지만 수백만 개의 문서를 한 번에 처리할 수 없으며, 검색 시스템은 수백만 개의 문서를 쉽게 검색할 수 있지만 추론 능력이 제한적입니다. 에이전트 검색은 LLM과 검색 시스템 간의 이러한 격차를 메우는 데 도움을 줍니다.

How It Works: The Agentic Loop (에이전트 루프 작동 방식)

NeMo Retriever의 에이전트 검색 파이프라인은 ReACT 아키텍처를 기반으로 합니다. 단일 쿼리로 ‘끝내기’가 아닌, 에이전트는 반복적으로 검색하고, 평가하고, 접근 방식을 개선합니다. 에이전트는 think 도구를 사용하여 접근 방식을 계획하고 final_results 도구를 사용하여 특정 쿼리에 필요한 정확한 문서를 출력합니다. 또한 retrieve(query, top_k) 도구를 사용하여 코퍼스를 탐색합니다. 이러한 루프를 통해 다음과 같은 성공적인 검색 패턴이 자연스럽게 나타납니다:

더 나은 쿼리 생성: 에이전트는 새로 발견된 정보를 기반으로 검색 쿼리를 동적으로 조정합니다.
지속적인 재구성: 유용한 정보를 찾을 때까지 쿼리를 지속적으로 재구성합니다.
복잡성 분해: 복잡하고 다중 부분으로 구성된 쿼리를 명확한 목표를 가진 여러 개의 간단한 쿼리로 나눕니다.

이러한 과정을 통해 에이전트는 가장 관련성이 높은 문서를 출력하고, 주어진 쿼리에 대한 관련성을 기준으로 순위를 매깁니다. 최대 단계 수 또는 컨텍스트 길이 제한에 도달하는 경우와 같이 에이전트가 자율성을 잃는 경우를 대비하여, 모든 검색 시도에 걸쳐 문서의 순위를 기반으로 문서를 점수화하는 Reciprocal Rank Fusion (RRF)로 전환됩니다.

Engineering for Speed and Scale (속도와 확장성을 위한 엔지니어링)

에이전트 검색 워크플로우는 일반적으로 느리고 자원 집약적입니다. 따라서 리더보드 규모의 평가를 위해 이 파이프라인을 구현 가능하게 만들기 위해서는 LLM 에이전트와 검색 시스템 간의 통신 방식을 재고해야 했습니다. 초기에는 검색 시스템이 Model Context Protocol (MCP) 서버를 통해 노출되었지만, 실제로 MCP는 실험 속도에 부하를 가중시켰습니다. 이러한 문제를 해결하기 위해 MCP 서버를 프로세스 내에 있는 스레드 세이프 싱글턴 검색 시스템으로 대체했습니다. 이 싱글턴 검색 시스템은 모델과 코퍼스 임베딩을 한 번 로드하고 모든 액세스에 대한 재진입 잠금을 보호하며, 임의의 수의 동시 에이전트 작업에 동일한 retrieve() 인터페이스를 노출합니다. 이러한 단일 아키텍처 변경은 배포 오류의 범위를 줄이고 GPU 활용률과 실험 처리량을 크게 향상시켰습니다.

Generalization vs. Specialization Across Benchmarks (벤치마크 전반에 걸친 일반화 vs. 특수화)

현대 검색 평가에서 흔히 관찰되는 현상은 특정 작업에 최적화된 솔루션이 완전히 다른 도메인에 적용될 때 성능 격차가 발생하는 것입니다. NeMo Retriever의 에이전트 검색은 이러한 문제를 해결하기 위해 설계되었습니다. 특정 데이터셋에 대한 휴리스틱에 의존하는 대신, 에이전트 루프는 데이터에 따라 전략을 자연스럽게 조정합니다.

Ablation Studies: Open vs. Closed Models (추가 연구: 오픈 vs. 클로즈 모델)

NeMo Retriever 팀은 다양한 모델을 사용하여 에이전트 검색 성능을 분석했습니다. 오픈 소스 모델과 상용 모델을 비교하여 최적의 조합을 찾고, 성능에 미치는 영향을 평가했습니다. 이러한 분석을 통해 기업의 다양한 요구 사항을 충족하는 솔루션을 개발하는 데 필요한 인사이트를 얻을 수 있었습니다.

The Cost of Autonomy and What’s Next (자율성의 비용과 다음 단계)

에이전트 검색은 표준 밀집 검색보다 비용이 많이 들고 느립니다. 하지만 NeMo Retriever 팀은 고액의 손실과 복잡한 쿼리에 대한 에이전트 검색이 매우 유효한 접근 방식이라고 믿습니다. 팀은 현재 비용 절감에 초점을 맞추고 있으며, 더 작고 특수화된 오픈 소스 에이전트로 에이전트 추론 패턴을 증류하는 방법을 연구하고 있습니다.

Build Your Own Agentic Pipeline (자신만의 에이전트 검색 파이프라인 구축)

NeMo Retriever 팀은 기업의 다양한 요구 사항을 충족하는 에이전트 검색 파이프라인 구축을 장려합니다. 강력한 상용 임베딩 모델 llama-nemotron-embed-vl-1b-v2를 사용해 보세요. NeMo Retriever 라이브러리를 방문하여 도구를 탐색하고 고도로 일반화된 검색 워크플로우를 구축해 보세요.

심층 분석 및 시사점

Array

원문 출처: Beyond Semantic Similarity: Introducing NVIDIA NeMo Retriever’s Generalizable Agentic Retrieval Pipeline

NVIDIA NeMo Retriever: 일반화된 에이전트 검색 파이프라인 소개

NVIDIA NeMo Retriever: 일반화된 에이전트 검색 파이프라인 소개

The Motivation: Why Semantic Similarity Isn’t Enough (의미 유사성이 부족한 이유)

How It Works: The Agentic Loop (에이전트 루프 작동 방식)

Engineering for Speed and Scale (속도와 확장성을 위한 엔지니어링)

Generalization vs. Specialization Across Benchmarks (벤치마크 전반에 걸친 일반화 vs. 특수화)

Ablation Studies: Open vs. Closed Models (추가 연구: 오픈 vs. 클로즈 모델)

The Cost of Autonomy and What’s Next (자율성의 비용과 다음 단계)

Build Your Own Agentic Pipeline (자신만의 에이전트 검색 파이프라인 구축)

심층 분석 및 시사점

💡 함께 보면 좋은 글

A Beginner’s Guide to Building Autonomous AI Agents with MaxClaw

HY 3D 프로세싱 기능, ComfyUI 통합: 3D 창작 워크플로우 혁신

파이썬으로 머신러닝 라이브러리 없이 선형 회귀 모델 구현하기

NetworKit 11.2.1 대규모 그래프 분석 튜토리얼

PENTACROSS

NVIDIA NeMo Retriever: 일반화된 에이전트 검색 파이프라인 소개

NVIDIA NeMo Retriever: 일반화된 에이전트 검색 파이프라인 소개

The Motivation: Why Semantic Similarity Isn’t Enough (의미 유사성이 부족한 이유)

How It Works: The Agentic Loop (에이전트 루프 작동 방식)

Engineering for Speed and Scale (속도와 확장성을 위한 엔지니어링)

Generalization vs. Specialization Across Benchmarks (벤치마크 전반에 걸친 일반화 vs. 특수화)

Ablation Studies: Open vs. Closed Models (추가 연구: 오픈 vs. 클로즈 모델)

The Cost of Autonomy and What’s Next (자율성의 비용과 다음 단계)

Build Your Own Agentic Pipeline (자신만의 에이전트 검색 파이프라인 구축)

심층 분석 및 시사점

💡 함께 보면 좋은 글

A Beginner’s Guide to Building Autonomous AI Agents with MaxClaw

You May Also Like

HY 3D 프로세싱 기능, ComfyUI 통합: 3D 창작 워크플로우 혁신

파이썬으로 머신러닝 라이브러리 없이 선형 회귀 모델 구현하기

NetworKit 11.2.1 대규모 그래프 분석 튜토리얼

PENTACROSS