서론: 음성 기술의 혁신과 텐센트 Covo-Audio의 등장

최근 몇 년간 인공지능(AI) 기술의 발전은 다양한 분야에서 혁신을 이끌고 있으며, 특히 음성 기술 분야는 자연어 처리(NLP)와 결합하여 더욱 빠르게 발전하고 있습니다. 기존 음성 인식(ASR) 시스템은 텍스트로 변환된 후 자연어 처리 과정을 거쳐야 하는 단계를 거치기 때문에 정보 손실 및 오류 발생 가능성이 높았습니다. 이러한 문제점을 해결하기 위해 엔드투엔드(end-to-end) 음성 언어 모델(LALM)이 등장하며, 음성 처리와 언어 지능을 통합하여 더욱 정확하고 효율적인 시스템을 구축할 수 있게 되었습니다. 텐센트 AI 연구소에서 공개한 Covo-Audio는 이러한 흐름에 발맞춰 개발된 70억 개의 파라미터를 가진 LALM으로, 실시간 오디오 대화 및 추론 능력에서 뛰어난 성능을 보여주며 업계의 주목을 받고 있습니다.

본론: Covo-Audio의 핵심 기술 및 특징

Covo-Audio는 기존의 ASR-LLM-TTS 파이프라인을 단일 아키텍처로 통합하여 정보 손실을 최소화하고 효율성을 극대화했습니다. 모델은 다음과 같은 핵심 구성 요소를 통해 작동합니다.

1. 음성 인코더: Whisper-large-v3를 활용한 강건성 확보

Covo-Audio의 음성 인코더는 다양한 배경 소음과 억양에도 강건한 성능을 보이는 Whisper-large-v3를 기반으로 합니다. 50Hz의 프레임 속도로 작동하며, 다양한 음성 환경에서도 안정적인 음성 정보를 추출하는 역할을 수행합니다. 이러한 강건성은 Covo-Audio가 다양한 환경에서 활용될 수 있도록 돕는 중요한 요소입니다. 음성 언어 모델의 성능은 음성 인코더의 정확도에 크게 의존하며, Whisper-large-v3의 활용은 Covo-Audio의 전반적인 성능 향상에 기여했습니다.

2. 오디오 어댑터: LLM과의 원활한 연결

음성 인코더에서 추출된 음성 정보를 대형 언어 모델(LLM)과 연결하기 위해, Covo-Audio는 특수한 어댑터를 사용합니다. 이 어댑터는 3개의 다운샘플링 모듈을 포함하며, 선형 및 컨볼루션 레이어를 사용하여 프레임 속도를 50Hz에서 6.25Hz로 줄입니다. 이러한 과정을 통해 음성 정보를 LLM이 처리하기 용이한 형태로 변환하여 효율적인 상호 작용을 가능하게 합니다. 음성 언어 모델은 다양한 데이터와 연결되어야 높은 성능을 발휘할 수 있으며, 오디오 어댑터는 이러한 연결을 책임지는 중요한 역할을 합니다.

3. LLM 백본: Qwen2.5-7B-Base를 기반으로 한 추론 능력

Covo-Audio의 핵심 LLM 백본은 Qwen2.5-7B-Base를 기반으로 합니다. 이 백본은 연속적인 음성 특징과 텍스트 토큰을 혼합하여 처리할 수 있도록 조정되었으며, 복잡한 추론 작업을 수행하는 데 필요한 능력을 제공합니다. Qwen2.5-7B-Base의 강력한 성능은 Covo-Audio가 다양한 음성 언어 모델 관련 벤치마크에서 뛰어난 결과를 보여주는 데 중요한 역할을 합니다.

4. 음성 토크나이저 및 디코더: WavLM-large와 Flow-Matching 기반 고품질 오디오 생성

Covo-Audio는 WavLM-large 기반의 토크나이저를 사용하여 16,384 크기의 코드를 통해 25Hz의 이산 음성 토큰을 생성합니다. 또한, Flow-Matching (FM) 기반 프레임워크와 BigVGAN 보코더를 사용하여 24K 고품질 웨이브폼을 재구성합니다. 이러한 과정을 통해 Covo-Audio는 자연스럽고 현실감 넘치는 오디오 출력을 생성할 수 있습니다. 음성 언어 모델의 결과물은 사용자 경험에 큰 영향을 미치므로, 고품질 오디오 생성 기술은 매우 중요합니다.

계층적 삼중 모드 인터리빙: 의미적 일관성 유지

Covo-Audio는 기존의 단어 또는 문자 수준에서 작동하는 방법과 달리, 연속적인 음성 특징(ac)(a_c), 이산 음성 토큰(ad)(a_d), 자연어 텍스트(t)(t)를 일치시키는 계층적 삼중 모드 음성-텍스트 인터리빙 전략을 사용합니다. 이는 문장 수준의 의미적 일관성을 유지하면서 문구 수준의 정밀한 정렬을 가능하게 하여 음성 언어 모델의 성능을 향상시킵니다.

지능-화자 분리: 개인화된 상호 작용 지원

텐센트는 대규모 대화 데이터 구축의 높은 비용을 줄이기 위해 지능-화자 분리 전략을 도입했습니다. 이 기술은 대화 지능과 음성 렌더링을 분리하여 최소한의 TTS 데이터만으로 유연한 음성 사용자 정의를 가능하게 합니다. 이는 사용자에게 더욱 개인화된 상호 작용 경험을 제공하는 데 기여하며, 음성 언어 모델의 활용 범위를 넓히는 데 중요한 역할을 합니다.

전이중 음성 상호 작용: 실시간 대화 구현

Covo-Audio-Chat-FD는 동시 양방향 통신을 지원하는 변형 모델입니다. 오디오 인코더를 청킹 스트리밍 방식으로 재구성하고 사용자 및 모델 스트림을 1:4 비율로 청킹 인터리브하여 실시간 음성 언어 모델의 기능을 구현합니다. THINK, SHIFT, BREAK 토큰을 통해 대화 상태를 관리하고, 청취 상태, 모델의 응답 전환, 인터럽션 감지 기능을 제공하여 자연스러운 대화 흐름을 유지합니다.

결론: 텐센트 Covo-Audio의 영향력과 미래 전망

텐센트 AI 연구소의 Covo-Audio는 엔드투엔드 음성 언어 모델 기술의 새로운 지평을 열었다는 평가를 받고 있습니다. 단일 아키텍처를 통해 정보 손실을 최소화하고, 계층적 삼중 모드 인터리빙 전략을 통해 의미적 일관성을 유지하며, 지능-화자 분리 기술을 통해 개인화된 상호 작용을 가능하게 하는 Covo-Audio는 미래의 음성 기술 발전에 중요한 영향을 미칠 것으로 기대됩니다. 특히, 실시간 오디오 대화 및 추론 능력은 다양한 분야에서 활용될 수 있으며, 텐센트는 앞으로도 Covo-Audio를 지속적으로 발전시켜 사용자에게 더욱 풍부하고 혁신적인 경험을 제공할 것으로 예상됩니다.

미래에는 Covo-Audio와 같은 음성 언어 모델이 더욱 발전하여 다양한 산업 분야에 적용될 것으로 예상됩니다. 예를 들어, 고객 서비스, 교육, 의료 등의 분야에서 음성 기반의 자동화된 시스템이 더욱 널리 사용될 수 있으며, 이는 업무 효율성을 높이고 사용자 만족도를 향상시키는 데 기여할 것입니다.

그러나 Covo-Audio의 ‘early-response’ 문제와 같은 기술적인 과제들이 여전히 존재하며, 이러한 문제들을 해결하기 위한 지속적인 연구 개발이 필요합니다. 또한, 데이터 보안 및 개인 정보 보호와 같은 윤리적인 문제에 대한 고려도 중요하며, 사용자에게 신뢰할 수 있는 서비스를 제공하기 위해 노력해야 합니다.

심층 분석 및 시사점

Array

원문 출처: Tencent AI Open Sources Covo-Audio: A 7B Speech Language Model and Inference Pipeline for Real-Time Audio Conversations and Reasoning

무료 Claude 코드 스킬 확보: 1000+ 스킬을 위한 최고의 GitHub 저장소 5곳AI 교육 & 튜토리얼

무료 Claude 코드 스킬 확보: 1000+ 스킬을 위한 최고의 GitHub 저장소 5곳

무료 Claude 코드 스킬 확보: 1000+ 스킬을 위한 최고의 GitHub 저장소 5곳 Claude 스킬, AI…
2026년 03월 19일
미스트랄 스몰 4: 모든 기능을 하나로 통합한 119B 파라미터 MoE 모델AI 뉴스 & 트렌드

미스트랄 스몰 4: 모든 기능을 하나로 통합한 119B 파라미터 MoE 모델

미스트랄 스몰 4: 모든 기능을 하나로 통합한 119B 파라미터 MoE 모델 미스트랄 스몰 4: 챗봇,…
2026년 03월 17일
Unsloth Studio: 로컬 환경에서 LLM을 효율적으로 미세 조정하는 노코드 인터페이스AI 뉴스 & 트렌드

Unsloth Studio: 로컬 환경에서 LLM을 효율적으로 미세 조정하는 노코드 인터페이스

Unsloth Studio: 로컬 환경에서 LLM을 효율적으로 미세 조정하는 노코드 인터페이스 Unsloth Studio: 로컬 환경에서 LLM을…
2026년 03월 18일