Categories: AI 뉴스 & 트렌드

피쉬 오디오 S2: 표현력이 뛰어난 텍스트 음성 변환(TTS)의 새로운 시대

피쉬 오디오 S2: 표현력이 뛰어난 텍스트 음성 변환(TTS)의 새로운 시대

피쉬 오디오 S2: 표현력이 뛰어난 텍스트 음성 변환(TTS)의 새로운 시대

텍스트 음성 변환(TTS) 기술은 끊임없이 발전하며, 전통적인 모듈식 파이프라인에서 통합된 대규모 오디오 모델(LAM)로 변화하고 있습니다. 특히, 피쉬 오디오의 최신 모델인 S2-Pro 출시를 통해 TTS 분야는 고해상도, 다중 화자 합성, 그리고 150ms 미만의 낮은 지연 시간으로 높은 품질의 음성 합성을 가능하게 하는 오픈 아키텍처로 진화하고 있습니다. 오늘은 이 혁신적인 기술을 자세히 살펴보겠습니다.

최근 인공지능 기술의 발전과 함께 TTS 기술은 단순한 음성 합성 기능을 넘어, 감정 표현, 음성 복제, 그리고 실시간 상호작용까지 가능한 수준으로 발전하고 있습니다. 피쉬 오디오의 S2-Pro는 이러한 트렌드를 선도하며, TTS 기술의 새로운 가능성을 제시하고 있습니다.

S2-Pro의 핵심 기술: 듀얼-AR 아키텍처와 RVQ

S2-Pro의 가장 큰 특징은 바로 듀얼-AR 아키텍처입니다. 기존의 TTS 모델들은 시퀀스 길이와 음향적 디테일 사이의 균형을 맞추는 데 어려움을 겪어왔습니다. S2-Pro는 이 문제를 해결하기 위해 생성 과정을 ‘Slow AR’ 모델과 ‘Fast AR’ 모델, 두 단계로 분리했습니다. ‘Slow AR’ 모델은 시간 축을 기반으로 언어적 입력을 처리하고 의미 토큰을 생성하는 역할을 담당하며, 40억 개의 파라미터를 사용하여 장거리 의존성, 운율, 그리고 연설의 구조적 뉘앙스를 포착합니다. 반면 ‘Fast AR’ 모델은 음향 차원을 처리하며, 각 의미 토큰에 대한 잔여 코드북을 예측하는 역할을 수행합니다. 이 모델은 4억 개의 파라미터로 구성되어 있으며, 음향의 고주파 세부 사항, 음색, 호흡, 그리고 질감과 같은 요소들을 효율적으로 생성합니다.

이 시스템은 또한 Residual Vector Quantization (RVQ)에 의존합니다. RVQ는 원시 오디오를 여러 레이어(코드북)에 걸쳐 이산적인 토큰으로 압축합니다. 첫 번째 레이어는 주요 음향 특징을 캡처하고, 후속 레이어는 이전 레이어의 오류에서 남은 ‘잔여’를 캡처합니다. 이를 통해 모델은 44.1kHz 오디오를 재구성하면서도 트랜스포머 아키텍처를 위한 관리 가능한 토큰 수를 유지할 수 있습니다. 덕분에 TTS 시스템은 더욱 효율적으로 작동합니다.

감정 조절: In-Context Learning과 인라인 태그

S2-Pro는 개발자들이 ‘터무니없이 제어 가능한 감정’이라고 칭하는 놀라운 감정 표현 기능을 제공합니다. 이는 두 가지 주요 메커니즘, 즉 In-Context Learning (ICL)과 자연어 인라인 제어를 통해 구현됩니다. In-Context Learning은 기존 TTS 모델이 특정 음성을 모방하기 위해 별도의 fine-tuning을 필요로 했던 단점을 극복합니다. S2-Pro는 트랜스포머의 In-Context Learning 능력을 활용하여 10~30초 길이의 참조 오디오 클립을 통해 화자의 정체성과 감정 상태를 추출하고, 이를 문맥 창의 접두사로 처리하여 동일한 음성과 스타일로 시퀀스를 이어가도록 합니다.

또한, 모델은 자연어 인라인 제어를 지원하여, 단일 생성 과정 내에서 감정 변화를 동적으로 조정할 수 있습니다. 훈련 데이터에 설명적인 언어적 마커가 포함되어 있기 때문에, 개발자는 텍스트 프롬프트에 자연어 태그를 직접 삽입하여 음성 톤, 강도, 그리고 리듬을 실시간으로 조정할 수 있습니다. 예를 들어, ‘[whisper] I have a secret [laugh] that I cannot tell you.’와 같은 프롬프트를 사용하면 모델은 속삭이는 듯한 음성과 함께 웃음소리를 자연스럽게 표현합니다. TTS 기술이 더욱 발전할수록, 감정 표현의 수준도 더욱 높아질 것으로 예상됩니다.

성능 벤치마크 및 SGLang 통합

실시간 애플리케이션에 TTS 기술을 통합할 때 가장 중요한 제약 조건은 ‘Time to First Audio'(TTFA)입니다. S2-Pro는 NVIDIA H200 하드웨어에서 약 100ms의 TTFA를 달성하며, 150ms 미만의 낮은 지연 시간을 제공하여 실시간 상호작용을 위한 최적의 환경을 제공합니다. 이러한 빠른 성능은 SGLang과 RadixAttention을 통해 구현됩니다. SGLang은 고성능 서빙 프레임워크이며, RadixAttention은 효율적인 Key-Value(KV) 캐시 관리를 지원합니다. 동일한 ‘마스터’ 음성 프롬프트를 반복적으로 사용하는 경우, RadixAttention은 프레픽스의 KV 상태를 캐시하여 매 요청마다 참조 오디오를 재계산할 필요성을 줄입니다.

또한, 아키텍처는 동일한 문맥 창 내에 여러 화자 정체성을 포함할 수 있도록 설계되어 복잡한 대화나 다중 캐릭터 내레이션을 단일 추론 호출로 생성할 수 있으며, 다른 화자를 위해 모델을 전환하거나 가중치를 다시 로드하는 데 필요한 지연 시간을 줄일 수 있습니다. TTS 기술의 발전은 실시간 상호작용이 가능한 서비스를 제공하는 데 중요한 역할을 합니다.

핵심 요약

피쉬 오디오의 S2-Pro는 TTS 기술의 새로운 지평을 열었습니다. 듀얼-AR 아키텍처, RVQ 기술, 그리고 실시간 제어를 통해 고품질 음성 합성 및 감정 표현을 가능하게 하며, 특히 실시간 애플리케이션에 최적화된 저지연 성능이 돋보입니다. 이러한 혁신은 앞으로 TTS 기술이 더욱 다양한 분야에서 활용될 수 있도록 할 것입니다.

결론적으로, 피쉬 오디오 S2-Pro는 TTS 기술의 발전 방향을 제시하며, 앞으로 더욱 다양한 혁신적인 서비스와 경험을 제공할 것으로 기대됩니다.

심층 분석 및 시사점

  • Dual-AR Architecture: 분리된 Slow 및 Fast AR 모델을 사용하여 음성 합성의 효율성과 품질을 모두 향상시켰습니다.
  • Sub-150ms Latency: 실시간 애플리케이션에 적합한 낮은 지연 시간을 달성하여, 즉각적인 피드백이 필요한 환경에서 활용 가능합니다.
  • Hierarchical RVQ Encoding: 44.1kHz 오디오를 효율적으로 압축하여 높은 음질을 유지하면서도 계산 비용을 줄였습니다.
  • Zero-Shot In-Context Learning: 짧은 참조 오디오 클립만으로 새로운 음성을 복제하고 감정을 제어하여 TTS 모델의 활용도를 높였습니다.
  • RadixAttention & SGLang Integration: 생산 환경에서의 빠른 성능을 위해 KV 상태를 캐싱하고 효율적인 서빙을 지원합니다.

원문 출처: Fish Audio Releases Fish Audio S2: A New Generation of Expressive Text-to-Speech (TTS) with Absurdly Controllable Emotion

PENTACROSS

Recent Posts

ChatGPT 활용 전문가처럼 사용하기: 일주일에 시간 절약해주는 10가지 워크플로우

ChatGPT 활용 전문가처럼 사용하기: 일주일에 시간 절약해주는 10가지 워크플로우 도입부: ChatGPT, 과연 쓸모없는 도구인가? ChatGPT의…

26분 ago

코드 컨셉츠: 프로그래밍 개념 기반의 대규모 합성 데이터셋

코드 컨셉츠: 프로그래밍 개념 기반의 대규모 합성 데이터셋 코드 컨셉츠: 프로그래밍 개념 기반의 대규모 합성…

28분 ago

NVIDIA 네모트론 3 슈퍼: 오픈 소스 하이브리드 맘바-어텐션 MoE 모델 출시, 에이전트 AI를 위한 처리량 5배 향상

인공지능 분야에서 폐쇄형(proprietary) 거대 모델과 투명한 오픈 소스 모델 간의 격차가 빠르게 좁혀지고 있습니다. 최근…

30분 ago

Gemini 임베딩 2: 멀티모달 데이터를 위한 새로운 벡터 모델

Gemini 임베딩 2: 멀티모달 데이터를 위한 새로운 벡터 모델 Gemini 임베딩 2: 멀티모달 데이터를 위한…

15시간 ago

자기 설계 메타 에이전트 구축: 자동 구성, 인스턴스화 및 개선

자기 설계 메타 에이전트 구축: 자동 구성, 인스턴스화 및 개선 최근 인공지능(AI) 분야에서 메타 에이전트에…

17시간 ago

허깅페이스 허브의 스토리지 버킷 소개

허깅페이스 허브 스토리지 버킷 심층 분석 허깅페이스 허브 스토리지 버킷 소개 최근 허깅페이스(Hugging Face)는 버킷…

23시간 ago