텍스트 음성 변환(TTS) 기술은 끊임없이 발전하며, 전통적인 모듈식 파이프라인에서 통합된 대규모 오디오 모델(LAM)로 변화하고 있습니다. 특히, 피쉬 오디오의 최신 모델인 S2-Pro 출시를 통해 TTS 분야는 고해상도, 다중 화자 합성, 그리고 150ms 미만의 낮은 지연 시간으로 높은 품질의 음성 합성을 가능하게 하는 오픈 아키텍처로 진화하고 있습니다. 오늘은 이 혁신적인 기술을 자세히 살펴보겠습니다.
최근 인공지능 기술의 발전과 함께 TTS 기술은 단순한 음성 합성 기능을 넘어, 감정 표현, 음성 복제, 그리고 실시간 상호작용까지 가능한 수준으로 발전하고 있습니다. 피쉬 오디오의 S2-Pro는 이러한 트렌드를 선도하며, TTS 기술의 새로운 가능성을 제시하고 있습니다.
S2-Pro의 가장 큰 특징은 바로 듀얼-AR 아키텍처입니다. 기존의 TTS 모델들은 시퀀스 길이와 음향적 디테일 사이의 균형을 맞추는 데 어려움을 겪어왔습니다. S2-Pro는 이 문제를 해결하기 위해 생성 과정을 ‘Slow AR’ 모델과 ‘Fast AR’ 모델, 두 단계로 분리했습니다. ‘Slow AR’ 모델은 시간 축을 기반으로 언어적 입력을 처리하고 의미 토큰을 생성하는 역할을 담당하며, 40억 개의 파라미터를 사용하여 장거리 의존성, 운율, 그리고 연설의 구조적 뉘앙스를 포착합니다. 반면 ‘Fast AR’ 모델은 음향 차원을 처리하며, 각 의미 토큰에 대한 잔여 코드북을 예측하는 역할을 수행합니다. 이 모델은 4억 개의 파라미터로 구성되어 있으며, 음향의 고주파 세부 사항, 음색, 호흡, 그리고 질감과 같은 요소들을 효율적으로 생성합니다.
이 시스템은 또한 Residual Vector Quantization (RVQ)에 의존합니다. RVQ는 원시 오디오를 여러 레이어(코드북)에 걸쳐 이산적인 토큰으로 압축합니다. 첫 번째 레이어는 주요 음향 특징을 캡처하고, 후속 레이어는 이전 레이어의 오류에서 남은 ‘잔여’를 캡처합니다. 이를 통해 모델은 44.1kHz 오디오를 재구성하면서도 트랜스포머 아키텍처를 위한 관리 가능한 토큰 수를 유지할 수 있습니다. 덕분에 TTS 시스템은 더욱 효율적으로 작동합니다.
S2-Pro는 개발자들이 ‘터무니없이 제어 가능한 감정’이라고 칭하는 놀라운 감정 표현 기능을 제공합니다. 이는 두 가지 주요 메커니즘, 즉 In-Context Learning (ICL)과 자연어 인라인 제어를 통해 구현됩니다. In-Context Learning은 기존 TTS 모델이 특정 음성을 모방하기 위해 별도의 fine-tuning을 필요로 했던 단점을 극복합니다. S2-Pro는 트랜스포머의 In-Context Learning 능력을 활용하여 10~30초 길이의 참조 오디오 클립을 통해 화자의 정체성과 감정 상태를 추출하고, 이를 문맥 창의 접두사로 처리하여 동일한 음성과 스타일로 시퀀스를 이어가도록 합니다.
또한, 모델은 자연어 인라인 제어를 지원하여, 단일 생성 과정 내에서 감정 변화를 동적으로 조정할 수 있습니다. 훈련 데이터에 설명적인 언어적 마커가 포함되어 있기 때문에, 개발자는 텍스트 프롬프트에 자연어 태그를 직접 삽입하여 음성 톤, 강도, 그리고 리듬을 실시간으로 조정할 수 있습니다. 예를 들어, ‘[whisper] I have a secret [laugh] that I cannot tell you.’와 같은 프롬프트를 사용하면 모델은 속삭이는 듯한 음성과 함께 웃음소리를 자연스럽게 표현합니다. TTS 기술이 더욱 발전할수록, 감정 표현의 수준도 더욱 높아질 것으로 예상됩니다.
실시간 애플리케이션에 TTS 기술을 통합할 때 가장 중요한 제약 조건은 ‘Time to First Audio'(TTFA)입니다. S2-Pro는 NVIDIA H200 하드웨어에서 약 100ms의 TTFA를 달성하며, 150ms 미만의 낮은 지연 시간을 제공하여 실시간 상호작용을 위한 최적의 환경을 제공합니다. 이러한 빠른 성능은 SGLang과 RadixAttention을 통해 구현됩니다. SGLang은 고성능 서빙 프레임워크이며, RadixAttention은 효율적인 Key-Value(KV) 캐시 관리를 지원합니다. 동일한 ‘마스터’ 음성 프롬프트를 반복적으로 사용하는 경우, RadixAttention은 프레픽스의 KV 상태를 캐시하여 매 요청마다 참조 오디오를 재계산할 필요성을 줄입니다.
또한, 아키텍처는 동일한 문맥 창 내에 여러 화자 정체성을 포함할 수 있도록 설계되어 복잡한 대화나 다중 캐릭터 내레이션을 단일 추론 호출로 생성할 수 있으며, 다른 화자를 위해 모델을 전환하거나 가중치를 다시 로드하는 데 필요한 지연 시간을 줄일 수 있습니다. TTS 기술의 발전은 실시간 상호작용이 가능한 서비스를 제공하는 데 중요한 역할을 합니다.
피쉬 오디오의 S2-Pro는 TTS 기술의 새로운 지평을 열었습니다. 듀얼-AR 아키텍처, RVQ 기술, 그리고 실시간 제어를 통해 고품질 음성 합성 및 감정 표현을 가능하게 하며, 특히 실시간 애플리케이션에 최적화된 저지연 성능이 돋보입니다. 이러한 혁신은 앞으로 TTS 기술이 더욱 다양한 분야에서 활용될 수 있도록 할 것입니다.
결론적으로, 피쉬 오디오 S2-Pro는 TTS 기술의 발전 방향을 제시하며, 앞으로 더욱 다양한 혁신적인 서비스와 경험을 제공할 것으로 기대됩니다.
ChatGPT 활용 전문가처럼 사용하기: 일주일에 시간 절약해주는 10가지 워크플로우 도입부: ChatGPT, 과연 쓸모없는 도구인가? ChatGPT의…
코드 컨셉츠: 프로그래밍 개념 기반의 대규모 합성 데이터셋 코드 컨셉츠: 프로그래밍 개념 기반의 대규모 합성…
인공지능 분야에서 폐쇄형(proprietary) 거대 모델과 투명한 오픈 소스 모델 간의 격차가 빠르게 좁혀지고 있습니다. 최근…
Gemini 임베딩 2: 멀티모달 데이터를 위한 새로운 벡터 모델 Gemini 임베딩 2: 멀티모달 데이터를 위한…
자기 설계 메타 에이전트 구축: 자동 구성, 인스턴스화 및 개선 최근 인공지능(AI) 분야에서 메타 에이전트에…
허깅페이스 허브 스토리지 버킷 심층 분석 허깅페이스 허브 스토리지 버킷 소개 최근 허깅페이스(Hugging Face)는 버킷…