구글, 아프리카어 음성 데이터셋 WAXAL 공개: 자동 음성 인식 및 텍스트 음성 변환 모델 훈련 지원

자동 음성 인식(ASR) 및 텍스트 음성 변환(TTS) 기술은 고자원 언어(High-Resource Languages)의 경우 빠르게 발전해 왔지만, 아프리카어와 같은 저자원 언어는 데이터 부족으로 인해 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해 구글과 협력 연구팀은 24개 아프리카어를 아우르는 다국어 음성 데이터셋인 WAXAL을 공개했습니다. WAXAL은 자연스러운 음성 데이터 기반 ASR 구성 요소와 고품질 스튜디오 녹음 기반 TTS 구성 요소로 구성되어 있습니다. 이번 공개는 아프리카어 음성 기술 발전에 중요한 기여를 할 것으로 예상됩니다.

기존의 데이터셋 구축 방식은 ASR과 TTS의 서로 다른 요구 사항을 고려하지 못하는 경우가 많았습니다. 예를 들어, 노이즈 환경에서 안정적인 음성 인식을 위한 데이터셋은 고품질 TTS 모델을 만드는 데 적합하지 않은 경우가 있었습니다. WAXAL은 이러한 점을 인지하고 ASR 데이터는 자연스러운 환경에서 다양한 화자의 음성을 활용하고, TTS 데이터는 깨끗하고 일관된 환경에서 단일 화자의 음성을 녹음하는 방식으로 데이터를 분리하여 수집했습니다.

ASR 데이터 수집 방식: 자연스러운 표현을 위한 이미지 프롬프트 활용

WAXAL의 ASR 구성 요소는 이미지 프롬프트 기반 음성 데이터 수집 방식으로 구축되었습니다. 화자는 제시된 이미지에 대해 자신의 모국어로 설명을 하도록 요청받았으며, 이는 단순히 읽는 것보다 훨씬 자연스러운 설정입니다. 또한 화자의 자연스러운 환경에서 녹음을 진행하여 다양한 환경 조건을 반영했습니다. 데이터 수집 과정에서 화자의 연령, 성별, 사용 언어, 녹음 환경 등의 메타데이터도 함께 기록되었습니다. 전체 수집된 오디오 중 약 10%에 해당하는 부분만 텍스트로 변환되었으며, 현지 언어 전문가들이 해당 작업을 수행했습니다. 지역 스크립트가 있는 경우 이를 사용하고, 없는 경우에는 영어 알파벳 표기법을 사용했습니다. 이러한 방식은 아프리카어 음성 데이터 수집의 정확도를 높이는 데 기여했습니다.

이미지 프롬프트 기반 음성 데이터 수집 방식은 단순히 읽는 방식보다 더 자연스러운 어휘 및 문법 변형을 포착할 수 있다는 장점이 있습니다. 하지만 동시에 텍스트 변환의 난이도를 높이고 화자, 도메인, 음향 조건 간의 변동성을 증가시키기도 합니다. WAXAL은 이러한 장단점을 고려하여 데이터셋을 구축했으며, 결과적으로 실제 환경에서 수집된 다양한 변동성을 포함하는 다국어 ASR 데이터셋을 제공하게 되었습니다.

TTS 데이터 수집 방식: 고품질 합성을 위한 스튜디오 환경 구축

WAXAL의 TTS 구성 요소는 ASR과 달리 고품질 단일 화자 합성 음성을 제작하는 데 초점을 맞춰 구축되었습니다. 각 대상 언어별로 약 108,500 단어 길이의 음성적으로 균형 잡힌 스크립트를 제작했으며, 남녀 각각 36명씩 총 72명의 성우를 섭외하여 전문 스튜디오 환경에서 녹음했습니다. 스튜디오 환경은 배경 소음을 줄이고 음질을 보존하는 데 중요한 역할을 했습니다. 각 성우당 약 16시간의 깨끗하게 편집된 오디오를 확보하는 것을 목표로 했습니다. TTS 모델은 발음의 일관성, 녹음 환경, 마이크 품질, 화자 신원 등의 요소를 ASR 모델보다 더 중요하게 고려합니다. 따라서 WAXAL은 아프리카어 TTS 모델 훈련에 최적화된 데이터셋을 제공합니다.

WAXAL의 의미와 미래 전망

WAXAL의 공개는 아프리카어 음성 기술 연구 및 개발에 상당한 진전을 가져올 것으로 예상됩니다. 기존에는 데이터 부족으로 인해 어려움을 겪던 개발자들이 이제는 더 정확하고 자연스러운 음성 인식 및 합성 모델을 구축할 수 있게 되었습니다. 이는 아프리카 지역의 디지털 접근성을 높이고, 다양한 언어 서비스 제공을 가능하게 하는 데 기여할 것입니다. 또한, WAXAL은 다른 저자원 언어에 대한 데이터셋 구축에도 긍정적인 영향을 미칠 수 있으며, 앞으로 더욱 다양한 언어에 대한 음성 기술 발전으로 이어질 것으로 기대됩니다. 구글의 이러한 노력은 인공지능 기술의 민주화를 촉진하고, 전 세계적으로 더욱 포용적인 기술 환경을 조성하는 데 기여할 것입니다.

다만, WAXAL 데이터셋은 완벽한 벤치마크 데이터셋이 아니라는 점을 인지해야 합니다. 실제 환경에서 수집된 데이터이기 때문에, 데이터 내에 변동성이 존재하며, 이는 모델 개발 과정에서 고려해야 할 사항입니다. 이러한 변동성은 오히려 실제 서비스 환경에서의 모델 성능을 예측하는 데 도움이 될 수 있으며, 더욱 강력하고 robust한 모델 개발을 가능하게 할 것입니다. 앞으로 WAXAL을 기반으로 다양한 연구가 진행될 것으로 기대되며, 아프리카어 음성 기술의 발전과 함께 더 많은 혜택을 누릴 수 있을 것입니다.

구글, 아프리카어 음성 데이터셋 WAXAL 공개: 자동 음성 인식 및 텍스트 음성 변환 모델 훈련 지원