안녕하세요 모두, 나는 Oleh Datskiv입니다, N-iX의 R&D 데이터 유닛에서 AI 리드 엔지니어입니다. 최근, 나는 텍스트-투어 시스템과, 더 구체적으로, 그 뒤에 묻지 않은 영웅에 대해 일해 왔습니다 : 신경 포코더. TTS 파이프라인의 마지막 단계 - 우리가 듣는 자연스럽게 들리는 연설으로 추상적인 스펙트럼을 변환하는 부분에 대해 소개하겠습니다. Introduction 최근 몇 년 동안 텍스트-스피치 (TTS) 파이프라인의 최종 모델 인 신경 스피치 (neural vocoder)는 실제로 들을 수있는 소리로 멜 스펙트로그램을 변환합니다. 2016 년 WaveNet의 출시 이후, 신경 목사들은 빠르게 진화했습니다.그들은 더 빠르고, 더 가벼워지고, 더 자연스럽게 들립니다.플로우 기반에서부터 GAN에 이르기까지, 각각의 새로운 접근 방식은 현장을 실시간, 높은 신뢰성의 연설에 더 가깝게 만들었습니다. 2024년은 확실한 전환점처럼 느껴졌습니다: FastDiff와 같은 확산 기반 음성은 마침내 실시간 사용을 위해 충분히 빠르고 이전과 같은 배치 합성이 아닙니다.그것은 새로운 가능성의 범위를 열었습니다.가장 눈에 띄는 것은 더 똑똑한 듀핑 파이프라인, 더 높은 품질의 가상 목소리, 그리고 고급 GPU 클러스터를 사용하지 않는 경우에도 더 표현적인 조수였습니다. 그러나 우리가 지금 가지고있는 많은 옵션으로, 질문은 남아 있습니다 : 이 모델들은 측면에서 어떻게 들리나요? 어떤 것이 라이브 또는 대화형 사용을 위해 충분히 낮은 지연을 유지합니까? 당신에게 가장 적합한 VOCODER 선택은 무엇입니까? 이 게시물은 WaveNet, WaveGlow, HiFi-GAN 및 FastDiff의 네 가지 주요 포토더를 검토합니다.우리는 각 모델이 어떻게 작동하고 무엇이 그들을 다르게 만드는지 설명합니다.가장 중요한 것은, 우리는 당신이 좋아하는 것을 결정할 수 있도록 그들의 작업의 결과를 들을 것입니다.또한, 우리는 우리의 연구를 통해 수행 된 모델 평가의 사용자 정의 벤치마크를 공유 할 것입니다. What Is a Neural Vocoder? 높은 수준에서 모든 현대 TTS 시스템은 여전히 동일한 기본 경로를 따릅니다. 이 블록들 각각이 무엇을 하고 있는지 그리고 왜 오늘날 vocoder에 초점을 맞추고 있는지 빠르게 살펴보자: 텍스트 인코더: 원본 텍스트 또는 음향을 상세한 언어적 인 삽입으로 변경합니다. 아코스틱 모델: 이 단계는 연설이 시간이 지남에 따라 어떻게 들릴지 예측합니다.이 단계는 시간, 멜로디 및 표현을 보여주는 멜 스펙트럼으로 언어적 삽입을 변환합니다.이 단계에는 두 가지 중요한 하위 구성 요소가 있습니다. 조정 및 기간 예측기 :이 구성 요소는 각 음향이 얼마나 오래 지속되어야하는지 결정하여 연설의 리듬이 자연스럽고 인간적으로 느껴질 수 있도록합니다. 변수/프로소디 어댑터: 이 단계에서 어댑터는 피치, 에너지 및 스타일을 주입하여 문장의 멜로디, 강조 및 감정적 인 컨트롤을 형성합니다. 신경 목소리 : 마지막으로,이 모델은 프로소디가 풍부한 멜 스펙트로그램을 실제 소리, 우리가 들을 수있는 파형으로 변환합니다. VOCODER는 좋은 파이프라인이 살거나 죽는 곳입니다. 맵은 완벽하게 파형으로 흐르며 결과는 스튜디오 등급의 배우입니다. 잘못되면 최고의 음향 모델조차도 생성 된 오디오에서 금속적 인 버즈를 얻을 수 있습니다. 그래서 올바른 vocoder를 선택하는 것이 중요합니다 - 왜냐하면 그들은 모두 동일하지 않기 때문입니다. 어떤 것은 속도, 다른 것은 품질을 위해 최적화합니다. 최고의 모델은 자연성, 속도 및 명확성을 균형 잡습니다. The Vocoder Lineup 이제, 우리 네 명의 경쟁자들을 만나보자. 각각은 신경 연설 합성의 다른 세대를 대표하며, 오디오 품질, 속도 및 모델 크기의 균형을 균형 잡는 독특한 접근 방식으로 아래의 숫자는 원본 논문에서 추출됩니다. 따라서 실제 성능은 하드웨어 및 배치 크기에 따라 달라집니다. WaveNet (2016): 원래 충성도 벤치마크 Google의 WaveNet는 TTS에 대한 오디오 품질을 재정의 한 마크였습니다. 자율 반응 모델로 모든 새로운 샘플이 이전의 모든 샘플을 조건으로 한 번에 하나의 샘플을 오디오를 생성합니다.이 과정은 그 당시 전례없는 자연성을 초래했습니다 ( 그러나이 샘플-by-샘플 접근 방식은 또한 WaveNet을 고통스럽게 느리게 만들고 라이브 응용 프로그램이 아닌 오프라인 스튜디오 작업에 사용을 제한합니다. MOS=4.21 WaveGlow (2019): 평행 합성으로의 점프 WaveNet의 중요한 속도 문제를 해결하기 위해, NVIDIA의 WaveGlow는 흐름 기반, 비 자율 반응 아키텍처를 도입했습니다. 단일 전방 패스에서 전체 파형을 생성하면 추론 시간이 약 0.04 RTF로 극적으로 줄어들어 실시간보다 훨씬 빠릅니다. , 그것은 WaveNet의 충성도에서 약간 낮은 단계로 간주되었습니다.그의 주요 한계는 더 큰 메모리 발자국과 미묘한 고주파 호흡을 생산하는 경향, 특히 시끄러운 훈련 데이터입니다. MOS≈3.961 HiFi-GAN (2020): 효율성의 챔피언 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 첨단 , WaveNet와 경쟁력이 있지만 놀랍게도 작은 모델에서 빠릅니다 ( 그것은 GPU (<0.006×RTF)에서 매우 빠르고 심지어 CPU에서 실시간 성능을 달성 할 수 있습니다, 그래서 HiFi-GAN는 빠르게 채팅봇, 게임 엔진 및 가상 조수와 같은 생산 시스템에 대한 기본 선택이되었습니다. MOS=4.36 13.92 MB FastDiff (2025): 실시간 속도에서의 전파 품질 첨단 디스플레이는 첨단 디스플레이를 첨단 디스플레이로 첨단 디스플레이로 첨단 디스플레이를 첨단 디스플레이로 첨단 디스플레이로 첨단 디스플레이를 첨단 디스플레이로 첨단 디스플레이로 첨단 디스플레이를 첨단 디스플레이로 첨단 디스플레이로 첨단 디스플레이를 첨단 디스플레이로 첨단 디스플레이로 첨단 디스플레이로 첨단 디스플레이를 첨단 디스플레이로 첨단 디스플레이로 첨단 디스플레이를 첨단 디스플레이로 첨단 디스플레이로 첨단 디스플레이( ) 인터랙티브 사용을 위해 빠른 속도를 유지하면서 (~0.02 × GPU에서 RTF).이 조합은 고품질, 실시간 음성 합성을 위해 실현 가능한 최초의 배포 기반 음성 코더 중 하나로, 더 표현적이고 반응성있는 응용 프로그램을위한 문을 열어줍니다. MOS=4.28 이 모델들 각각은 vocoder 디자인에서 상당한 변화를 반영합니다.우리는 그들이 종이에서 어떻게 작동하는지 보았으므로, 우리 자신의 벤치마크와 오디오 비교로 테스트 할 때입니다. A/B 오디오 갤러리 - A/B Audio Gallery 아무것도 당신의 귀를 때리지 않습니다! 우리는 LJ Speech Dataset에서 다음 문장을 사용하여 우리의 vokoders를 테스트 할 것입니다.Later in the article, you can also listen to the original audio recording and compare it to the generated one. Sentences: "그의 전문 기술에 의존하는 사람들을 죽이는 것에 대한 의사 혐의." "더 이상이 사건에 대해 들리지 않았지만, 여성은 그녀가 결코 Fauntleroy를 판매하도록 지시하지 않았다고 선언했다." “새로운 규칙에 따라, 방문객들은 감옥 내부를 통과 할 수 없었지만 그물 사이에 갇혀있었습니다.” 모델의 결과를 평가하기 위해 우리가 사용하는 매개 변수는 아래에 나열되어 있습니다.These include both objective and subjective metrics: 자연성 (MOS): 그것이 얼마나 인간처럼 들리는지 ( 1/5 규모의 실제 사람들에 의해 평가) 명확성 (PESQ / STOI): 명확성과 소음 / 예술을 측정하는 데 도움이되는 객관적 점수. 속도 (RTF): 1의 RTF는 1 초의 오디오를 생성하는 데 1 초가 걸린다는 것을 의미합니다. Audio Players Audio 플레이어 (모든 모델을 듣기 위해 헤드폰을 잡고 버튼을 누르십시오.) Sentence Ground truth WaveNet WaveGlow HiFi‑GAN FastDiff S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ Quick‑Look Metrics 여기서 우리는 우리가 평가하는 모델에 대해 얻은 결과를 보여줄 것입니다. Model RTF ↓ MOS ↑ PESQ ↑ STOI ↑ WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 *For the MOS evaluation, we used voices from 150 participants with no background in music. ** As an acoustic model, we used Tacotron2 for WaveNet and WaveGlow, and FastSpeech2 for HiFi‑GAN and FastDiff. Bottom line 우리 동물원 여행은 속도와 품질 사이의 격차가 줄어들고 있지만, 하나의 크기에 적합한 모든 솔루션이 없다는 것을 보여줍니다. 2025년 이후의 동물원 선택은 주로 프로젝트의 요구와 기술적 요구에 달려 있어야합니다. 실행 시간 제한 (오프라인 세대 또는 라이브, 대화형 응용 프로그램입니까?) 품질 요구 사항 (어떤 것이 더 우선: 원시 속도 또는 최대 충실성?) 배포 목표 (강력한 클라우드 GPU, 로컬 CPU 또는 모바일 장치에서 실행니까?) 이 분야가 발전함에 따라 이러한 선택 사이의 경계는 계속 흐려지고, 보편적으로 접근 가능한 높은 충실성의 연설이 듣고 느껴질 수있는 길을 열어줍니다.