Hey everyone, I'm Oleh Datskiv, Lead AI Engineer at the R&D Data Unit of N-iX. 最近、私はテキスト・トゥー・スピーチ・システムや、より具体的に、それらの背後にある未聞のヒーロー: ニューラル・ヴォコダーに取り組んでいます。 TTSパイプラインのこの最後のステップに、抽象的なスペクトログラムを私たちが聞く自然に響くスピーチに変える部分をご紹介します。 Introduction あなたが過去数年間テキスト・トゥ・スピーチ(TTS)パイプラインの最終モデルであるニューラル・ヴォコダーは、あなたが実際に聞くことができる音にメル・スペクトログラムを変換します。 2016年にWaveNetがリリースされて以来、ニューラルスピーカーは急速に進化し、より速く、より軽く、より自然に聞こえるようになりました。フローベースからGANに至るまで、あらゆる新しいアプローチは、リアルタイムで高い信頼性のスピーチに近づいてきました。 2024年は決定的な転換点のように感じた:FastDiffのような拡散ベースのボディーダーは、ついにリアルタイムの使用のために考慮されるほど速く、以前のように単なるバッチ合成ではなく、新しい可能性の範囲を開きました。 しかし、私たちが今持っている選択肢が非常に多く、質問は残っています: これらのモデルはどのように Side-by-Side に響くのでしょうか。 どちらがライブまたはインタラクティブな使用のために遅延を十分に低く保ちますか? あなたにとってベストなヴォーカルの選択は何ですか? この記事では、WaveNet、WaveGlow、HiFi‐GAN、FastDiff の 4 つの主要なボディーダーについて説明します. それぞれのモデルがどのように機能し、何がそれらを異なるのかを説明します. 最も重要なことは、あなたがどちらをより好むかを決定できるように、彼らの仕事の結果を聞くことになります. また、私たちは、私たちの研究を通じて行われたモデル評価のカスタムベンチマークを共有します. What Is a Neural Vocoder? 高度なレベルでは、すべての近代的なTTSシステムは依然として同じ基本的なルートに従っています。 これらのブロックのそれぞれが何をしているのか、そしてなぜ今日のVocoderに焦点を当てているのかをすぐに見ていきましょう。 テキストエンコーダー:原文またはフォネームを詳細な言語的埋め込みに変更します。 アコスティック・モデル:この段階では、スピーチが時間の経過とともにどのように響くべきかを予測します. It turns linguistic embeddings into mel spectrograms that show timing, melody, and expression. It has two critical subcomponents: Alignment & duration predictor: This component determines how long each phoneme should last, ensuring the rhythm of speech feels natural and human 変数/プロソディア・アダプター:この段階で、アダプターはピッチ、エネルギー、スタイルを注入し、セリフのメロディー、強調、そして感情的なコンタクトを形作ります。 Neural vocoder: 最後に、このモデルはプロソディー豊富なメルスペクトログラムを実際の音、私たちが聞くことができる波形に変換します。 ボクドーは、良いパイプラインが生きるか死ぬ場所です。マップは波形に完璧に溶け込んでおり、結果はスタジオ級の俳優です。間違えて、最高の音響モデルでさえも、生成されたオーディオで金属のバズを得るでしょう。だからこそ、正しいボクドーを選択することが重要です - すべてが同じように構築されているわけではありません。いくつかは速度のために最適化し、他のものは品質のために最適化します。 The Vocoder Lineup 次に、私たちの4人のライバルに会いましょう。それぞれが異なる世代のニューラルスピーチ合成を表し、オーディオ品質、速度、モデルサイズのバランスを取るためのユニークなアプローチを持っています。以下の数字はオリジナル・ペーパーから抽出されています。したがって、実際のパフォーマンスはハードウェアとバッチサイズによって異なります。私たちはリアル・ワールドのチェックのために記事の後で私たちのベンチマーク数を共有します。 WaveNet (2016): オリジナルの忠誠度ベンチマーク GoogleのWaveNetは、TTSのオーディオ品質を再定義したマークでした。自動反応モデルとして、毎回新しいサンプルがすべての以前のサンプルに条件付けされ、オーディオを1つのサンプルで生成します。 しかし、このサンプルごとにのアプローチはまた、WaveNetを痛烈に遅らせ、ライブアプリケーションの代わりにオフラインスタジオの作業に使用を制限します。 MOS=4.21 WaveGlow (2019):パラレル合成への飛躍 WaveNetの重要なスピードの問題を解決するために、NVIDIAのWaveGlowは流れに基づく、非自己反応アーキテクチャを導入しました。単一の前進パスで全波形を生成すると、推定時間を約 0.04 RTF に大幅に削減し、リアルタイムよりもはるかに速くなりました。 )は、WaveNetの忠誠心からわずかな一歩下がりと見なされ、その主な限界は、より大きなメモリの足跡と、特に騒々しいトレーニングデータで、微妙な高周波音を生成する傾向である。 MOS≈3.961 HiFi-GAN (2020):効率のチャンピオン ハイフィー・ガンは、高信頼性のオーディオを生成するためのスマートな多段階差別装置(Generative Adversarial Network,GAN)を使用して、効率性の突破を記録しました。 )は、WaveNetと競争力がありますが、驚くほど小さなモデルから高速です( これはGPU(<0.006×RTF)で超高速で、CPUでリアルタイムのパフォーマンスを達成することもできるため、HiFi-GANはチャットボット、ゲームエンジン、仮想アシスタントなどの生産システムのデフォルト選択肢となった。 MOS=4.36 13.92 MB FastDiff (2025):リアルタイムのスピードで配信品質 トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > ( ) インタラクティブな使用のための高速スピードを維持しながら(GPU上の~0.02×RTF) この組み合わせにより、高品質でリアルタイムのスピーチ合成のために実行可能な最初の拡散ベースのスピーカーの1つとなり、より表現的で応答性の高いアプリケーションのドアを開きます。 MOS=4.28 これらのモデルのそれぞれは、 vocoder デザインにおける重要な変化を反映しています. Now that we have seen how they work on paper, it's time to put them to the test with our own benchmarks and audio comparisons. これらのモデルは、紙上でどのように機能するかを見たので、私たちの独自のベンチマークとオーディオ比較でテストする時が来ました。 Let's Hear It - A/B Audio Gallery (アウディオギャラリー) 耳を叩くものはない! 私たちは、LJ Speech Datasetの次の文を使用して、私たちのスピーカーをテストします。記事の後で、あなたはまた、オリジナルオーディオレコーディングを聴いて、生成されたものとそれを比較することができます。 Sentences: 「彼の専門的なスキルに頼った人々を殺害する罪で訴えられた医師」 「この事件については何も聞こえなかったが、この女性はファウントレロイを売るよう指示したことがないと宣言した」 「新しいルールでは、訪問者は刑務所の内部に入ることが許されず、グリットの間で拘束された。 モデルの結果を評価するために使用するメトリクスは、以下の通り、客観的および主観的なメトリクスが含まれています。 Naturalness (MOS): How human-like does it sound (rated by real people on a 1/5 scale) 明確性(PESQ/STOI):明確性とノイズ/アーティファクトを測定するのに役立つオブジェクトスコア。 スピード (RTF): RTF は 1 秒で 1 秒のオーディオを生成することを意味します。 Audio Players オーディオプレーヤー (ヘッドフォンをキャッチし、ボタンをタップして各モデルを聴きます。 Sentence Ground truth WaveNet WaveGlow HiFi‑GAN FastDiff S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ Quick‑Look Metrics ここでは、我々が評価したモデルの結果を示します。 Model RTF ↓ MOS ↑ PESQ ↑ STOI ↑ WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 *For the MOS evaluation, we used voices from 150 participants with no background in music. ** As an acoustic model, we used Tacotron2 for WaveNet and WaveGlow, and FastSpeech2 for HiFi‑GAN and FastDiff. Bottom line スピードと品質のギャップが縮小しているにもかかわらず、すべてのサイズに合ったソリューションは存在しません。 2025年以降のヴォッコードの選択は、主にプロジェクトのニーズと技術的要件に依存するべきです。 ランタイム制限(オフライン世代か、ライブ、インタラクティブなアプリですか?) 品質要件(何が優先するか:原速か最大忠誠か?) 展開目標(強力なクラウドGPU、ローカルCPU、またはモバイルデバイスで実行されますか?) フィールドが進むにつれて、これらの選択肢の間の境界線はどんどん曖昧になり、聞こえ、感じられる普遍的にアクセス可能な高信頼性のスピーチの道を切り開くでしょう。