Hola a tothom, sóc Oleh Datskiv, enginyer principal d'IA a la Unitat de Dades de R+D de N-iX. En els últims temps, he estat treballant en sistemes de text a veu i, més específicament, en l'heroi desconegut darrere d'ells: el vocoder neural. Permeteu-me introduir-vos en aquest últim pas de la canonada TTS, la part que converteix els espectrògrafs abstractes en el discurs de so natural que escoltem. Introduction Si has treballat amb text-to-speech en els últims anys, has utilitzat un vocoder - fins i tot si no ho has notat. El vocoder neural és el model final en el text-to-speech (TTS) pipeline; converteix un mel-spectrogram en el so que realment es pot sentir. Des del llançament de WaveNet el 2016, els vocoders neuronals han evolucionat ràpidament. Són més ràpids, més lleugers i més naturals. Des de flux basat en GANs a la difusió, cada nou enfocament ha empès el camp més a prop del discurs en temps real i d'alta fidelitat. El 2024 va semblar un punt d'inflexió definitiu: els vocoders basats en la difusió com FastDiff van ser finalment prou ràpids com per ser considerats per a l'ús en temps real, no només per a la síntesi de lots com abans. Això va obrir una sèrie de noves possibilitats. Però amb tantes opcions que ara tenim, les preguntes romanen: Com sonen aquests models de costat a costat? Quins mantenen la latència suficientment baixa per a l'ús en viu o interactiu? Quina és la millor elecció d'un vocoder per a vostè? Aquest article examinarà quatre vocoders clau: WaveNet, WaveGlow, HiFi-GAN i FastDiff. Explicarem com funciona cada model i què els fa diferents. El més important és que us deixem escoltar els resultats del seu treball perquè pugueu decidir quin us agrada més. What Is a Neural Vocoder? A un nivell alt, tots els sistemes TTS moderns segueixen el mateix camí bàsic: Anem ràpidament a veure què fa cadascun d'aquests blocs i per què ens estem centrant en el vocoder avui: Codificador de text: Canvia el text cru o els fonemes en incorporacions lingüístiques detallades. Model acústic: Aquesta etapa prediu com el discurs hauria de sonar amb el temps. Converteix les incorporacions lingüístiques en espectrogrames de mel que mostren el temps, la melodia i l'expressió. Té dos subcomponents crítics: Alineació i predictor de durada: Aquest component determina quant de temps ha de durar cada fonema, assegurant que el ritme de la parla se sent natural i humà. Adaptador de variància/prosòdia: En aquesta etapa, l'adaptador injecta pitch, energia i estil, donant forma a la melodia, l'èmfasi i el contorn emocional de la frase. Vocoder neuronal: Finalment, aquest model converteix l'espectrograma de mel ric en prosòdia en el so real, la forma d'ona que podem sentir. El vocoder és on les bones canonades viuen o moren. El mapa mils a les formes d'ona perfectament, i el resultat és un actor de grau d'estudi. Feu-ho malament, i fins i tot amb el millor model acústic, obtindreu un buzz metàl·lic en l'àudio generat. És per això que triar el vocoder correcte és important - perquè no tots estan construïts igual. Alguns optimitzen per a la velocitat, altres per a la qualitat. Els millors models equilibren la naturalitat, la velocitat i la claredat. The Vocoder Lineup Cadascun representa una generació diferent de síntesi del llenguatge neural, amb el seu enfocament únic per equilibrar les diferències entre la qualitat de l'àudio, la velocitat i la mida del model. Els números a continuació es basen en els papers originals. Així, el rendiment real variarà depenent del vostre maquinari i de la mida del lot. Compartirem els nostres números de referència més endavant en l'article per a una verificació en el món real. WaveNet (2016): el benchmark original de fidelitat Google WaveNet va ser una fita que va redefinir la qualitat de l'àudio per a TTS. Com a model autoregressiu, genera àudio una mostra alhora, amb cada nova mostra condicionada a totes les anteriors. ), establint un "estàndard d'or" que els investigadors encara comparen avui dia. no obstant això, aquest enfocament de mostra per mostra també fa que WaveNet sigui dolorosament lent, restringint el seu ús al treball en estudi fora de línia en lloc d'aplicacions en viu. MOS=4.21 WaveGlow (2019): Un pas cap a la síntesi paral·lela Per resoldre el problema crític de velocitat de WaveNet, WaveGlow de NVIDIA va introduir una arquitectura basada en flux, no autoregressiva. Generar tota la forma d'ona en un sol pas endavant va reduir dràsticament el temps d'inferència a aproximadament 0,04 RTF, fent-ho molt més ràpid que en temps real. Les seves limitacions principals són una petjada de memòria més gran i una tendència a produir una subtil suspensió d'alta freqüència, especialment amb dades d'entrenament sorollosos. MOS≈3.961 HiFi-GAN (2020): Campió de l’eficiència HiFi-GAN va marcar un avanç en l'eficiència mitjançant l'ús d'una Xarxa Generativa Adversària (GAN) amb un discriminador intel·ligent de múltiples períodes. Aquesta arquitectura li permet produir àudio d'alta fidelitat ( , que és competitiu amb WaveNet, però és ràpid des d'un model notablement petit ( És ultra ràpid en una GPU (< 0,006×RTF) i fins i tot pot aconseguir rendiment en temps real en una CPU, per la qual cosa HiFi-GAN es va convertir ràpidament en l'elecció per defecte per a sistemes de producció com chatbots, motors de jocs i assistents virtuals. MOS=4.36 13.92 MB FastDiff (2025): qualitat de difusió a velocitat real Provar que els models de difusió no han de ser lents, FastDiff representa l'estat de l'art actual en l'equilibri de la qualitat i la velocitat. ) mantenint velocitats ràpides per a l'ús interactiu (~0.02×RTF en una GPU). Aquesta combinació el converteix en un dels primers vocoders basats en la difusió viables per a la síntesi de veu d'alta qualitat, en temps real, obrint la porta per a aplicacions més expressives i sensibles. MOS=4.28 Cadascun d'aquests models reflecteix un canvi significatiu en el disseny de vocoder. Ara que hem vist com funcionen en paper, és hora de posar-los a prova amb els nostres propis benchmarks i comparacions d'àudio. Llegeix més: A/B Audio Gallery No hi ha res que et batega les orelles! Utilitzarem les següents frases del conjunt de dades de parla LJ per provar els nostres vocoders. Més endavant en l'article, també podeu escoltar l'enregistrament d'àudio original i comparar-lo amb el generat. Sentences: "Un metge acusat de fer morir persones que confien en la seva habilitat professional". "No es va sentir res més de l'assumpte, tot i que la senyora va declarar que mai havia ordenat a Fauntleroy que ho venés". "Segons la nova regla, als visitants no se'ls permetia entrar a l'interior de la presó, sinó que estaven detinguts entre les grades". Les mètriques que utilitzarem per avaluar els resultats del model es mostren a continuació.Aquestes inclouen tant les mètriques objectives com subjectives: Naturalitat (MOS): Com s'assembla a l'ésser humà (avaluat per persones reals en una escala de 1/5) Claredat (PESQ / STOI): puntuacions objectives que ajuden a mesurar l'intel·ligibilitat i el soroll / artefactes. Velocitat (RTF): Un RTF d'1 significa que triga 1 segon a generar 1 segon d'àudio. Audio Players Jugadors d'àudio (Captura els auriculars i toca els botons per escoltar cada model.) Sentence Ground truth WaveNet WaveGlow HiFi‑GAN FastDiff S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ Quick‑Look Metrics Aquí us mostrem els resultats obtinguts per als models que avaluem. Model RTF ↓ MOS ↑ PESQ ↑ STOI ↑ WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 *For the MOS evaluation, we used voices from 150 participants with no background in music. ** As an acoustic model, we used Tacotron2 for WaveNet and WaveGlow, and FastSpeech2 for HiFi‑GAN and FastDiff. Bottom line El nostre viatge a través del zoo de vocoder mostra que, tot i que la bretxa entre velocitat i qualitat s'està reduint, no hi ha una solució única per a totes les dimensions.La vostra elecció d'un vocoder el 2025 i més enllà ha de dependre principalment de les necessitats del vostre projecte i dels requisits tècnics, incloent: Restriccions en el temps d'execució (és una generació offline o una aplicació interactiva en viu?) Requisits de qualitat (Què és una prioritat més gran: velocitat bruta o fidelitat màxima?) Objectius de desplegament (Ell s'executarà en un potent GPU de núvol, una CPU local o un dispositiu mòbil?) A mesura que el camp avança, les línies entre aquestes opcions continuaran esvaint, obrant el camí per a un discurs d'alta fidelitat universalment accessible que sigui escoltat i sentit.