Hola a todos, soy Oleh Datskiv, ingeniero principal de IA en la unidad de datos de I+D de N-iX. En los últimos tiempos, he estado trabajando en sistemas de texto a voz y, más específicamente, en el héroe no mencionado detrás de ellos: el vocoder neural. Permítanme presentarle este último paso de la tubería TTS, la parte que convierte los espectrógrafos abstractos en el habla natural que escuchamos. Introduction Si ha trabajado con texto a habla en los últimos años, ha utilizado un vocoder - incluso si no lo notó. el vocoder neural es el modelo final en el tubo de texto a habla (TTS); convierte un espectrograma de mel en el sonido que realmente puede oír. Desde el lanzamiento de WaveNet en 2016, los vocodarios neuronales han evolucionado rápidamente. Se han vuelto más rápidos, más ligeros y más naturales. Desde el flujo basado en GANs a la difusión, cada nuevo enfoque ha empujado el campo más cerca del habla en tiempo real y de alta fidelidad. 2024 se sintió como un punto de inflexión definitivo: los vocoders basados en difusión como FastDiff finalmente fueron lo suficientemente rápidos como para ser considerados para el uso en tiempo real, no solo para la síntesis de lotes como antes. Esto abrió una serie de nuevas posibilidades. Pero con tantas opciones que ahora tenemos, las preguntas permanecen: ¿Cómo sonan estos modelos lado a lado? ¿Cuáles mantienen la latencia lo suficientemente baja para el uso en vivo o interactivo? ¿Cuál es la mejor elección de un vocoder para usted? Este post examinará a cuatro vocodarios clave: WaveNet, WaveGlow, HiFi-GAN y FastDiff. Explicaremos cómo funciona cada modelo y qué los hace diferentes. Lo más importante, te dejaremos oír los resultados de su trabajo para que puedas decidir cuál te gusta más. What Is a Neural Vocoder? A un nivel alto, todos los sistemas TTS modernos siguen el mismo camino básico: Vayamos rápidamente a lo que cada uno de estos bloques hace y por qué nos centramos en el vocoder hoy: Codificador de texto: Cambia el texto crudo o los fonemas en incorporaciones lingüísticas detalladas. Modelo acústico: Esta etapa predice cómo el habla debe sonar a lo largo del tiempo. Transforma las incorporaciones lingüísticas en espectrogramas de mel que muestran el tiempo, la melodía y la expresión. Tiene dos subcomponentes críticos: Alineamiento y predictor de duración: Este componente determina cuánto tiempo debe durar cada fonema, asegurando que el ritmo del habla se sienta natural y humano. Adaptador de varianza/prosodia: En esta etapa, el adaptador inyecta pitch, energía y estilo, moldeando la melodía, el énfasis y el contorno emocional de la frase. Vocoder neural: Finalmente, este modelo convierte el espectrograma de mel rico en prosodia en el sonido real, la forma de onda que podemos oír. El vocoder es donde las buenas tuberías viven o mueren. El mapa se mezcla perfectamente con las formas de onda, y el resultado es un actor de clase de estudio. Lo equivoca, e incluso con el mejor modelo acústico, obtendrá un buzz metálico en el audio generado. Es por eso que la elección del vocoder correcto importa - porque no todos están construidos de la misma manera. Algunos optimizan para la velocidad, otros para la calidad. Los mejores modelos equilibran la naturalidad, la velocidad y la claridad. The Vocoder Lineup Ahora, vamos a conocer a nuestros cuatro competidores. Cada uno representa una generación diferente de síntesis de habla neural, con su enfoque único para equilibrar los compromisos entre la calidad del audio, la velocidad y el tamaño del modelo. Los números a continuación se extraen de los documentos originales. Por lo tanto, el rendimiento real varía dependiendo de su hardware y el tamaño del lote. Compartiremos nuestros números de referencia más adelante en el artículo para una verificación en el mundo real. WaveNet (2016): el punto de referencia original de fidelidad WaveNet de Google fue un hito que redefinió la calidad de audio para TTS. Como un modelo autorregresivo, genera audio una muestra a la vez, con cada nueva muestra condicionada en todas las anteriores. Sin embargo, este enfoque de muestra a muestra también hace que WaveNet sea dolorosamente lento, limitando su uso al trabajo en estudio fuera de línea en lugar de aplicaciones en vivo. MOS=4.21 WaveGlow (2019): salto a la síntesis paralela Para resolver el problema de la velocidad crítica de WaveNet, WaveGlow de NVIDIA introdujo una arquitectura basada en el flujo, no autorregresiva. Generando toda la forma de onda en un solo paso adelante redujo drásticamente el tiempo de inferencia a aproximadamente 0,04 RTF, lo que lo hace mucho más rápido que en tiempo real. Sus limitaciones primarias son una mayor huella de memoria y una tendencia a producir un sutil susto de alta frecuencia, especialmente con datos de entrenamiento ruidosos. MOS≈3.961 HiFi-GAN (2020): campeón de la eficiencia En el caso de los teléfonos móviles, los teléfonos móviles se pueden conectar a una red de teléfonos móviles de alta calidad ( ), que es competitivo con WaveNet, pero es rápido desde un modelo notablemente pequeño ( Es ultra-rápido en una GPU (<0.006×RTF) e incluso puede alcanzar el rendimiento en tiempo real en una CPU, por lo que HiFi-GAN se convirtió rápidamente en la elección predeterminada para sistemas de producción como chatbots, motores de juegos y asistentes virtuales. MOS=4.36 13.92 MB FastDiff (2025): calidad de difusión a velocidad en tiempo real El proceso de difusión inversa no tiene que ser lento, FastDiff representa el estado de la actualidad en el equilibrio de calidad y velocidad. ) mientras mantiene velocidades rápidas para el uso interactivo (~0.02×RTF en una GPU). Esta combinación lo convierte en uno de los primeros vocoders basados en la difusión viables para la síntesis de voz de alta calidad en tiempo real, abriendo la puerta a aplicaciones más expresivas y receptivas. MOS=4.28 Cada uno de estos modelos refleja un cambio significativo en el diseño de vocoder. Ahora que hemos visto cómo funcionan en papel, es hora de ponerlos a prueba con nuestros propios benchmarks y comparaciones de audio. Encuentro con nosotros - A/B Audio Gallery ¡Nada te golpea los oídos! Utilizaremos las siguientes frases del LJ Speech Dataset para probar nuestros vocoders. Más adelante en el artículo, también puede escuchar la grabación de audio original y compararla con la generada. Sentences: “Un médico acusado de matar a personas que confiaban en su habilidad profesional”. "No se escuchó nada más del asunto, aunque la señora declaró que nunca había instruido a Fauntleroy a vender". “Bajo la nueva regla, a los visitantes no se les permitió entrar en el interior de la cárcel, sino que fueron detenidos entre las gradas”. Las métricas que utilizaremos para evaluar los resultados del modelo se enumeran a continuación. Estos incluyen métricas objetivas y subjetivas: Naturaleza (MOS): Cómo suena humano (valorado por personas reales en una escala de 1/5) Claridad (PESQ / STOI): puntuaciones objetivas que ayudan a medir la inteligibilidad y el ruido / artefactos. Velocidad (RTF): Un RTF de 1 significa que tarda 1 segundo en generar 1 segundo de audio. Audio Players Los jugadores de audio (Grabe los auriculares y toque los botones para escuchar cada modelo.) Sentence Ground truth WaveNet WaveGlow HiFi‑GAN FastDiff S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ Quick‑Look Metrics Aquí te mostraremos los resultados obtenidos para los modelos que evaluamos. Model RTF ↓ MOS ↑ PESQ ↑ STOI ↑ WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 *For the MOS evaluation, we used voices from 150 participants with no background in music. ** As an acoustic model, we used Tacotron2 for WaveNet and WaveGlow, and FastSpeech2 for HiFi‑GAN and FastDiff. Bottom line Nuestro viaje a través del zoológico de vocoder muestra que, a pesar de que la brecha entre velocidad y calidad está disminuyendo, no hay una solución única para todos los tamaños.Su elección de un vocoder en 2025 y más allá debe depender principalmente de las necesidades de su proyecto y de los requisitos técnicos, incluyendo: Condiciones de tiempo de ejecución (¿Es una generación offline o una aplicación interactiva en vivo?) Requisitos de calidad (¿Qué es una prioridad mayor: velocidad cruda o fidelidad máxima?) Objetivos de implementación (¿Se ejecutará en una GPU de nube potente, una CPU local o un dispositivo móvil?) A medida que el campo avanza, las líneas entre estas opciones seguirán borrando, abriendo el camino para que el discurso de alta fidelidad sea escuchado y sentido universalmente.