Ola a todos, eu son Oleh Datskiv, enxeñeiro principal de IA na unidade de datos de I+D de N-iX. Ultimamente, estiven traballando en sistemas de texto a voz e, máis especificamente, no heroe descoñecido detrás deles: o vocoder neural. Déixeme presentar a este último paso da tubería TTS, a parte que converte os espectrógrafos abstractos no discurso natural que escoitamos. Introduction Se traballou con texto-a-palabra nos últimos anos, usou un vocoder - mesmo se non o notou. o vocoder neural é o modelo final na canle de texto-a-palabra (TTS); converte un espectro-mel no son que realmente pode escoitar. Desde o lanzamento de WaveNet en 2016, os voceiros neurais evolucionaron rapidamente. Tornáronse máis rápidos, máis lixeiros e máis naturais. Desde o fluxo baseado en GANs ata a difusión, cada novo enfoque empuxou o campo máis preto do discurso en tempo real e de alta fidelidade. 2024 sentiuse como un punto de inflexión definitivo: vocoders baseados en difusión como FastDiff foron finalmente rápido o suficiente para ser considerado para uso en tempo real, non só síntese de lotes como antes. que abriu unha serie de novas posibilidades. Pero con tantas opcións que agora temos, as preguntas permanecen: Como son estes modelos lado a lado? Cales manteñen a latencia suficientemente baixa para o uso en directo ou interactivo? Cal é a mellor elección dun vocoder para ti? Este post examinará catro vocoders clave: WaveNet, WaveGlow, HiFi-GAN e FastDiff. Explicaremos como funciona cada modelo e o que os fai diferentes. O máis importante, deixarémosche escoitar os resultados do seu traballo para que poidas decidir cal é o que máis che gusta. What Is a Neural Vocoder? A un nivel elevado, cada sistema TTS moderno segue aínda o mesmo camiño básico: Imos pasar rapidamente sobre o que cada un destes bloques fai e por que nos centramos no vocoder hoxe: Código de texto: cambia o texto en bruto ou os fonemas en incorporacións lingüísticas detalladas. Modelo acústico: Esta etapa predí como o discurso debería soar ao longo do tempo. Converte as incorporacións lingüísticas en espectrogramas de mel que mostran o tempo, a melodía e a expresión. Ten dous subcompoñentes críticos: Alineación e predictor de duración: Este compoñente determina canto tempo debe durar cada fonema, garantindo que o ritmo da fala se sinta natural e humano. Adaptador de varianza/prosodia: Nesta fase, o adaptador inxecta pitch, enerxía e estilo, formando a melodía, o acento e o contorno emocional da frase. Vocoder neural: Finalmente, este modelo converte o espectrograma de mel rico en prosodia en son real, a forma de onda que podemos escoitar. O vocoder é onde viven ou morren boas tuberías. O mapa mide perfectamente as formas de onda, e o resultado é un actor de grao de estudio. equivocouse, e mesmo co mellor modelo acústico, obterás un buzz metálico no audio xerado. É por iso que escoller o vocoder correcto importa - porque non están todos construídos do mesmo xeito. Algúns optimizan para velocidade, outros para calidade. Os mellores modelos equilibran a naturalidade, velocidade e claridade. The Vocoder Lineup Agora, imos coñecer aos nosos catro competidores. Cada un representa unha xeración diferente de síntese de fala neural, co seu enfoque único para equilibrar as diferenzas entre a calidade de audio, a velocidade e o tamaño do modelo. Os números seguintes son extraídos dos papeis orixinais. Así, o rendemento real variará dependendo do seu hardware e o tamaño do lote. Compartiremos os nosos números de referencia máis tarde no artigo para unha comprobación do mundo real. WaveNet (2016): O benchmark orixinal de fidelidade Google WaveNet foi un marco que redefiniu a calidade de audio para TTS. Como un modelo autorregresivo, xera audio unha mostra á vez, con cada nova mostra condicionada en todas as anteriores. Non obstante, este enfoque de mostra por mostra tamén fai que WaveNet sexa dolorosamente lento, restrinxindo o seu uso ao traballo en estudio fóra de liña en vez de aplicacións en directo. MOS=4.21 WaveGlow (2019): salto á síntese paralela Para resolver o problema da velocidade crítica de WaveNet, o WaveGlow de NVIDIA introduciu unha arquitectura baseada no fluxo, non autorregresiva. Xerar toda a forma de onda nun único paso dianteiro reduciu drasticamente o tempo de inferencia a aproximadamente 0,04 RTF, o que o fai moito máis rápido que en tempo real. As súas limitacións primarias son unha maior pegada de memoria e unha tendencia a producir un sutil susto de alta frecuencia, especialmente con datos de adestramento ruidosos. MOS≈3.961 HiFi-GAN (2020): Campión da eficiencia A tecnoloxía é un instrumento que se utiliza para a produción de tecnoloxías de alta produtividade e de alta produtividade, e que permite a produción de tecnoloxías de alta produtividade ( , que é competitivo con WaveNet, pero é rápido desde un modelo notablemente pequeno ( É ultra-rápido nunha GPU (< 0,006×RTF) e pode incluso alcanzar o rendemento en tempo real nunha CPU, polo que HiFi-GAN converteuse rapidamente na elección por defecto para sistemas de produción como chatbots, motores de xogos e asistentes virtuais. MOS=4.36 13.92 MB FastDiff (2025): calidade de difusión en tempo real En canto á calidade, a velocidade e o rendemento, a velocidade de transmisión son os seguintes pasos: a velocidade e o rendemento son os seguintes pasos: ( Esta combinación fai que sexa un dos primeiros vocoders baseados en difusión viables para alta calidade, síntese de fala en tempo real, abrindo a porta para aplicacións máis expresivas e responsivas. MOS=4.28 Cada un destes modelos reflicte un cambio significativo no deseño de vocoder.Agora que vimos como funcionan en papel, é hora de poñelos a proba cos nosos propios benchmarks e comparacións de audio. Coñece o teu sitio web - A/B Audio Gallery ¡Nada lle bate os oídos! Imos usar as seguintes frases do LJ Speech Dataset para probar os nosos vocoders. Máis tarde no artigo, tamén pode escoitar a gravación de audio orixinal e comparalo co xerado. Sentences: "Un médico acusado de matar a persoas que confiaban na súa habilidade profesional". "Non se escoitou nada máis do asunto, aínda que a señora declarou que nunca instruíra a Fauntleroy a vender". "Baixo a nova regra, os visitantes non estaban permitidos pasar polo interior da prisión, senón que foron detidos entre as gradas". As métricas que usaremos para avaliar os resultados do modelo están listadas a continuación, que inclúen tanto métricas obxectivas como subxectivas: Naturalidade (MOS): Como soa como un ser humano (avaliado por persoas reais nunha escala de 1/5) Claridade (PESQ / STOI): puntuacións obxectivas que axudan a medir a intelixencia e o ruído / artefactos. Velocidade (RTF): Un RTF de 1 significa que leva 1 segundo para xerar 1 segundo de audio. Audio Players Xogadores de audio (Grabe os auriculares e toque os botóns para escoitar cada modelo.) Sentence Ground truth WaveNet WaveGlow HiFi‑GAN FastDiff S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ Quick‑Look Metrics Aquí, amosarémoslle os resultados obtidos para os modelos que avaliamos. Model RTF ↓ MOS ↑ PESQ ↑ STOI ↑ WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 *For the MOS evaluation, we used voices from 150 participants with no background in music. ** As an acoustic model, we used Tacotron2 for WaveNet and WaveGlow, and FastSpeech2 for HiFi‑GAN and FastDiff. Bottom line A nosa viaxe a través do zoolóxico de vocoder mostra que, aínda que a brecha entre velocidade e calidade está a diminuír, non hai unha solución única para todos os tamaños.A súa elección dun vocoder en 2025 e máis adiante debe depender principalmente das necesidades do seu proxecto e requisitos técnicos, incluíndo: Restricións de tempo de execución (é unha xeración offline ou unha aplicación interactiva en directo?) Requisitos de calidade (Que é unha prioridade maior: velocidade bruta ou fidelidade máxima?) Obxectivos de implantación (será executado nunha poderosa GPU de nube, unha CPU local ou un dispositivo móbil?) A medida que o campo avanza, as liñas entre estas opcións seguirán borrando, abrindo o camiño para que o discurso de alta fidelidade sexa escoitado e sentido universalmente.