Здравейте на всички, аз съм Oleh Datskiv, водещ инженер по изкуствен интелект в R&D Data Unit на N-iX. Напоследък работя по текстово-говорни системи и по-специално върху неизвестния герой зад тях: невронния вокадер. Нека ви запозная с този последен етап от тръбопровода TTS – частта, която превръща абстрактните спектрограми в естествено звучащата реч, която чуваме. Introduction Ако сте работили с текст към реч през последните няколко години, сте използвали гласоподавател - дори ако не сте го забелязали. невронният гласоподавател е последният модел в тръбопровода Text to Speech (TTS); той превръща мел-спектрограма в звука, който всъщност можете да чуете. От пускането на WaveNet през 2016 г. невронните гласоподаватели са се развили бързо. Те стават по-бързи, по-леки и по-естествено звучат. От потока, базиран на GAN, до дифузията, всеки нов подход е приближил полето до речта в реално време с висока верност. 2024 се чувстваше като окончателен момент: дифузионните вокадори като FastDiff най-накрая бяха достатъчно бързи, за да бъдат разглеждани за използване в реално време, а не само за синтез на партиди, както преди. Това отвори редица нови възможности. Но с толкова много възможности, които сега имаме, въпросите остават: Как звучат тези модели странично? Кои от тях поддържат достатъчно ниска латентност за жива или интерактивна употреба? Кой е най-добрият избор на вокал за вас? В тази публикация ще разгледаме четири ключови водещи партньори: WaveNet, WaveGlow, HiFi-GAN и FastDiff. Ще обясним как работи всеки модел и какво ги прави различни. Най-важното е, че ще ви позволим да чуете резултатите от тяхната работа, така че да можете да решите кой ви харесва по-добре. What Is a Neural Vocoder? На високо ниво, всяка съвременна TTS система все още следва същия основен път: Нека бързо да разгледаме какво прави всеки от тези блокове и защо се фокусираме върху вокадера днес: Текстови кодове: Променя суровия текст или фонемите в подробни езикови вграждания. Акустичен модел: Този етап предсказва как речта трябва да звучи с течение на времето. Той превръща езиковите вграждания в мелни спектрограми, които показват време, мелодия и изразяване. Той има два критични подкомпонента: Предупредител за изравняване и продължителност: Този компонент определя колко време трябва да продължи всеки фонем, като гарантира, че ритъмът на речта се чувства естествен и човешки На този етап адаптерът инжектира питч, енергия и стил, оформяйки мелодията, акцента и емоционалния контур на изречението. Невронният вокадор: Накрая, този модел превръща богатата на прозодия мела спектрограма в действителен звук, вълновата форма, която можем да чуем. Водородът е мястото, където добрите тръбопроводи живеят или умират. Картата се мели до вълнообразни форми перфектно и резултатът е актьор от студиен клас. Направете го грешно и дори с най-добрия акустичен модел ще получите метален шум в генерирания аудио. Ето защо изборът на правилния водород е важен - защото не всички те са построени еднакво. Някои се оптимизират за скорост, други за качество. The Vocoder Lineup Сега, нека се срещнем с нашите четирима състезатели. Всеки представлява различно поколение на невронния синтез на речта, с уникалния си подход за балансиране на компромисите между качеството на звука, скоростта и размера на модела. Цифрите по-долу са извлечени от оригиналните документи. По този начин действителната производителност ще варира в зависимост от вашия хардуер и размера на партидата. WaveNet (2016): оригиналният референтен показател за лоялност Като авторегресивен модел, той генерира аудио един образец наведнъж, като всеки нов образец е кондициониран върху всички предишни. Въпреки това, този подход от извадка до извадка също прави WaveNet болезнено бавен, ограничавайки използването му до офлайн студио работа, а не до живи приложения. MOS=4.21 WaveGlow (2019): скок към паралелен синтез За да се реши проблемът с критичната скорост на WaveNet, WaveGlow на NVIDIA въведе поток-базирана, не-авторегресивна архитектура. генерирането на цялата вълнообразна форма в един преден проход драстично намалява времето за заключение до около 0,04 RTF, което го прави много по-бързо, отколкото в реално време. Неговите основни ограничения са по-голям отпечатък на паметта и тенденция да се произвежда фин високочестотен шум, особено с шумни тренировъчни данни. MOS≈3.961 HiFi-GAN (2020): Шампион на ефективността За да се постигне по-голяма ефективност, HIFI-GAN отбелязва пробив в ефективността чрез използване на генерираща противникова мрежа (GAN) с умен мултипериоден дискриминатор. , който е конкурентен с WaveNet, но е бърз от забележимо малък модел ( Той е ултра-бърз на GPU (< 0,006×RTF) и дори може да постигне производителност в реално време на CPU, поради което HiFi-GAN бързо се превърна в избор по подразбиране за производствени системи като чатботи, игрални двигатели и виртуални асистенти. MOS=4.36 13.92 MB FastDiff (2025): Качество на разпространението в реално време Доказателство за това, че дифузионните модели не трябва да са бавни, FastDiff представлява текущото съвременно състояние в балансирането на качеството и скоростта. При поддържане на бързи скорости за интерактивна употреба (~0.02×RTF на GPU) тази комбинация го прави един от първите дифузионни гласоподаватели, жизнеспособни за висококачествен синтез на речта в реално време, което отваря вратата за по-изразителни и отзивчиви приложения. MOS=4.28 Всеки от тези модели отразява значителна промяна в дизайна на вокадорите.Сега, след като видяхме как работят на хартия, е време да ги тестваме със собствените си референтни показатели и аудио сравнения. Нека го чуем — A/B аудио галерия Нищо не бие ушите ви! Ще използваме следните изречения от LJ Speech Dataset, за да тестваме нашите гласоподаватели.По-късно в статията можете също да слушате оригиналния аудио запис и да го сравните с генерирания. Sentences: "Медицински специалист, обвинен в убийство на хора, които разчитали на професионалните му умения." "Нищо повече не беше чуто за случая, въпреки че дамата заяви, че никога не е наредила на Фаунтлерой да продаде." "Според новото правило, посетителите не бяха позволени да преминат през вътрешността на затвора, а бяха задържани между решетките." По-долу са изброени показателите, които ще използваме за оценка на резултатите от модела.Те включват както обективни, така и субективни показатели: Естественост (MOS): Колко човешки звучи (оценен от реални хора по скала 1/5) Яснота (PESQ / STOI): обективни оценки, които помагат за измерване на интелигентността и шума / артефакти. Скорост (RTF): RTF от 1 означава, че е необходима 1 секунда, за да се генерира 1 секунда аудио. Audio Players Аудио играчи (Вземете слушалките и докоснете бутоните, за да чуете всеки модел.) Sentence Ground truth WaveNet WaveGlow HiFi‑GAN FastDiff S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ Quick‑Look Metrics Тук ще ви покажем резултатите, получени за моделите, които оценяваме. Model RTF ↓ MOS ↑ PESQ ↑ STOI ↑ WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 *For the MOS evaluation, we used voices from 150 participants with no background in music. ** As an acoustic model, we used Tacotron2 for WaveNet and WaveGlow, and FastSpeech2 for HiFi‑GAN and FastDiff. Bottom line Пътешествието ни през зоологическата градина на Вододер показва, че докато разликата между скоростта и качеството намалява, няма решение, подходящо за всички размери.Вашият избор на вододер през 2025 г. и след това трябва да зависи предимно от нуждите на вашия проект и техническите изисквания, включително: Ограничения на времето за изпълнение (или това е офлайн поколение или живо, интерактивно приложение?) Изисквания за качество (Какво е по-висок приоритет: сурова скорост или максимална верност?) Цели за разполагане (Ще се изпълнява ли на мощен облачен GPU, локален CPU или мобилно устройство?) Тъй като полето напредва, границите между тези избори ще продължат да се размиват, проправяйки пътя за универсално достъпна, високоверна реч, която се чува и усеща.