Hei kaikki, olen Oleh Datskiv, johtava AI-insinööri N-iX: n R&D-tietoyksikössä. Viime aikoina olen työskennellyt tekstin ja puheen järjestelmissä ja tarkemmin sanottuna niiden takana olevassa sankarissa: hermopäällikkö. Esittelen teille tämän TTS-putken viimeisen vaiheen - sen osan, joka muuttaa abstraktit spektrogrammit kuulluksi luonnolliselta kuulostavaksi puheeksi. Introduction Jos olet työskennellyt tekstin ja puheen kanssa viime vuosina, olet käyttänyt vokoderia - vaikka et olisi huomannut sitä. Neuraalinen vokoderi on tekstin ja puheen (TTS) putken viimeinen malli; se muuttaa mel-spektrogramman ääneksi, jonka voit todella kuulla. WaveNetin julkaisun jälkeen vuonna 2016 hermopuhujat ovat kehittyneet nopeasti. Heistä on tullut nopeampia, kevyempiä ja luonnollisempia. Virtaan perustuvista GAN-järjestelmistä diffuusioon, jokainen uusi lähestymistapa on työntänyt kentän lähemmäksi reaaliaikaista, korkean uskollisuuden puhetta. Vuosi 2024 tuntui lopulliselta käännekohdalta: diffuusiopohjaiset vocoderit, kuten FastDiff, olivat vihdoin riittävän nopeita, jotta niitä voitaisiin käyttää reaaliajassa, ei pelkästään erän synteesiä kuten ennen. Mutta niin monien vaihtoehtojen kanssa, joita meillä on nyt, kysymykset jäävät: Kuinka nämä mallit kuulostavat rinnakkain? Mitkä pitävät latenssin riittävän alhaisena live- tai interaktiiviseen käyttöön? Mikä on paras valinta vocoder sinulle? Tässä artikkelissa tarkastellaan neljää avainhenkilöä: WaveNet, WaveGlow, HiFi-GAN ja FastDiff. Selitämme, miten jokainen malli toimii ja mikä tekee niistä erilaisia. Tärkeintä on, että annamme teille kuulla heidän työnsä tulokset, jotta voit päättää, kumpi niistä on parempi. What Is a Neural Vocoder? Korkealla tasolla jokainen nykyaikainen TTS-järjestelmä noudattaa edelleen samaa peruspolkua: Katsotaanpa nopeasti, mitä kukin näistä lohkoista tekee ja miksi keskitymme vooderiin tänään: Tekstin koodaus: Muuttaa raakaa tekstiä tai äänitteitä yksityiskohtaisiin kielellisiin upotuksiin. Akustinen malli: Tämä vaihe ennustaa, miten puheen pitäisi kuulostaa ajan myötä. Se muuntaa kielelliset upotukset mel-spektrogrammiin, jotka osoittavat ajoituksen, melodian ja ilmaisun. Alignment & duration predictor: Tämä komponentti määrittää, kuinka kauan kunkin äänitteen pitäisi kestää, varmistaen, että puheen rytmi tuntuu luonnolliselta ja inhimilliseltä Varianssi/prosody-sovitin: Tässä vaiheessa sovitin ruiskuttaa pistettä, energiaa ja tyyliä, muodostaen lauseen melodian, korostuksen ja emotionaalisen ääriviivan. Neural vocoder: Lopuksi tämä malli muuntaa prosodi-rikas mel spectrogram todelliseksi ääneksi, aallonmuodoksi, jota voimme kuulla. Vocoder on paikka, jossa hyvät putkistot elävät tai kuolevat. Kartta kuohuu täydellisesti aallonmuotoihin, ja tulos on studio-luokan näyttelijä. Ota se väärin, ja jopa parhaan akustisen mallin kanssa saat metallisen buzzin luodussa äänessä. Siksi oikean vocoderin valitseminen on tärkeää - koska ne eivät ole kaikki rakennettu samalla tavalla. Jotkut optimoivat nopeuden, toiset laadun. Parhaat mallit tasapainottavat luonnollisuuden, nopeuden ja selkeyden. The Vocoder Lineup Nyt tapaamme neljä kilpailijaa. Jokainen edustaa erilaista sukupolvea hermoäänen synteesiä, ja sen ainutlaatuinen lähestymistapa on tasapainottaa äänenlaadun, nopeuden ja mallin koon välisiä kompromisseja. Alla olevat luvut on otettu alkuperäisistä papereista. Näin ollen todellinen suorituskyky vaihtelee laitteistosi ja erän koon mukaan. WaveNet (2016): alkuperäinen uskollisuuden vertailuarvo Google WaveNet oli maamerkki, joka määritteli äänenlaadun uudelleen TTS: lle. Autoregressivisena mallina se tuottaa äänen yhden näytteen kerrallaan, ja jokainen uusi näyte on ehdollistettu kaikille aiemmille. ), joka asettaa "kultaisen standardin", jota tutkijat ovat edelleen vertailukelpoisia tänään.Kuitenkin tämä näyte-to-näyte lähestymistapa tekee myös WaveNet tuskallisesti hidas, rajoittaa sen käyttöä offline-studio työtä pikemminkin kuin live-sovelluksia. MOS=4.21 WaveGlow (2019): Hyppääminen rinnakkaiseen synteesiin WaveNetin kriittisen nopeusongelman ratkaisemiseksi NVIDIA: n WaveGlow otti käyttöön virtauspohjaisen, ei-autoregressivisen arkkitehtuurin. Koko aallonmuodon tuottaminen yhdellä etumatkalla vähentää voimakkaasti johtopäätöksen aikaa noin 0,04 RTF: een, mikä tekee siitä paljon nopeamman kuin reaaliajassa. Sen ensisijaiset rajoitukset ovat suurempi muistin jalanjälki ja taipumus tuottaa hienovaraista korkean taajuuden huimausta, varsinkin meluisilla koulutustiedoilla. MOS≈3.961 HiFi-GAN (2020): Tehokkuuden mestari HiFi-GAN merkitsi läpimurtoa tehokkuudessa käyttämällä Generative Adversarial Network (GAN) -verkkoa, jossa on älykäs moniaikainen syrjintälaite. , joka on kilpailukykyinen WaveNetin kanssa, mutta on nopea huomattavasti pienestä mallista ( Se on erittäin nopea GPU:lla (< 0,006×RTF) ja voi jopa saavuttaa reaaliaikaisen suorituskyvyn CPU:lla, minkä vuoksi HiFi-GAN tuli nopeasti oletusvalinnaksi tuotantojärjestelmille, kuten chatbotteille, pelimoottoreille ja virtuaalisille avustajille. MOS=4.36 13.92 MB FastDiff (2025): levityksen laatu reaaliaikaisella nopeudella Jälkimmäisessä kappaleessa esitetään, että laatu ja nopeus ovat tasapainossa, kun laatu ja nopeus ovat tasapainossa, ja että laatu ja nopeus ovat tasapainossa. ( ) ylläpitämällä nopeita nopeuksia vuorovaikutteiseen käyttöön (~0.02×RTF GPU: ssä). Tämä yhdistelmä tekee siitä yhden ensimmäisistä diffuusiopohjaisista puhujista, jotka ovat elinkelpoisia korkealaatuiselle reaaliaikaiselle puheen synteesille, mikä avaa oven ilmaisevammille ja reagoivammille sovelluksille. MOS=4.28 Jokainen näistä malleista heijastaa merkittävää muutosta vocoder-suunnittelussa.Nyt kun olemme nähneet, miten ne toimivat paperilla, on aika testata niitä omilla vertailuarvoillamme ja äänenvertailuillamme. Näytä kaikki - A/B Audio Gallery Mikään ei lyö korvia! Käytämme seuraavia lauseita LJ Speech Dataset -tietokannasta voidaksemme testata puhujamme. Myöhemmin artikkelissa voit myös kuunnella alkuperäistä äänitallennusta ja verrata sitä luotuun. Sentences: ”Lääketieteellinen ammattilainen syytettiin tappamisesta henkilöille, jotka luottivat hänen ammattitaitoonsa.” "Mitään muuta ei kuultu asiasta, vaikka nainen ilmoitti, että hän ei ollut koskaan käskenyt Fauntleroya myymään." "Uuden säännön mukaan vierailijoille ei annettu pääsyä vankilan sisäpuolelle, vaan heidät pidätettiin verkkojen välissä." Mallin tulosten arviointiin käytettävät mittarit on lueteltu alla.Näihin kuuluvat sekä objektiiviset että subjektiiviset mittarit: Luonnollisuus (MOS): Kuinka inhimillinen se kuulostaa (todelliset ihmiset arvioivat 1/5 asteikolla) Selkeys (PESQ / STOI): Objektiiviset pisteet, jotka auttavat mittaamaan ymmärrettävyyttä ja melua / esineitä. Nopeus (RTF): RTF 1 tarkoittaa, että 1 sekunnin äänen tuottaminen kestää 1 sekunnin. Audio Players Audio pelaajat (Kaappaa kuulokkeet ja napauta painikkeita kuulla kunkin mallin.) Sentence Ground truth WaveNet WaveGlow HiFi‑GAN FastDiff S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ Quick‑Look Metrics Tässä näytämme sinulle arvioimillamme malleilla saadut tulokset. Model RTF ↓ MOS ↑ PESQ ↑ STOI ↑ WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 *For the MOS evaluation, we used voices from 150 participants with no background in music. ** As an acoustic model, we used Tacotron2 for WaveNet and WaveGlow, and FastSpeech2 for HiFi‑GAN and FastDiff. Bottom line Matkamme vocoder-eläintarhassa osoittaa, että vaikka nopeuden ja laadun välinen kuilu on kaventumassa, ei ole olemassa yksikokoisia ratkaisuja.Vooderin valinta vuonna 2025 ja sen jälkeen tulisi ensisijaisesti riippua projektisi tarpeista ja teknisistä vaatimuksista, mukaan lukien: Runtime rajoitukset (Onko se offline-sukupolvi tai live, interaktiivinen sovellus?) Laatuvaatimukset (Mikä on suurempi prioriteetti: raaka nopeus tai maksimaalinen uskollisuus?) Käyttötarkoitukset (käytetäänkö se tehokkaalla pilvipohjaisella GPU:lla, paikallisella CPU:lla vai mobiililaitteella?) Kun kenttä etenee, näiden valintojen väliset rajat hämärtyvät edelleen, mikä avaa tien yleismaailmallisesti saatavilla olevaan, korkean uskollisuuden puheeseen, joka kuullaan ja tuntuu.