Hey hər kəs, mən Oleh Datskivəm, N-iX-in R & D Data Unitində lider AI inqilabçısı. son zamanlar, texti ilə danışma sistemləri və daha spesifik olaraq onların arxasında deyilməyən hero ilə çalışıram: sinir vocoder. Sizi TTS-nin bu sonuncu hissəsinə tanıyacağam - abstrakt spektrogramları eşiddiyimiz doğal-sounding danışıqlara çevirən hiss. Introduction VVD - Hollandiyada futbolçu bu adla tanımır, orada VVD daha çox mərkəz-sağı təmsilən edən siyasi partiyanın adının qısaltması kimi bilinir - artıq sorğu-suala ehtiyacı olmayan ulduzdu. 2013-cü ildə aparılmış arxeoloji tədqiqat işləri burada 120 kv.metrlik ərazidə yaşayış yerinin qalığının olduğunu söyləməyə əsas verir (1). VVD - Hollandiyada futbolçu bu adla tanımır, orada VVD daha çox mərkəz-sağı təmsilən edən siyasi partiyanın adının qısaltması kimi bilinir - artıq sorğu-suala ehtiyacı olmayan ulduzdu. Artıq bizdə çoxlu seçki var, soruşmaq lazımdır: Bu modellər bir-birindən necə görünür? Həyat və ya interaktiv istifadə üçün hansı cihazlar kifayət qədər azdır? - Sizin üçün ən yaxşı seçim nədir? Bu postda dörd əsas danışıqçıya baxılacaq: WaveNet, WaveGlow, HiFi-GAN və FastDiff. Hər modelin necə işlədiyini və nəyi ayırd etməsini izah edəcəyik. Ən önemlisi, onların işinin nəticələrini eşidəcəyik ki, hansı birini daha çox sevirsiniz. What Is a Neural Vocoder? Ümumilikdə, bütün modern TTS sistemləri daima aynı əsas yolu izləyir: Bu blokların hər birinin nə etdiyini və niyə bu gün vocoder-a odaklandığımızı dərhal izah edəcəyik: Teksti kodlayıcısı: Raw texti və ya fonemləri ayrıntılı dilli embeddingsə dəyişir. VVD - Hollandiyada futbolçu bu adla tanımır, orada VVD daha çox mərkəz-sağı təmsil edən siyasi partiyanın adının qısaltması kimi bilinir - artıq sorğu-suala ehtiyacı olmayan ulduzdu. Bu komponent hər bir fonemin nə qədər davam etməsini, sözün ritmini doğal və insan hiss etməsini təmin edir. Variansiya / prosody adapter: Bu aşamada, adapter pitch, enerji və stil endirir, cümlənin melodiya, aktrisa və duygusal konturu formalaşdırır. Neural vocoder: Son olaraq, bu model prosody-rich mel spectrogramı eşitdiyimiz dalğın forması olan həqiqi sesiyaya çevirir. Vokoder yaxşı boruların yaşadığı və ya öldüğü yerdir. Karta dalğın formalarına müvəffəqiyyətlə müvəffəqiyyət verir və nəticə stüdyo-grade aktyordur. Yanlışlıq edin və ən yaxşı akustika modelinə görə də xəlq edilən audioda metal büzzə alırsınız. Doğru vokoder seçmək niyə önemlidir - çünki bunların hamısı eşitmirlər. Bəziləri hündürlük üçün optimize edilir, digərləri isə keyfiyyət üçün. The Vocoder Lineup Artıq dörd konkurentimizlə tanış olaq.Hər biri sintez neuron danışıqlarının başqa bir nəsilini temsil edir, audio kalitəsi, sürət və model boyutları arasındakı kompromisləri düzəltmək üçün özünəməxsus yaklaşımları vardır.Aşağıdaki sayı orijinal yazılardan çəkilir.Bu nedenle, real performans hardware və batch boyutuna uyğun olaraq dəyişəcək. WaveNet (2016): Orijinal sadəlik referens "Google"un "WaveNet"i "TTS" üçün audio keyfiyyətini yenidən tanımlayan bir möcüzə idi. "autoregressive" modeli olaraq, hər yeni möcüzə bütün əvvəlki möcüzələr üzərində condicionaldır. VVD - Hollandiyada futbolçu bu adla tanımır, orada VVD daha çox mərkəz-sağı təmsilən edən siyasi partiyanın adının qısaltması kimi bilinir - artıq sorğu-suala ehtiyacı olmayan ulduzdu. MOS=4.21 WaveGlow (2019): Paralel sintezə keçmək Xatırladaq ki, ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın Xatırladaq ki, ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-ın ABŞ-da Xatırladaq ki, Xatırladaq ki, ABŞ-da Xatırladaq ki, Xatırladaq ki, Xatırladaq ki, Xatırladaq ki, Xatırladaq ki, Xatırladaq ki, Xatırladaq ki, Xatırladaq ki, Xatırladaq ki, Xatırladaq ki, Xatırladaq ki. VVD - Hollandiyada futbolçu bu adla tanımır, orada VVD daha çox mərkəz-sağı təmsilən edən siyasi partiyanın adının qısaltması kimi bilinir - artıq sorğu-suala ehtiyacı olmayan ulduzdu. MOS≈3.961 HiFi-GAN (2020): effektivliyin şampiyonu Xatırladaq ki, ABŞ-ın ABŞ-ın “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin” “Qəbələ”nin” “Qəbələ”nin “Qəbələ”nin” “Qəbələ”nin” “Qəbələ”nin” “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”in “Qəbələ”in “Qəbələ”in “Qəbələ”in “Qəbələ”in “Qəbələ”in “Qəbələ”in “Qəbələ”in “Qəbələ”in” “Qəbələ”in “Qəbələ”in”in “Qəbələ”in “Qəb Bu, GPU-də (<0.006×RTF) ultra-sürətlidir və CPU-də real-time performans əldə edə bilər, bu yüzden HiFi-GAN çabucak chatbotlar, oyun motorları və virtual köməkçilər kimi istehsal sistemləri üçün standart seçki oldu. MOS=4.36 13.92 MB FastDiff (2025): Real vaxtda yayılan keyfiyyət “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin “Qəbələ”nin” “Qəbələ”nin “Qəbələ”nin” “Qəbələ”nin “Qəbələ Bu kombinasiyanın birincisi, yüksək keyfiyyətli, real-time danışma sintezi üçün mümkün olan ilk diffusion-based vocoders biridir, daha expressive və reaktif uygulamalar üçün qapı açan. MOS=4.28 Bu modellərin hər biri vocoder dizaynında böyük bir dəyişməyi yansıtır.Artıq onların kağızda necə çalışdığını gördükdən sonra, onları öz referans və audio təhlilçilərimizlə test etmək zamanıdır. A/B Audio Galeriyası - A/B Audio Gallery Sizin qulaqlarınıza heç bir şey gəlməz! Biz LJ Speech Dataset-dən sonrakı cümlələrimizi test etmək üçün istifadə edəcəyik.Artiklamada daha sonra orijinal audio çəkilişini dinləyə bilərsiniz və onu xəlq olunanla birləşdirə bilərsiniz. Sentences: “Müsahibəsi ilə məşğul olan insanları öldürməkdən şikayətçi olan bir hekayəçi”. “Daha bir şey eşitmədi, lakin qadın heç vaxt Fauntleroyun satılmasını əmr etmədi” – deyə bildirib. “Yeni reytinqə görə, ziyarətçilərə cərimənin içində girməyə izin verilmədi, ancaq ağaclar arasında saxlandılar”. Aşağıda modelin nəticələrini qiymətləndirmək üçün istifadə edəcəyimiz metriklər təqdim edilir.Bunlar objektif və subjektiv metriklər də içərisindədir: “Naturality” (MOS): İnsan kimi görünən şey nə qədərdir (İnsanların 1/5 ölçüsü ilə reallaşdırılmışdır) Qaralıq (PESQ / STOI): Qaralıqlılıq və gürcü / artefaktları ölçməyə kömək edən objektif qiymətlər. Xətti (RTF): 1 RTF: 1 saniyədə 1 saniyədə audio istehsal etmək lazımdır. interaktiv hər şey üçün, bunu 1 və ya aşağıda istəyirsiniz Audio Players Audio oyunçular (Hazırla və hər bir modelin eşitmək üçün düymələri tıxırla.) Sentence Ground truth WaveNet WaveGlow HiFi‑GAN FastDiff S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ Quick‑Look Metrics Burada sizə oxuduğumuz modellər üçün elde edilən sonuçları göstərəcəyik. Model RTF ↓ MOS ↑ PESQ ↑ STOI ↑ WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 *For the MOS evaluation, we used voices from 150 participants with no background in music. ** As an acoustic model, we used Tacotron2 for WaveNet and WaveGlow, and FastSpeech2 for HiFi‑GAN and FastDiff. Bottom line Xatırladaq ki, 2050-ci ildə bu problemlər həll olunmayacaq, lakin bu problemlər həll olunmayacaq. Runtime limitləri (onlinegenerasiyadır, yoxsa canlı, interaktiv aplikasiyadır?) Qalınma standartları (Qalınma prioritetləri daha böyükdür: brüt sürət və ya maksimum sadəlik?) İnşaat hədəfləri (Powerful Cloud GPU, Local CPU və ya mobil cihazda çalışırmı?) Bu seçimlər arasındakı qidalanma davam edər, universaldır və dinlənilir və hiss edilər.