هره ورځ، زه Oleh Datskiv، د N-iX د R & D ډاټا یوټیټ کې د AI مخکښ انجنیر. په وروستیو کې، زه د متن سره د کلام سیستمونو په اړه کار وکړم او په ځانګړي ډول د هغوی د مخکښ خدای په اړه کار وکړم: د عصري vocoder. اجازه ورکړم چې تاسو ته د TTS پایپینټ په دې وروستیو مرحله کې راټول کړئ - هغه برخه چې انفرادي سپیکټروګرامونه په طبیعي غږونو خبرې کې بدل کیږي چې موږ شنئ. Introduction که تاسو په وروستیو کلونو کې text-to-speech سره کار واخلئ، نو تاسو د vocoder کار واخلئ - حتی که تاسو یې نلري. د نوري vocoder د Text-to-Speech (TTS) پایپ کې پایپ ماډل دی؛ دا د mel-spectrogram په غږ کې بدل کیږي چې تاسو په حقیقت کې کولی شئ ونیسئ. د WaveNet په 2016 کال کې د وړاندیز وروسته، عصري vocoders په چټکۍ سره پراختیا شوي دي. دوی په چټکۍ سره، د رڼا، او نور طبيعي غږونه وده ورکړي. له جریان پر بنسټ د GANs ته د پراختیا ته، هر نوی روښانه ده چې د ځمکې د واقعي وخت، د عالي اعتبار کلام ته وده ورکړي. 2024 د بشپړ بدلون په توګه احساس شوی: د پراختیا پر بنسټ vocoders لکه FastDiff په پایله کې د حقیقي وخت کارولو لپاره په پام کې ونیسئ، نه یوازې د بیلټس سیټیسس په څیر. دا د نوي امکاناتو لړ کې وده ورکړي. ترټولو ښکاره دي د سمارټ ډبل کولو پایپونه، د لوړ کیفیت مجازی غږونه، او ډیر ښکلي مسلکونه، حتی که تاسو د لوړ کیفیت GPU کلستر څخه کار واخلئ. مګر د ډیری انتخابونو سره چې موږ اوس لري، د پوښتنو پړاو شتون لري: څنګه د دغو ماډلونو سره په دوامداره توګه غږ کوي؟ کوم چې د ژوند یا انټرنېټ کارولو لپاره د لټینټ کم دی؟ ستاسو لپاره د vocoder غوره انتخاب څه دی؟ دا پست به د څلور کلیدي vocoders وګورئ: WaveNet، WaveGlow، HiFi-GAN، او FastDiff. موږ به د هر موډل په څنګه کار کوي او هغه څه چې دوی مختلف کوي. مهم تر ټولو، موږ به تاسو ته د دوی د کار د پایلو ته اجازه ورکوي نو تاسو کولی شئ د هغه چې تاسو ترټولو ترټولو ترټولو غواړئ. همدارنګه، موږ به د موډل تبادلې چې زموږ څیړنې له لارې ترسره شوي دي شریک کړي. What Is a Neural Vocoder? په لوړه کچه، هر عصري TTS سیسټم اوس هم د ورته بنسټیز لاره پیښو کوي: موږ به په چټکۍ سره د دغو بلوکونو په اړه چمتو کړي او ځکه چې موږ اوس د vocoder په اړه تمرکز کوو: د متن کوډر: دا خام متن یا فونیمونه په تفصيلي زبانونو کې بدلوي. Acoustic ماډل: دا مرحله پیشې کوي چې څنګه د خبرې کولو باید په وخت کې غږ شي. دا د لغوي انډولونو ته د میل سپیکټروګرامونو ته بدل کیږي چې وخت، میلوډیا، او بیان ښیي. دا دوه مهم برخو لري: Alignment & duration predictor: دا عنصر مشخصوي چې هر فونیم باید څومره دوام ورکوي، ډاډه کوي چې د خبرې کولو ریتم طبيعي او انسانی وي. Variance / پروډیډ اډاپټر: په دې مرحله کې، اډاپټر د پټ، انرژۍ، او سټیل ته وده ورکوي، د کلمې د میډیا، د تبادلې، او د احساساتو کنټرول جوړوي. عصري vocoder: په پایله کې، دا ماډل د پروزډي غليظ spectrogram په واقعي غږ کې بدل کیږي، چې موږ کولی شو سمون. VOCODER دی هغه ځای چې ښه پایپولونه ژوند کوي یا مړ کیږي. د ګرځنده شکلونو په بشپړه توګه نقشه کوي، او پایله یو استوګنې کټګورۍ جوړونکي ده. دا غلط کړئ، او حتی د غوره اکسيټیک ماډل سره، تاسو به په تولید شوي غږ کې فلزي بوز ترلاسه کړئ. دا د مناسب VOCODER غوره کولو لپاره مهم دی - ځکه چې دوی ټول ورته جوړ شوي دي. ځینې د سرعت لپاره د کیفیت لپاره غوره کیږي. د غوره ماډلونه طبیعي، سرعت او شفافیت توازن کوي. The Vocoder Lineup اوس، موږ زموږ د څلور داوطلبانو سره یوځای شو. هر یو د عصري خبرې synthesis مختلف نسل رامینځته کوي، د غږ د کیفیت، سرعت او د نمونې اندازه ترمنځ د توازن توازن کولو په ځانګړي لارښوونې سره. لاندې شمیره د اصل کاغذونو څخه جوړ شوي دي. په دې توګه، د واقعي فعالیت به ستاسو د هارډویر او د بیلګې اندازه پورې اړه لري. موږ به په دې مقاله کې د واقعي نړۍ چک لپاره زموږ د نمونې شمیره برخه واخلي. WaveNet (2016): د اصل وفاداری معیار د Google د WaveNet د ګرځنده نندارتون دی چې د TTS لپاره د غږ کیفیت ته رامینځته کړي. لکه څنګه چې د خودکشی ماډل په توګه، دا د غږ یو نمونه په هر وخت کې تولید کوي، د هر نوی نمونه په ټولو مخکښ شوي. دا پروسه په دې وخت کې د غیر معمولي طبيعت په پایله کې ( په هرصورت، دا sample-by-sample لارښوونې هم د WaveNet دردناکی روښانه کوي، د دې کار د offline استودیو کار په پرتله په ژوند کې غوښتنلیکونه محدود کړي. MOS=4.21 WaveGlow (2019): د paralel synthesis ته ځي د WaveNet د مهم سرعت ستونزه حل کولو لپاره، د NVIDIA WaveGlow د جریان پر بنسټ، غیر خودکشی آرکټیکټ جوړ کړ. په یو واحد پړاو پړاو کې د کلن اوبو فورمه تولید کول په عمده توګه 0.04 RTF ته د پایلو وخت کم کړي، دا په واقعي وخت کې په پرتله ډیر سرعت کوي. په داسې حال کې چې کیفیت ښه دی ( ) ، دا د WaveNet د وفادارتیا څخه یو کوچني ګام نیسي. د دې لومړني محدودیتونه یو لوی حافظه پایپ دی او د لوړ فریکونسۍ عضلاتو تولید کولو tendency دی، په ځانګړي ډول د رطوبت روزنې معلوماتو سره. MOS≈3.961 HiFi-GAN (2020): د موثریت د چیمپین HiFi-GAN په کارولو سره د Generative Adversarial Network (GAN) په کارولو کې د اغیزمنۍ کې یو پراختیا رامینځته کړ. دا آرکټیکټوریټ اجازه ورکوي چې د لوړ اعتبار آډیو تولید کړي ( ), کوم چې د WaveNet سره رقابتی دی، مګر د ناقانونه کوچنی موډل څخه چټک دی ( دا د GPU (<0،006×RTF) په لټه کې دی او حتی د CPU په لټه کې کولی شي د واقعي وخت فعالیت ترلاسه کړي، د دې امله HiFi-GAN په چټکۍ سره د تولید سیسټمونو لکه چیټبوټونه، لوبې انجنونه، او مجازی مسلکونو لپاره د معیاري انتخاب شوی. MOS=4.36 13.92 MB FastDiff (2025): په واقعي وخت کې د توزیع کیفیت د ډیزاین ماډلونو ته اړتیا نلري ثابت کړي، FastDiff د کیفیت او سرعت په توازن کې د اوسني پرمختللي معياري رامینځته کوي. د مخکښ ډیزاین پروسه ته د نږدې څلور ګامونو ته محدود کول ترټولو غوره غږ کیفیت ترلاسه کوي ( ) په داسې حال کې چې د انټرنېټي کارولو لپاره تیز سرعت (~0.02×RTF په GPU کې) ساتل کیږي). دا ترکیب دا یو له لومړي diffusion-based vocoders لپاره د لوړ کيفيت، په واقعي وخت کې خبرې synthesis وړاندیز وړ دی، د نور expressive او responsive غوښتنلیکونه لپاره دروازه ورکوي. MOS=4.28 د دې موډلونو په هر ډول کې د vocoder ډیزاین کې یو مهم بدلون ښکاري. اوس چې موږ وګورئ چې دوی په کاغذ کې څنګه کار کوي، دا وخت دی چې دوی سره زموږ د خپل مقناطیسي معیارونو او آډیو مقایسهونه ازموینه کړي. د A / B آډیو ګالری د هغه څه چې ستاسو د گوشونو له لاسه ورکړي! موږ به زموږ vocoders ازمايښتولو لپاره د LJ Speech Dataset څخه لاندې عبارتونه کاروي. په دې مقاله کې وروسته، تاسو کولی شئ د اصلي غږ ریکارډونه هم گوشئ او دا سره د تولید سره مقایسه وکړئ. Sentences: "د طبي کارپوه د هغه خلکو لپاره چې د خپل مسلکي مهارتونو پر بنسټ یې د قتل کولو په الزام کې دي." "په دې حال کې هیڅ څه نه شتون نلري، پداسې حال کې چې دا خانم اعلان کړ چې هغه هیڅکله Fauntleroy ته د خرڅلاو په لارښوونې نلري." "د نوي قانون له مخې، د لیدونکو ته اجازه نلري چې د زندان په داخلي کې داخل شي، مګر د ریټونو په منځ کې ساتل شوي دي." د نمونې چې موږ به د ماډل پایلو ارزښتولو لپاره کاروئ لاندې درج شوي دي. دا د objektive او مسلکي نمونې هم شامل دي: Naturality (MOS): څنګه د انسان په څیر دا غږ کوي (د حقیقي خلکو له خوا په 1/5 کچه) Clarity (PESQ / STOI): د objektive ټیټونه چې مرسته کوي چې د فهمتیا او رڼا / artefacts اندازه کړي. د لوړ، د ښه. سرعت (RTF): د 1 RTF معنی لري چې دا د 1 ثانیو ته اړتيا لري چې 1 ثانیو د غږ تولید کړي. د انټرنیټیزو هر څه لپاره، تاسو به دا په 1 یا لاندې کې وي. Audio Players د آډیو لوبغاړي (د موډلونه کښته کړئ او د هر موډل څخه د غږ کولو لپاره د بوتلونو ټیپ کړئ.) Sentence Ground truth WaveNet WaveGlow HiFi‑GAN FastDiff S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ Quick‑Look Metrics دلته، موږ به تاسو ته د ماډلونو لپاره ترلاسه شوي پايلې ښيي. Model RTF ↓ MOS ↑ PESQ ↑ STOI ↑ WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 *For the MOS evaluation, we used voices from 150 participants with no background in music. ** As an acoustic model, we used Tacotron2 for WaveNet and WaveGlow, and FastSpeech2 for HiFi‑GAN and FastDiff. Bottom line زموږ سفر په vocoder باغ کې ښيي چې په داسې حال کې چې د سرعت او کیفیت تر منځ د رخصتۍ کموي، د یو اندازه د ټولو حل نه ده. ستاسو انتخاب د vocoder په 2025 او وروسته باید په عمده توګه ستاسو د پروژې اړتياوو او تخنیکي اړتیاوو، په شمول: د چلند وخت محدودیتونه (یا دا یو offline نسل یا د ژوند، انټرنیټ اپلیکیشن دی؟) د کیفیت د اړتیاوو (د هغه څه چې ترټولو غوره دی: خام سرعت یا د عالي اعتبار) د پلورنې هدفونه (کیا دا به د بریښنا د سایټ GPU، یو محلي CPU، یا د ګرځنده آله پر چلول شي؟) لکه څنګه چې د ځمکې د پرمختګ، د دغو انتخابونو تر منځ د کرښو به په اوږدو کې وده ورکړي، د نړیوالو وړاندیز، د عالي اعتباري خبرې کولو لپاره د سمه کولو او احساس کولو لپاره د لارښوونې ورکړي.