يا جميع، أنا Oleh Datskiv، المهندس الرئيسي في الهندسة الذكية في قسم البيانات للبحث والتطوير من N-iX. في الآونة الأخيرة، لقد عملت على أنظمة الرسائل النصية، وأكثر من ذلك بكثير، على الأبطال غير المرغوب فيها: الكاتب العصبي. دعونا نقدم لكم هذه الخطوة النهائية من خطوط TTS - الجزء الذي يبدي النماذج الخاطئة إلى اللغات النادرة الطبيعية التي نسمعها. Introduction إذا كنت قد عملت مع النص إلى الكلام في السنوات الماضية ، فقد استخدمت صوتي - حتى لو لم تلاحظ ذلك. صوتي العصبي هو النموذج النهائي في قناة النص إلى الكلام (TTS) ؛ فإنه يتحول إلى صوتي إلى صوتي يمكنك سماعه في الواقع. منذ إطلاق WaveNet في عام 2016، تطورت المفاتيح العصبية بسرعة، أصبحت أسرع وأسرع وأصعب وأكثر صرامة طبيعية. من الموجة إلى GANs إلى التنبؤ، كل نهج جديد يحرك المجال إلى أقرب إلى الكلمة في الوقت الحقيقي، عالية الدقة. كان 2024 يشعر بأنها نقطة تحول حاسمة: أصبحت الوسائط القابلة للتنبؤ مثل FastDiff في النهاية سريعة بما فيه الكفاية لاستخدامها في الوقت الحقيقي، وليس مجرد تكوين الأسهم كما كان سابقا. ولكن مع الكثير من الخيارات التي لدينا الآن ، لا تزال الأسئلة: كيف تبدو هذه النماذج من الجانب الآخر؟ ما هي الأدوات التي تحافظ على التوقعات منخفضة بما فيه الكفاية للاستخدام المباشر أو التفاعلية؟ ما هو أفضل خيار لـ VOCODER بالنسبة لك؟ سوف نستعرض هذه المقالة أربعة محاور رئيسية: WaveNet، WaveGlow، HiFi-GAN، وFastDiff. سنعرف كيف يعمل كل نموذج وما الذي يجعلها مختلفة. What Is a Neural Vocoder? على مستوى عال، كل نظام TTS الحديث لا يزال يتبع نفس الطريق الأساسية: دعونا نذهب بسرعة إلى ما يفعله كل من هذه البنوك ولماذا نتطلع إلى الكاتب اليوم: يغير النص الأسود أو الفنانين إلى إدراجات لغة مفصلة. نموذج أكوستاري: هذه المرحلة تحديد كيفية تسمية الكلام مع مرور الوقت. إنه يتحول المكونات اللغوية إلى كواكب الليمون التي تظهر الوقت واللمونيا والتعبير. لديه مكونات ثانوية حاسمة: التقييم والتوقيت: هذا المكون يحدد مدة كل فكرة يجب أن تستمر ، مما يضمن أن الدور الفكري يبدو طبيعيًا وموهوبًا. متصفح Variance/Prosody: في هذه المرحلة ، يتم إرسال المتصفح إلى الأسطوانة والطاقة والتصميم ، مما يخلق الأسطوانة والتركيز والخلفية العاطفية للمقال. الكاتب العصبي: في النهاية، هذا النموذج يتحول إلى سحري حقيقي، والذي يمكننا سماعه. يعيش أو يموت الفولاذ المقاوم للبضائع الجميلة. يعيش أو يموت الفولاذ المقاوم للبضائع الجميلة بشكل مثير للدهشة، ونتائجها هي ممثلة في استوديوهات الفولاذ المقاوم للبضائع الجميلة. يخلق ذلك بالخطأ، وحتى مع أفضل نموذج صوتي، سوف تحصل على غضب المعدني في الصوت الذي تم إنشاؤه. هذا هو السبب في أن اختيار الفولاذ المقاوم للبضائع الجميلة هو أمر مهم - لأنها ليست كلها تم بناء نفسها. The Vocoder Lineup الآن، دعونا نلتقي مع أربعة منافسينا. كل منها يمثل أجيال مختلفة من تنسيق الكلام العصبي، مع نهجها الفريد في توازن التوازن بين جودة الصوت والسرعة والجودة النموذجية. يتم تسجيل الأرقام أدناه من الأرقام الأصلية. وبالتالي فإن الأداء الفعلي سيختلف اعتمادا على حجم الأجهزة والعديد من الأقمار الصناعية. سنشارك أرقام المعايير الخاصة بنا في وقت لاحق في المقال للتحقق من العالم الحقيقي. WaveNet (2016): المرتبة الأصلية للثقة أعلنت شركة "جوجل" عن إطلاق هاتفها الذكي الجديد "جوجل" الجديد، والذي يتيح لمستخدمي هواتف "جوجل" إطلاق هاتفها الذكي الجديد "جوجل" الجديد، والذي يتيح للمستخدمين إطلاق هاتفها الذكي الجديد "جوجل" الجديد. ومع ذلك ، فإن هذا النهج النموذجي من النموذج إلى النموذج يجعله يجعل WaveNet تدريجياً أبطأ ، مما يحد من استخدامه للعمل في استوديو خارج الإنترنت بدلاً من التطبيقات الحية. MOS=4.21 WaveGlow (2019): الانخفاض إلى التعديل المباشر من أجل حل مشكلة السرعة المهمة لـ WaveNet، قدمت شركة NVIDIA WaveGlow تصميمًا مبتكرًا يستند إلى تدفق، لا يقلل من السرعة في الوقت الحقيقي، مما أدى إلى انخفاض كبير في وقت التفكير إلى 0.04 RTF، مما يجعلها أسرع بكثير من الوقت الحقيقي. ويعتبر ذلك خطوة أقل صعوبة من إيمان WaveNet.تحدياتها الأساسية هي أبعاد الذاكرة الكبيرة والرغبة في إنتاج إحساس عميق في التكرار العالي، وخاصة مع بيانات التدريب الصوتية. MOS≈3.961 HiFi-GAN (2020): مدرب فعالية وتشمل هذه التكنولوجيا تقنية البلوتوث الذكية، التي تعتمد على تقنية البلوتوث الذكية، والتي تعتمد على تقنية البلوتوث الذكي الذكي الذكي الذكي الذكي الذكي ( (من الممكن أن تساعدك على التغلب على الصعوبات التي تواجهك، ولكن من الممكن أن تساعدك على التغلب على الصعوبات التي تواجهك). إنه سريع للغاية على GPU (<0.006×RTF) ويمكن حتى تحقيق أداء في الوقت الحقيقي على CPU ، وهذا هو السبب في أن HiFi-GAN أصبح بسرعة اختياراً للأنظمة الإنتاج مثل chatbots ، محركات الألعاب ، والمساعدات الافتراضية. MOS=4.36 13.92 MB FastDiff (2025): جودة الشحن بسرعة في الوقت الحقيقي أولاً: يجب أن تُعَلِّمَهُنَّ أولاً، ثم تُعَلِّمَهُنَّ ثانياً، ثم تُعَلِّمَهُنَّ ثالثاً، ثم تُعَلِّمَهُنَّ ثالثاً، ثم تُعَلِّمَهُنَّ ثالثاً، ثم تُعَلِّمَهُنَّ ثالثاً، ثم تُعَلِّمَهُنَّ ثالثاً، ثم تُعَلِّمَهُنَّ ثالثاً. مع الحفاظ على السرعة السريعة للاستخدام التفاعلي (~0.02 × RTF على GPU). هذه الجمعية تجعلها واحدة من أول الكاميرات المرتبطة بالانتشار قابلة للتنفيذ لجودة صوتية عالية في الوقت الحقيقي ، مما يفتح أبواب لتطبيقات أكثر إثارة وشفافية. MOS=4.28 كل من هذه النماذج تعكس تغييرات كبيرة في تصميم vocoder. الآن نحن نرى كيف يعملون على الورق، فقد حان الوقت لتثبيتها مع المعايير الخاصة بنا ومقارنة الصوت. اقرأ المزيد - A/B Audio Gallery لا شيء يضرب أذنيك! سوف نستخدم القصص التالية من مجموعة بيانات الكلام LJ للتحقق من كلماتنا.في وقت لاحق من المقال، يمكنك أيضًا سماع تسجيل الصوت الأصلي ومقارنة ذلك مع تلك التي تم إنشاؤها. Sentences: "ممارس طب متهم بقتل أشخاص يعتمدون على مهاراته المهنية." لم يتم سماع أي شيء آخر عن الحادث، على الرغم من أن الرجال أعلنوا أنهم لم يطلبوا من Fauntleroy بيعها". "بموجب القواعد الجديدة ، لم يسمح الزوار بالذهاب إلى داخل السجن ، ولكن تم احتجازهم بين الحفر". يتم تقييم الأرقام التي سوف نستخدمها لتقييم النتائج من النماذج أدناه. طبيعة (MOS): كيف يبدو الإنسان (تقييم من قبل الناس الحقيقيين على مقياس 1/5) الشفافية (PESQ / STOI): النقاط الضوئية التي تساعد في قياس التفكير والتعقيد / العناوين. سرعة (RTF): RTF من 1 يعني أنه يستغرق 1 ثانية لإنتاج 1 ثانية من الصوت. Audio Players ألعاب الأندرويد (اكتشف القفازات وتقطع على المفاتيح للاستماع إلى كل نموذج.) Sentence Ground truth WaveNet WaveGlow HiFi‑GAN FastDiff S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ Quick‑Look Metrics هنا ، سنعرض لك النتائج التي تم الحصول عليها من النماذج التي نقدرها. Model RTF ↓ MOS ↑ PESQ ↑ STOI ↑ WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 *For the MOS evaluation, we used voices from 150 participants with no background in music. ** As an acoustic model, we used Tacotron2 for WaveNet and WaveGlow, and FastSpeech2 for HiFi‑GAN and FastDiff. Bottom line تظهر رحلتنا من خلال حديقة الفوركس أن الفجوة بين السرعة والجودة تنخفض، ولكن لا توجد حلًا متكاملًا. - اختيار الفوركس في عام 2025 أو ما بعده يجب أن يعتمد أساسًا على احتياجات المشروع والتحديات التقنية، بما في ذلك: الحد الأدنى من الوقت التنفيذي (هل هو إنتاج غير مباشر أم تطبيق إبداعي ومفاهيمي؟) متطلبات الجودة (ما هو أهمية أعلى: السرعة الغذائية أو العدالة المطلوبة؟) الأهداف التنفيذية (هل سيتم تشغيلها على GPU الكلي القوي، وCPU المحلي، أو الجهاز المحمول؟) مع التقدم في المجال، ستستمر الخطوط بين هذه الخيارات في التخفف، مما يفتح الطريق لمناقشة عالية الدقة التي يتم سماعها وتشعر بها.