Xin chào tất cả mọi người, tôi là Oleh Datskiv, Kỹ sư AI hàng đầu tại Đơn vị dữ liệu R & D của N-iX. Gần đây, tôi đã làm việc trên các hệ thống văn bản để nói và, cụ thể hơn, về anh hùng chưa được hát đằng sau chúng: vocoder thần kinh. Hãy để tôi giới thiệu cho bạn bước cuối cùng của đường ống TTS - phần biến các quang phổ trừu tượng thành lời nói tự nhiên mà chúng ta nghe thấy. Introduction Nếu bạn đã làm việc với text-to-speech trong vài năm qua, bạn đã sử dụng một vocoder - ngay cả khi bạn không nhận thấy nó. vocoder thần kinh là mô hình cuối cùng trong Text to Speech (TTS) đường ống; nó biến một mel-spectrogram thành âm thanh bạn thực sự có thể nghe thấy. Kể từ khi phát hành WaveNet vào năm 2016, các nhà phát ngôn thần kinh đã phát triển nhanh chóng.Họ trở nên nhanh hơn, nhẹ hơn và có âm thanh tự nhiên hơn.Từ dòng chảy dựa trên GAN đến phổ biến, mỗi cách tiếp cận mới đã đẩy lĩnh vực này đến gần hơn với thời gian thực, lời nói trung thành cao. 2024 cảm thấy như một bước ngoặt quyết định: các vocoders dựa trên phân tán như FastDiff cuối cùng đã đủ nhanh để được xem xét để sử dụng trong thời gian thực, không chỉ tổng hợp hàng loạt như trước đây. Điều đó mở ra một loạt các khả năng mới. những khả năng đáng chú ý nhất là các đường ống trùng lặp thông minh hơn, giọng nói ảo chất lượng cao hơn và trợ lý biểu cảm hơn, ngay cả khi bạn không sử dụng một cụm GPU cao cấp. Nhưng với rất nhiều lựa chọn mà chúng ta có bây giờ, những câu hỏi vẫn còn: Làm thế nào những mô hình này âm thanh bên cạnh bên cạnh? Những gì giữ độ trễ đủ thấp để sử dụng trực tiếp hoặc tương tác? Lựa chọn tốt nhất của một vocoder cho bạn là gì? Bài viết này sẽ xem xét bốn nhà phát ngôn chính: WaveNet, WaveGlow, HiFi-GAN và FastDiff. Chúng tôi sẽ giải thích cách mỗi mô hình hoạt động và điều gì làm cho chúng khác biệt. Quan trọng nhất, chúng tôi sẽ cho bạn nghe kết quả của công việc của họ để bạn có thể quyết định bạn thích cái nào hơn. What Is a Neural Vocoder? Ở cấp độ cao, mọi hệ thống TTS hiện đại vẫn theo cùng một con đường cơ bản: Hãy nhanh chóng đi qua những gì mỗi khối này làm và tại sao chúng ta đang tập trung vào vocoder ngày hôm nay: Mã hóa văn bản: Nó thay đổi văn bản thô hoặc âm thanh thành các nhúng ngôn ngữ chi tiết. Mô hình âm thanh: Giai đoạn này dự đoán cách nói chuyện sẽ âm thanh theo thời gian. Nó biến các nhúng ngôn ngữ thành các quang phổ mel hiển thị thời gian, giai điệu và biểu hiện. Nó có hai thành phần phụ quan trọng: Alignment & duration predictor: thành phần này xác định bao lâu mỗi phoneme nên kéo dài, đảm bảo nhịp điệu của lời nói cảm thấy tự nhiên và con người Tùy chỉnh biến thể / prosody: Ở giai đoạn này, adapter tiêm pitch, năng lượng và phong cách, định hình giai điệu, nhấn mạnh và đường viền cảm xúc của câu. Neural vocoder: Cuối cùng, mô hình này chuyển đổi quang phổ mel giàu prosody thành âm thanh thực tế, hình dạng sóng mà chúng ta có thể nghe thấy. Các vocoder là nơi các đường ống tốt sống hoặc chết. Bản đồ melt đến các hình dạng sóng hoàn hảo, và kết quả là một diễn viên cấp phòng thu. Lấy nó sai, và ngay cả với mô hình âm thanh tốt nhất, bạn sẽ nhận được một tiếng ồn kim loại trong âm thanh được tạo ra. Đó là lý do tại sao việc chọn đúng vocoder quan trọng - bởi vì họ không phải tất cả được xây dựng giống nhau. Một số tối ưu hóa cho tốc độ, những người khác cho chất lượng. các mô hình tốt nhất cân bằng tính tự nhiên, tốc độ và sự rõ ràng. The Vocoder Lineup Bây giờ, hãy gặp bốn đối thủ cạnh tranh của chúng tôi. Mỗi đại diện cho một thế hệ khác nhau của tổng hợp giọng nói thần kinh, với cách tiếp cận độc đáo của nó để cân bằng sự thỏa hiệp giữa chất lượng âm thanh, tốc độ và kích thước mô hình. Các con số dưới đây được rút ra từ các bài báo gốc. Do đó, hiệu suất thực tế sẽ thay đổi tùy thuộc vào phần cứng và kích thước lô của bạn. Chúng tôi sẽ chia sẻ các con số chuẩn của chúng tôi sau này trong bài viết để kiểm tra thế giới thực. WaveNet (2016): Điểm chuẩn trung thành ban đầu Google WaveNet là một cột mốc đã định nghĩa lại chất lượng âm thanh cho TTS. Là một mô hình tự động, nó tạo ra âm thanh một mẫu tại một thời điểm, với mỗi mẫu mới được điều chỉnh trên tất cả các mẫu trước đó. Tuy nhiên, cách tiếp cận theo mẫu này cũng làm cho WaveNet chậm lại một cách đau đớn, hạn chế việc sử dụng nó đối với công việc studio ngoại tuyến thay vì các ứng dụng trực tiếp. MOS=4.21 WaveGlow (2019): Nhảy đến tổng hợp song song Để giải quyết vấn đề tốc độ quan trọng của WaveNet, WaveGlow của NVIDIA đã giới thiệu một kiến trúc dựa trên dòng chảy, không tự hồi phục. Tạo toàn bộ hình dạng sóng trong một lối đi phía trước duy nhất làm giảm đáng kể thời gian suy luận xuống khoảng 0,04 RTF, làm cho nó nhanh hơn nhiều so với thời gian thực. Trong khi chất lượng là tuyệt vời ( Các hạn chế chính của nó là một dấu chân bộ nhớ lớn hơn và một xu hướng tạo ra một tiếng ồn tần số cao tinh tế, đặc biệt là với dữ liệu đào tạo ồn ào. MOS≈3.961 HiFi-GAN (2020): Nhà vô địch về hiệu quả HiFi-GAN đánh dấu một bước đột phá trong hiệu quả sử dụng Mạng Generative Adversarial (GAN) với một phân biệt lý lịch đa thời gian thông minh. kiến trúc này cho phép sản xuất âm thanh độ tin cậy cực cao ( , mà là cạnh tranh với WaveNet, nhưng nhanh từ một mô hình đáng chú ý nhỏ ( Nó cực nhanh trên GPU (<0.006×RTF) và thậm chí có thể đạt được hiệu suất thời gian thực trên CPU, đó là lý do tại sao HiFi-GAN nhanh chóng trở thành lựa chọn mặc định cho các hệ thống sản xuất như chatbots, công cụ trò chơi và trợ lý ảo. MOS=4.36 13.92 MB FastDiff (2025): Chất lượng truyền ở tốc độ thời gian thực Chứng minh rằng các mô hình phân tán không nhất thiết phải chậm, FastDiff đại diện cho hiện trạng hiện đại trong việc cân bằng chất lượng và tốc độ. ) trong khi duy trì tốc độ nhanh để sử dụng tương tác (~0.02×RTF trên GPU). kết hợp này làm cho nó trở thành một trong những vocoders dựa trên phân tán đầu tiên khả thi cho chất lượng cao, tổng hợp giọng nói thời gian thực, mở ra cánh cửa cho các ứng dụng biểu cảm và đáp ứng hơn. MOS=4.28 Mỗi mô hình này phản ánh một sự thay đổi đáng kể trong thiết kế vocoder.Bây giờ chúng tôi đã thấy cách chúng hoạt động trên giấy, đã đến lúc thử nghiệm chúng với các tiêu chuẩn và so sánh âm thanh của chúng tôi. Lời bài hát: A/B Audio Gallery Không có gì đánh vào tai anh! Chúng tôi sẽ sử dụng các câu sau từ LJ Speech Dataset để kiểm tra vocoders của chúng tôi.Sau đó trong bài viết, bạn cũng có thể nghe bản ghi âm gốc và so sánh nó với bản ghi âm được tạo ra. Sentences: “Một chuyên gia y tế bị buộc tội giết hại những người dựa vào kỹ năng chuyên môn của mình.” "Không còn gì được nghe nói về vụ việc, mặc dù người phụ nữ tuyên bố rằng cô chưa bao giờ ra lệnh cho Fauntleroy bán." “Theo quy tắc mới, du khách không được phép vào bên trong nhà tù, nhưng bị giam giữ giữa các lưới.” Các số liệu chúng tôi sẽ sử dụng để đánh giá kết quả của mô hình được liệt kê dưới đây. Tính tự nhiên (MOS): Nghe có vẻ như con người như thế nào (được đánh giá bởi những người thực trên thang điểm 1/5) Độ rõ ràng (PESQ / STOI): Điểm mục tiêu giúp đo lường khả năng thông minh và tiếng ồn / hiện vật. Tốc độ (RTF): Một RTF của 1 có nghĩa là mất 1 giây để tạo ra 1 giây âm thanh. Đối với bất cứ điều gì tương tác, bạn sẽ muốn điều này ở 1 hoặc dưới Audio Players Audio người chơi (Lấy tai nghe và nhấn các nút để nghe từng mô hình.) Sentence Ground truth WaveNet WaveGlow HiFi‑GAN FastDiff S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ S1 ▶️ ▶️ ▶️ ▶️ ▶️ S2 ▶️ ▶️ ▶️ ▶️ ▶️ S3 ▶️ ▶️ ▶️ ▶️ ▶️ Quick‑Look Metrics Ở đây, chúng tôi sẽ cho bạn thấy kết quả thu được cho các mô hình chúng tôi đánh giá. Model RTF ↓ MOS ↑ PESQ ↑ STOI ↑ WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 WaveNet 1.24 3.4 1.0590 0.1616 WaveGlow 0.058 3.7 1.0853 0.1769 HiFi‑GAN 0.072 3.9 1.098 0.186 FastDiff 0.081 4.0 1.131 0.19 *For the MOS evaluation, we used voices from 150 participants with no background in music. ** As an acoustic model, we used Tacotron2 for WaveNet and WaveGlow, and FastSpeech2 for HiFi‑GAN and FastDiff. Bottom line Cuộc hành trình của chúng tôi qua vườn thú vocoder cho thấy rằng trong khi khoảng cách giữa tốc độ và chất lượng đang thu hẹp, không có giải pháp phù hợp với tất cả các kích cỡ. sự lựa chọn của bạn cho một vocoder vào năm 2025 và hơn thế nữa nên chủ yếu phụ thuộc vào nhu cầu của dự án của bạn và yêu cầu kỹ thuật, bao gồm: Hạn chế thời gian chạy (nó là một thế hệ ngoại tuyến hoặc một ứng dụng trực tiếp, tương tác?) Yêu cầu chất lượng (Điều gì là ưu tiên cao hơn: tốc độ thô hoặc độ trung thành tối đa?) Mục tiêu triển khai (Sẽ chạy trên GPU đám mây mạnh mẽ, CPU cục bộ, hoặc thiết bị di động?) Khi lĩnh vực này tiến bộ, các đường ranh giới giữa các lựa chọn này sẽ tiếp tục mờ đi, mở đường cho một bài phát biểu có thể truy cập phổ biến, trung thành cao được nghe và cảm nhận.