Trong bài viết này, chúng tôi xem xét sự gián đoạn tiềm ẩn của ngành công nghiệp phát sóng trực tiếp/máy chủ radio thông qua việc sử dụng công nghệ trí tuệ nhân tạo. Bằng cách phân tích mức lương trung bình của người dẫn chương trình phát thanh, số điểm mỗi giờ, tổng số từ được nói mỗi giờ và các yếu tố khác như phí cấp phép âm nhạc, chúng tôi chứng minh rằng có thể tạo một đài phát thanh hoàn toàn tự động bằng công nghệ AI với chi phí thấp. của chi phí thuê nhân tài.
Chúng tôi trình diễn trực tiếp một giải pháp như vậy hiện đang hoạt động dưới thương hiệu Avalon Star Streams, trong đó sau khi chạy các bài hát từ luồng nhạc chung sáng tạo, AI tạo nội dung radio mới trong thời gian nghỉ giữa các bài hát đó, thậm chí cho phép lựa chọn ngẫu nhiên các bài hát mới nếu muốn . Cuối cùng, chúng tôi cung cấp thông tin chi tiết về ngăn xếp công nghệ được sử dụng bao gồm hình ảnh docker NodeJS cho phép chúng tôi kiểm soát các luồng ffmpeg và quản lý danh sách phát một cách hiệu quả.
Tại thời điểm viết bài này, bạn có thể tìm thấy ví dụ về phát trực tiếp tại Twitch.TV và YouTube .
Nếu vì bất kỳ lý do gì, bản trình diễn không phát trực tiếp, vui lòng xem video YouTube này để biết ví dụ.
LƯU Ý: video YouTube hiển thị các trường hợp 2 tập lệnh được tạo tự động với Diễn viên lồng tiếng AI Antoni Starr. Đầu tiên là kêu gọi quyên góp và thứ hai là phát quảng cáo ngẫu nhiên với thông báo bài hát tiếp theo.
Động lực chính đằng sau sự gián đoạn tiềm năng của ngành công nghiệp máy chủ radio nằm ở việc giảm đáng kể chi phí lao động. Bằng cách sử dụng các mô hình định giá hiện tại, chi phí hàng năm cho các dịch vụ giọng nói AI cần thiết để chạy một đài phát thanh đầy đủ chỉ lên tới khoảng 4100 đô la so với mức lương trung bình toàn quốc của những người dẫn chương trình phát thanh ước tính khoảng 42 nghìn đô la [0].
Với thời lượng trung bình của một điểm phát thanh là 16 phút và tốc độ nói trung bình là 140 từ mỗi phút [1][2], mỗi điểm phát thanh bao gồm khoảng 2.240 từ. Việc tạo nội dung do AI cung cấp, chẳng hạn như ChatGPT, có chi phí khoảng 0,002 đô la cho mỗi 750 từ. Do đó, tổng chi phí sử dụng GPT cho một giờ nội dung lên tới khoảng 0,006 đô la.
Với việc máy chủ đài dành khoảng 45,5 giờ phát sóng mỗi tháng [1], chi phí sử dụng GPT hàng năm được ước tính là khoảng 55 đô la. Hơn nữa, việc tích hợp công nghệ giọng nói AI của Eleven Labs, có giá 330 đô la mỗi tháng cho 40 giờ sử dụng [3], phát sinh chi phí hàng năm khoảng 4.000 đô la.
Xem xét tổng chi phí của GPT và Eleven Labs, tổng chi phí triển khai AI cho một máy chủ radio là khoảng $4.100 mỗi năm. Điều này giúp giảm đáng kể chi phí so với các phương pháp sản xuất truyền thống và mở ra những khả năng mới cho những người dẫn chương trình phát thanh/phát trực tiếp với ngân sách hạn chế.
Mặc dù một số người có thể lập luận rằng nội dung do AI tạo ra thiếu chiều sâu cảm xúc và sự liên lạc cá nhân do tài năng của con người mang lại, nhưng những tiến bộ gần đây trong xử lý ngôn ngữ tự nhiên đã cho thấy điều ngược lại. Với các thuật toán học sâu, các hệ thống AI giờ đây có thể phân tích kho dữ liệu ngôn ngữ khổng lồ và tìm hiểu các sắc thái trong ngữ cảnh, giọng điệu và nhịp điệu của lời nói.
Khi được đào tạo đúng cách, các hệ thống này có thể bắt chước các phẩm chất giống con người trong khi vẫn duy trì độ chính xác và hiệu quả. Trên thực tế, nhiều ngành từ dịch vụ khách hàng đến báo chí đã đạt được thành công ban đầu với việc triển khai các bot trò chuyện và nội dung do máy tạo ra do lợi thế kinh tế, ngay cả trong những lĩnh vực được cho là miễn nhiễm với việc tiếp quản công nghệ. Cuối cùng, có vẻ hợp lý khi giả định một tương lai tương tự cho các thị trường phát sóng như lưu trữ đài phát thanh.
Dưới thương hiệu Avalon Star Stream của mình, chúng tôi đã thiết lập một bằng chứng về khái niệm thể hiện hiệu quả của việc phát sóng có sự hỗ trợ của AI. Tận dụng các công cụ nguồn mở như ffmpeg và được tích hợp trong khung ứng dụng NodeJS tùy chỉnh của chúng tôi được quản lý thông qua Docker, chúng tôi có thể đạt được thiết lập phát trực tiếp tự động hoạt động hoàn chỉnh với khả năng tạo thời gian thực cho trình điều khiển radio ngắt quãng của nó.
Hệ thống, trong cài đặt mặc định, sẽ phát 3 bài hát trước khi thử ngắt bài hát. Trong thời gian ngắt bài hát, mô hình của chúng tôi sẽ phân tích các lời nhắc nhận được trực tuyến trong ba tập nhạc kịch trước đó và tạo ra tài liệu gốc bằng văn bản của riêng mình nhắm mục tiêu đến những người quyên góp để cảm ơn họ, trước khi đọc quảng cáo cho một sản phẩm tưởng tượng và tiếp tục. Mô hình của chúng tôi được cho là lấy tính cách của một Người dẫn chương trình Radio sống trong Vũ trụ Fallout 4 tên là “Antoni Starr”.
Do hạn chế về ngân sách, Antoni áp dụng chiến lược tiết kiệm chi phí. Trong khi tạo nội dung, có 10% cơ hội, giới hạn một lần mỗi giờ, hệ thống của anh ấy sẽ tự động kéo và tạo một đoạn ngắt bài hát mới. Phương pháp này bổ sung yếu tố bất ngờ và độc đáo cho chương trình đồng thời tối ưu hóa chi phí sản xuất cho mục đích trình diễn công nghệ này. Tất cả các lần đọc quảng cáo khác sẽ đến từ một túi lấy được tạo trước đó được tạo trong quá trình thử nghiệm. Ngoài ra, do kênh còn quá mới nên chúng tôi không thể bật tính năng người đăng ký/chức năng hội viên sẽ được sử dụng trong các thông báo.
Mặc dù tôi chưa quyết định phát hành mã của mình cho việc này, nhưng tôi đã quyết định nói về ngăn xếp công nghệ. Như có thể thấy từ hình trên, công cụ tận dụng nhiều công nghệ khác nhau (FFmpeg, WebDAV, ChatGPT, EleventLabs, MongoDB) và ứng dụng kết hợp chúng thành một nền tảng để tạo luồng trực tiếp.
Phần ngăn xếp công nghệ này ở đây để giúp ghi lại nội dung được tạo và hoạt động như một kho lưu trữ tệp. Khía cạnh WebxDAV cho phép chúng tôi lưu trữ từ xa các tệp nhạc và tải chúng xuống khi khởi tạo cho luồng.
Đây là những đặc điểm của nội dung sáng tạo. Khi đến lúc tạo điểm ngắt quảng cáo mới, chúng tôi tận dụng API ChatGPT bằng lời nhắc tùy chỉnh để nhận tập lệnh tiếp theo. Lời nhắc của chúng tôi sẽ được gieo sẵn tên/thông tin từ những người quyên góp theo luồng và một sản phẩm giả mạo ngẫu nhiên để đọc quảng cáo.
Đặc điểm của phát trực tuyến. FFmpeg chịu trách nhiệm về tất cả âm thanh/hình ảnh bạn nhìn thấy trên luồng. từ lớp phủ hình ảnh tĩnh đến video được mã hóa phát trên TV và âm thanh bạn nghe thấy. FFmpeg là điều kỳ diệu đằng sau tất cả.
Không thấy trong sơ đồ trên, có một giao diện quản lý để tinh chỉnh các tham số của luồng đang chạy. Điều này cho phép quản trị viên buộc ngắt quảng cáo, điều chỉnh thuật toán tỷ lệ ngắt quảng cáo, v.v. Ngoài ra, như đã đề cập trước đây, toàn bộ nền tảng đang chạy khỏi NodeJS
Chúng tôi đã xem xét khả năng thay thế các máy chủ radio bằng trí tuệ nhân tạo và kết luận rằng, với một số điều kiện nhất định, thực sự có thể làm được như vậy. Phát hiện của chúng tôi cho thấy rằng các đài phát thanh do AI cung cấp sẽ có lợi thế tài chính rõ ràng so với các đối tác con người của họ và có khả năng tạo ra nội dung chất lượng cao bằng hoặc vượt qua nội dung của các DJ con người. Cần xem xét thêm để đảm bảo rằng người nghe vẫn tham gia và hài lòng với các dịch vụ của chương trình trong bối cảnh phát triển như vậy.
Nhìn chung, mặc dù ý tưởng về một đài phát thanh hoặc phát trực tiếp hoàn toàn tự động, với tính cách lồng tiếng năng động, ban đầu có vẻ xa vời, nhưng thực tế là các công nghệ mới nổi đang nhanh chóng biến ý tưởng này trở nên khả thi và thiết thực. Do đó, các nhà lãnh đạo doanh nghiệp phải nhận ra bối cảnh đang thay đổi và thích ứng cho phù hợp trước khi họ có nguy cơ bị bỏ lại phía sau trong một thị trường không ngừng phát triển.
Liên kết phát trực tiếp
Nếu bạn muốn xem thêm về bản thân công cụ, vui lòng liên hệ với chúng tôi.