在本文中,我们研究了通过使用人工智能技术对电台主持人/直播行业的潜在破坏。通过分析电台主持人的平均工资、每小时的点数、每小时说的总字数以及音乐许可费等其他因素,我们证明可以使用 AI 技术以一小部分的成本创建一个全自动电台雇用人才的成本。
我们现场演示了一种目前在 Avalon Star Streams 品牌下活跃的此类解决方案,在播放创意共享音乐流中的歌曲后,人工智能会在这些歌曲之间的休息时间生成新的广播内容,甚至可以根据需要随机选择新歌曲.最后,我们提供了所用技术堆栈的详细信息,包括 NodeJS docker 图像,它使我们能够有效地控制 ffmpeg 流和管理播放列表。
在撰写本文时,您可以在Twitch.TV和YouTube上找到直播示例。
如果出于任何原因该演示不是实时流式传输,请随时查看此 YouTube 视频以获取示例。
注意: YouTube 视频展示了 2 个由 AI 配音演员 Antoni Starr 自动生成的脚本。第一个是募捐呼吁,第二个是播放下一首歌曲的随机广告。
广播主持人行业潜在颠覆背后的关键驱动力在于劳动力成本的显着降低。利用当前的定价模型,运行一个完整的广播电台所需的 AI 语音服务的年成本仅为大约 4100 美元,而广播主持人的全国平均工资估计约为 42,000 美元 [0]。
平均广播节目持续时间为 16 分钟,平均语速为每分钟 140 个单词 [1][2],每个广播节目包含大约 2,240 个单词。人工智能驱动的内容生成,例如 ChatGPT,每 750 个单词的成本约为 0.002 美元。因此,使用 GPT 播放一小时内容的总成本约为 0.006 美元。
由于电台主持人每月花费大约 45.5 小时在广播上 [1],因此每年使用 GPT 的成本估计约为 55 美元。此外,集成 Eleven Labs 的 AI 语音技术(使用 40 小时的价格为每月 330 美元 [3]),每年的成本约为 4,000 美元。
考虑到 GPT 和 Eleven Labs 的综合开支,为电台主持人实施 AI 的总成本约为每年 4,100 美元。与传统制作方法相比,这意味着成本显着降低,并为预算有限的广播/直播主持人开辟了新的可能性。
虽然有些人可能会争辩说,人工智能生成的内容缺乏情感深度和人类才能提供的个人风格,但自然语言处理的最新进展却表明并非如此。借助深度学习算法,人工智能系统现在可以分析大量语言数据,并学习语境、语调和语调的细微差别。
经过适当的训练,这些系统能够模仿人类的品质,同时仍然保持准确性和效率。事实上,由于经济优势,从客户服务到新闻业的许多行业已经在实施聊天机器人和机器生成的内容方面取得了初步成功,即使是在被认为不受技术收购影响的行业也是如此。最终,为广播托管等广播市场假设一个类似的未来似乎是合理的。
在我们的 Avalon Star Stream 品牌下,我们建立了一个展示 AI 辅助广播效率的概念验证。利用 ffmpeg 等开源工具并集成到我们通过 Docker 管理的自定义 NodeJS 应用程序框架中,我们能够实现功能齐全的自动化直播设置,并为其间歇期电台主持人提供实时生成功能。
系统在默认设置下会播放 3 首歌曲,然后再尝试断歌。在歌曲休息期间,我们的模型分析了在前三首音乐剧中在线收到的提示,并针对捐赠者制作了自己的原创书面材料,以感谢他们,然后阅读一个虚构产品的广告并继续。我们的模型被告知以“Antoni Starr”的名字扮演生活在Fallout 4 宇宙中的电台主持人的角色。
由于预算限制,Antoni 采用了节约成本的策略。在生成内容时,他的系统有 10% 的机会(限制为每小时一次)动态拉取并生成新的歌曲中断。这种方法为节目增添了惊喜和独特的元素,同时为了这个技术演示的目的优化了制作成本。所有其他广告读取将来自先前在测试期间创建的抓取包。此外,由于频道太新了,我们无法启用在公告期间使用的订阅者/会员资格。
虽然我还没有决定为此发布我的代码,但我决定谈谈技术堆栈。从上图可以看出,利用各种技术(FFmpeg、WebDAV、ChatGPT、EleventLabs、MongoDB)的工具和应用程序将它们组合成一个平台,用于直播生成。
这部分技术堆栈用于帮助记录生成的内容并充当文件存储。 WebxDAV 方面允许我们远程存储音乐文件并在流实例化时下载它们。
这些是生成内容的主力军。当需要生成新的广告插播时,我们会利用 ChatGPT API 和我们的自定义提示来获取下一个脚本。我们的提示将预先播种来自流捐赠者的姓名/信息和一个随机的假冒产品以进行广告阅读。
流媒体的主力军。 FFmpeg 负责您在流中看到的所有音频/视频。从静态图像叠加到电视上播放的编码视频和您听到的音频。 FFmpeg 是这一切背后的魔力。
在上图中没有看到,有一个管理界面可以调整运行流的参数。这允许管理员强制广告中断、调整广告中断率算法等。此外,如前所述,整个平台都在运行 NodeJS
我们研究了用人工智能取代广播主持人的可能性,并得出结论认为,在特定条件下,确实有可能这样做。我们的研究结果表明,由人工智能驱动的广播电台与人类广播电台相比具有明显的财务优势,并且能够制作出与人类 DJ 相当或超过的高质量内容。应进一步考虑以确保听众在此类发展过程中保持参与并适应该计划的产品。
总的来说,虽然具有动态语音个性的完全自动化的广播电台或直播的想法最初似乎有些牵强,但现实是新兴技术正在迅速使这一概念变得可行和实用。因此,企业领导者必须认识到不断变化的环境并做出相应调整,以免在不断变化的市场中被甩在后面。
直播链接
如果您想了解更多工具本身,请随时联系我们。