この記事では、人工知能テクノロジーの使用によるラジオホスト/ライブストリーム業界の潜在的な破壊について考察します。ラジオ司会者の平均給与、1時間あたりのスポット数、1時間あたりに話される総単語数、および音楽ライセンス料などのその他の要素を分析することにより、AI技術を使用して完全に自動化されたラジオ局をわずかな費用で作成できることを実証します。人材を雇用するコストのこと。
私たちは、Avalon Star Streams ブランドで現在アクティブなソリューションの 1 つをライブ デモンストレーションします。クリエイティブ コモンズ ミュージック ストリームから曲を再生した後、AI が曲間の休憩中に新しいラジオ コンテンツを生成し、必要に応じて新しい曲をランダムに選択することもできます。 。最後に、ffmpeg ストリームの制御とプレイリストの効率的な管理を可能にする NodeJS Docker イメージなど、利用されている技術スタックの詳細を説明します。
この記事の執筆時点では、ライブ ストリーミングの例はTwitch.TVおよびYouTubeで見つけることができます。
何らかの理由でデモがライブ ストリーミングではない場合は、この YouTube ビデオで例を確認してください。
注: YouTube ビデオでは、AI 声優の Antoni Starr による 2 つの自動生成スクリプトのケースが示されています。 1 つ目は寄付の呼びかけで、2 つ目は次の曲をアナウンスするランダムな広告再生です。
ラジオホスト業界の潜在的な破壊の背後にある主な要因は、人件費の大幅な削減にあります。現在の価格モデルを利用すると、完全なラジオ局を運営するために必要な AI 音声サービスの年間コストは、約 42,000 ドルと推定されるラジオ ホストの全国平均給与と比較して、わずか約 4,100 ドルに過ぎません [0]。
ラジオ スポットの平均持続時間は 16 分、平均話速は 1 分あたり 140 ワード [1][2] で、各ラジオ スポットは約 2,240 ワードで構成されます。 ChatGPT などの AI を利用したコンテンツ生成のコストは、750 ワードあたり約 0.002 ドルです。したがって、1 時間のコンテンツに対して GPT を使用する場合の総コストは約 0.006 ドルになります。
ラジオのホストは毎月約 45.5 時間を放送に費やしているため [1]、GPT 使用の年間コストは約 55 ドルと推定されます。さらに、Elemental Labs の AI 音声テクノロジーを統合すると、40 時間の使用で月額 330 ドル [3] の料金がかかり、年間約 4,000 ドルのコストがかかります。
GPT と イレブン ラボの合計費用を考慮すると、ラジオ ホストに AI を実装するための総コストは年間約 4,100 ドルになります。これは、従来の制作方法と比較して大幅なコスト削減を意味し、予算が限られているラジオ/ライブストリーム ホストに新たな可能性をもたらします。
AI によって生成されたコンテンツには、人間の才能によって提供される感情的な深みや個人的なタッチが欠けていると主張する人もいるかもしれませんが、自然言語処理の最近の進歩はそうではないことを示しています。ディープラーニング アルゴリズムを使用することで、AI システムは膨大な言語データを分析し、文脈、語調、話のリズムのニュアンスを学習できるようになりました。
適切にトレーニングすると、これらのシステムは精度と効率を維持しながら、人間のような性質を模倣することができます。実際、顧客サービスからジャーナリズムに至るまでの多くの業界は、技術的な乗っ取りの影響を受けないと思われている分野であっても、経済的利点によりチャットボットや機械生成コンテンツの導入ですでに初期の成功を収めています。結局のところ、ラジオホスティングのような放送市場も同様の将来になると考えるのが合理的だと思われます。
当社は、Avalon Star Stream ブランドの下で、AI 支援放送の効率性を示す概念実証を確立しました。 ffmpeg などのオープンソース ツールを活用し、Docker で管理されるカスタム NodeJS アプリケーション フレームワーク内に統合することで、休憩ラジオ ジョッキーのリアルタイム生成機能を備えた、機能する自動ライブ ストリーム セットアップを実現することができました。
システムは、デフォルト設定では、曲の中断を試みる前に 3 曲を再生します。歌の休憩中に、私たちのモデルは、これまでの 3 つのミュージカル セット中にオンラインで受け取ったプロンプトを分析し、寄付者に感謝の気持ちを伝える独自のオリジナルの文書を作成してから、架空の商品の広告を読んで続行します。私たちのモデルは、「Antoni Starr」という名前でFallout 4 ユニバース内に住むラジオ ホストのペルソナを取ると言われています。
予算の制約のため、アントニはコスト削減戦略を採用しています。コンテンツの生成中に、システムが動的に新しいソングブレイクを取得して生成する可能性が 10% あります (1 時間に 1 回に制限されています)。この方法は、この技術デモの目的に合わせて制作コストを最適化しながら、番組に驚きと独自性の要素を追加します。他のすべての広告読み取りは、テスト中に作成された以前に生成されたグラブバッグから取得されます。さらに、このチャンネルは非常に新しいため、アナウンス中に使用する登録者/メンバーシップを有効にすることができません。
このコードを公開することはまだ決めていませんが、技術スタックについて話すことにしました。上の画像からわかるように、このツールはさまざまなテクノロジ (FFmpeg、WebDAV、ChatGPT、EventLabs、MongoDB) を利用しており、アプリケーションはそれらをライブ ストリーム生成用のプラットフォームに組み合わせています。
技術スタックのこの部分は、生成されたコンテンツを記録し、ファイル ストアとして機能するのに役立ちます。 WebxDAV の側面により、音楽ファイルをリモートで保存し、ストリームのインスタンス化時にダウンロードすることができます。
これらは生成コンテンツの主力製品です。新しい広告ブレイクを生成するときは、ChatGPT API とカスタム プロンプトを利用して次のスクリプトを取得します。私たちのプロンプトには、ストリームの寄付者からの名前/情報と、広告を読み取るためのランダムな偽の製品が事前にシードされます。
ストリーミングの主力。 FFmpeg は、ストリーム上で表示されるすべてのオーディオ/ビジュアルを担当します。静止画像オーバーレイから、テレビで再生されるエンコードされたビデオと聞こえるオーディオまで。 FFmpeg はすべてを支える魔法です。
上の図には表示されていませんが、実行中のストリームのパラメータを調整するための管理インターフェイスがあります。これにより、管理者は広告ブレークを強制したり、広告ブレーク率アルゴリズムを微調整したりすることができます。さらに、前述したように、プラットフォーム全体が NodeJS から実行されます。
私たちはラジオのホストを人工知能に置き換える可能性を検討し、特定の条件があれば実際にそうすることが可能である可能性があると結論付けました。私たちの研究結果は、AI を活用したラジオ局が人間のラジオ局に比べて経済的に明らかに有利であり、人間の DJ と同等かそれを上回る高品質のコンテンツを制作できることを示唆しています。このような展開の中でも、リスナーが確実に番組の内容に関心を持ち、同調し続けることができるように、さらなる検討を行う必要があります。
全体として、ダイナミックな音声パーソナリティを備えた、完全に自動化されたラジオ ステーションやライブ ストリームというアイデアは、最初は突飛なように思えるかもしれませんが、現実には、新興テクノロジーがその概念を急速に実現可能かつ実用的なものにしています。したがって、ビジネスリーダーは、進化し続ける市場で取り残される危険を冒す前に、変化する状況を認識し、それに応じて適応する必要があります。
ライブストリームリンク
ツール自体をさらに詳しく知りたい場合は、お気軽にお問い合わせください。