1,273 Lesungen

Die Radiomoderator- und Live-Stream-Branche: Bereit für GPT-Störungen

von Matthew Zygowicz5m2023/06/01

Zu lang; Lesen

In diesem Artikel untersuchen wir die potenzielle Störung der Radiomoderator-/Livestream-Branche durch den Einsatz künstlicher Intelligenz. Wir zeigen, dass es möglich ist, mithilfe von KI-Technologie einen vollautomatischen Radiosender zu einem Bruchteil der Kosten für die Einstellung menschlicher Talente zu erstellen. Wir präsentieren eine Live-Demonstration einer solchen Lösung, die derzeit unter der Marke Avalon Star Streams aktiv ist.

featured image - Die Radiomoderator- und Live-Stream-Branche: Bereit für GPT-Störungen

In diesem Artikel untersuchen wir die potenzielle Störung der Radiomoderator-/Livestream-Branche durch den Einsatz künstlicher Intelligenz. Durch die Analyse des durchschnittlichen Gehalts eines Radiomoderators, der Anzahl der Spots pro Stunde, der insgesamt pro Stunde gesprochenen Wörter und anderer Faktoren wie Musiklizenzgebühren zeigen wir, dass es möglich ist, mithilfe von KI-Technologie zu einem Bruchteil eines Bruchteils einen vollautomatischen Radiosender zu erstellen der Kosten für die Einstellung menschlicher Talente.

Wir zeigen eine Live-Demonstration einer solchen Lösung, die derzeit unter der Marke Avalon Star Streams aktiv ist. Nach dem Abspielen von Songs aus einem Creative-Commons-Musikstream generiert die KI in den Pausen zwischen diesen Songs neue Radioinhalte und ermöglicht auf Wunsch sogar die zufällige Auswahl neuer Songs . Abschließend stellen wir Details zum verwendeten Tech-Stack bereit, einschließlich des NodeJS-Docker-Images, mit dem wir ffmpeg-Streams steuern und Wiedergabelisten effizient verwalten können.

Laufbeispiel

Zum Zeitpunkt des Verfassens dieses Artikels finden Sie das Beispiel-Livestreaming auf Twitch.TV und YouTube .

Wenn die Demo aus irgendeinem Grund nicht live gestreamt werden kann, können Sie sich dieses YouTube-Video als Beispiel ansehen.

HINWEIS: Das YouTube-Video zeigt zwei automatisch generierte Skripte mit dem KI-Sprecher Antoni Starr. Beim ersten handelt es sich um einen Spendenaufruf, beim zweiten um eine zufällige Werbeeinblendung mit der Ankündigung des nächsten Liedes.

Kostenanalyse

Der Hauptgrund für die potenzielle Störung der Radiomoderatorenbranche liegt in der erheblichen Senkung der Arbeitskosten. Unter Verwendung aktueller Preismodelle belaufen sich die jährlichen Kosten für KI-Sprachdienste, die für den Betrieb eines vollständigen Radiosenders erforderlich sind, auf nur etwa 4.100 US-Dollar, verglichen mit einem landesweiten Durchschnittsgehalt von Radiomoderatoren, das auf etwa 42.000 US-Dollar geschätzt wird [0].

Bei einer durchschnittlichen Radiospotdauer von 16 Minuten und einer durchschnittlichen Sprechgeschwindigkeit von 140 Wörtern pro Minute [1][2] besteht jeder Radiospot aus etwa 2.240 Wörtern. Die KI-gestützte Inhaltserstellung wie ChatGPT kostet etwa 0,002 US-Dollar pro 750 Wörter. Somit belaufen sich die Gesamtkosten für die Nutzung von GPT für eine Stunde Inhalt auf etwa 0,006 US-Dollar.

Da Radiomoderatoren etwa 45,5 Stunden pro Monat auf Sendung verbringen [1], werden die jährlichen Kosten für die GPT-Nutzung auf etwa 55 US-Dollar geschätzt. Darüber hinaus verursacht die Integration der KI-Sprachtechnologie von Eleven Labs, die bei 330 US-Dollar pro Monat für 40 Stunden Nutzung [3] kostet, jährliche Kosten von rund 4.000 US-Dollar.

Unter Berücksichtigung der Gesamtkosten von GPT und Eleven Labs belaufen sich die Gesamtkosten für die Implementierung von KI für einen Radiomoderator auf etwa 4.100 US-Dollar pro Jahr. Dies stellt eine deutliche Kostenreduzierung im Vergleich zu herkömmlichen Produktionsmethoden dar und eröffnet neue Möglichkeiten für Radio-/Livestream-Moderatoren mit begrenztem Budget.

Weitere Überlegungen

Während einige vielleicht argumentieren, dass KI-generierten Inhalten die emotionale Tiefe und die persönliche Note menschlicher Talente fehlen, haben jüngste Fortschritte in der Verarbeitung natürlicher Sprache das Gegenteil gezeigt. Mit Deep-Learning-Algorithmen können KI-Systeme jetzt riesige Mengen sprachlicher Daten analysieren und Nuancen im Kontext, Tonfall und Rhythmus der Sprache lernen.

Bei richtiger Schulung sind diese Systeme in der Lage, menschenähnliche Eigenschaften nachzuahmen und gleichzeitig Genauigkeit und Effizienz beizubehalten. Tatsächlich haben viele Branchen, vom Kundenservice bis zum Journalismus, aufgrund wirtschaftlicher Vorteile bereits erste Erfolge bei der Implementierung von Chatbots und maschinengenerierten Inhalten erzielt, selbst in Sektoren, die als immun gegenüber einer technologischen Übernahme gelten. Letztendlich scheint es vernünftig, eine ähnliche Zukunft für Rundfunkmärkte wie das Radio-Hosting anzunehmen.

Beispiele

Unter unserer Marke Avalon Star Stream haben wir einen Proof of Concept erstellt, der die Effizienz von KI-gestütztem Rundfunk demonstriert. Durch die Nutzung von Open-Source-Tools wie ffmpeg und die Integration in unser benutzerdefiniertes NodeJS-Anwendungsframework, das über Docker verwaltet wird, konnten wir ein funktionierendes automatisiertes Live-Stream-Setup mit Echtzeit-Generierungsfunktionen für den Radiojockey in der Pause erreichen.

In den Standardeinstellungen spielt das System drei Lieder ab, bevor es eine Liedunterbrechung versucht. Während der Song-Pause analysiert unser Modell die während der letzten drei Musiksets online eingegangenen Aufforderungen und erstellt sein eigenes originales schriftliches Material, das sich an die Spender richtet, um ihnen zu danken, bevor es eine Anzeige für ein imaginäres Produkt liest und fortfährt. Unser Modell soll die Rolle eines im Fallout 4-Universum lebenden Radiomoderators namens „Antoni Starr“ übernehmen.

Aufgrund von Budgetbeschränkungen verfolgt Antoni eine Kostensparstrategie. Beim Generieren von Inhalten besteht eine 10-prozentige Chance (begrenzt auf einmal pro Stunde), dass sein System dynamisch einen neuen Song-Break zieht und generiert. Diese Methode verleiht der Show ein überraschendes und einzigartiges Element und optimiert gleichzeitig die Produktionskosten für den Zweck dieser Tech-Demo. Alle anderen Anzeigenlesungen stammen aus einer zuvor generierten Grabbag, die während des Tests erstellt wurde. Da der Kanal noch so neu ist, können wir außerdem die Abonnenten/Mitgliedschaften für Ankündigungen nicht aktivieren.

Tech-Stack

Obwohl ich mich noch nicht entschieden habe, meinen Code dafür zu veröffentlichen, habe ich beschlossen, über den Tech-Stack zu sprechen. Wie aus dem obigen Bild ersichtlich ist, nutzt das Tool verschiedene Technologien (FFmpeg, WebDAV, ChatGPT, EleventLabs, MongoDB) und die Anwendung kombiniert diese zu einer Plattform für die Live-Stream-Generierung.

WebDAV + MongoDB

Dieser Teil des Tech-Stacks soll dabei helfen, generierte Inhalte aufzuzeichnen und als Dateispeicher zu fungieren. Der WebxDAV-Aspekt ermöglicht es uns, die Musikdateien remote zu speichern und bei der Instanziierung für den Stream herunterzuladen.

ChatGPT + Elf Labs

Dies sind die Arbeitspferde des generativen Inhalts. Wenn es Zeit ist, eine neue Werbeunterbrechung zu generieren, nutzen wir die ChatGPT-API mit unserer benutzerdefinierten Eingabeaufforderung, um das nächste Skript abzurufen. Unsere Eingabeaufforderung wird vorab mit Namen/Informationen von Stream-Spendern und einem zufälligen gefälschten Produkt zum Anzeigenlesen versehen.

FFmpeg

Das Arbeitstier des Streamings. FFmpeg ist für alle Audio-/Videoinhalte verantwortlich, die Sie im Stream sehen. Von der statischen Bildüberlagerung über das codierte Video, das auf dem Fernseher abgespielt wird, bis hin zum Ton, den Sie hören. FFmpeg ist die Magie dahinter.

HTML/CSS/JavaScript

Im Diagramm oben nicht zu sehen, gibt es eine Verwaltungsschnittstelle zum Optimieren von Parametern des laufenden Streams. Dies ermöglicht es dem Administrator, Werbeunterbrechungen zu erzwingen, den Algorithmus für die Werbeunterbrechungsrate zu optimieren und vieles mehr. Darüber hinaus läuft die gesamte Plattform, wie bereits erwähnt, auf NodeJS

Abschluss

Wir haben die Möglichkeit untersucht, Radiomoderatoren durch künstliche Intelligenz zu ersetzen, und sind zu dem Schluss gekommen, dass dies unter bestimmten Bedingungen tatsächlich möglich sein könnte. Unsere Ergebnisse deuten darauf hin, dass KI-gestützte Radiosender klare finanzielle Vorteile gegenüber ihren menschlichen Pendants hätten und in der Lage wären, qualitativ hochwertige Inhalte zu produzieren, die denen menschlicher DJs ebenbürtig sind oder diese übertreffen. Es sollten weitere Überlegungen angestellt werden, um sicherzustellen, dass die Hörer auch angesichts dieser Entwicklungen engagiert und auf das Programmangebot eingestellt bleiben.

Insgesamt mag die Idee eines vollständig automatisierten Radiosenders oder Live-Streams mit einer dynamischen Stimme zunächst weit hergeholt erscheinen, doch die Realität ist, dass neue Technologien die Idee schnell machbar und praktisch machen. Daher müssen Unternehmensleiter die sich verändernde Landschaft erkennen und sich entsprechend anpassen, bevor sie Gefahr laufen, in einem sich ständig weiterentwickelnden Markt zurückgelassen zu werden.

Live-Stream-Links

Twitch.TV und Youtube

Wenn Sie mehr über das Tool selbst sehen möchten, zögern Sie bitte nicht, Kontakt mit uns aufzunehmen.