Dans cet article, nous examinons la perturbation potentielle de l'industrie de l'hôte radio/diffusion en direct grâce à l'utilisation de la technologie de l'intelligence artificielle. En analysant le salaire moyen de l'animateur de radio, le nombre de spots par heure, le nombre total de mots prononcés par heure et d'autres facteurs tels que les frais de licence musicale, nous démontrons qu'il est possible de créer une station de radio entièrement automatisée utilisant la technologie AI à une fraction du coût de l'embauche de talents humains.
Nous présentons une démonstration en direct d'une de ces solutions actuellement active sous la marque Avalon Star Streams, où après avoir exécuté des chansons à partir d'un flux musical Creative Commons, l'IA génère un nouveau contenu radio pendant les pauses entre ces chansons, permettant même la sélection aléatoire de nouvelles chansons si vous le souhaitez. . Enfin, nous fournissons des détails sur la pile technologique utilisée, y compris l'image docker NodeJS qui nous permet de contrôler les flux ffmpeg et de gérer efficacement les listes de lecture.
Au moment d'écrire ces lignes, vous pouvez trouver l'exemple de diffusion en direct sur Twitch.TV et YouTube .
Si pour une raison quelconque la démo n'est pas diffusée en direct, n'hésitez pas à consulter cette vidéo YouTube pour un exemple.
REMARQUE : la vidéo YouTube montre 2 scripts générés automatiquement avec l'acteur vocal AI Antoni Starr. Le premier est un appel aux dons, et le second est une annonce aléatoire avec l'annonce de la prochaine chanson.
Le principal moteur de la perturbation potentielle de l'industrie des hôtes radio réside dans la réduction significative des coûts de main-d'œuvre. En utilisant les modèles de tarification actuels, le coût annuel des services vocaux d'IA requis pour faire fonctionner une station de radio complète ne s'élève qu'à environ 4 100 $ par rapport au salaire moyen national des animateurs de radio estimé à environ 42 000 $ [0].
Avec une durée moyenne de spot radio de 16 minutes et un débit moyen de parole de 140 mots par minute [1][2], chaque spot radio se compose d'environ 2 240 mots. La génération de contenu alimentée par l'IA, telle que ChatGPT, coûte environ 0,002 $ par 750 mots. Ainsi, le coût total d'utilisation de GPT pour une heure de contenu s'élève à environ 0,006 USD.
Les animateurs de radio passant environ 45,5 heures par mois à l'antenne [1], le coût annuel de l'utilisation de GPT est estimé à environ 55 $. De plus, l'intégration de la technologie vocale AI d'Eleven Labs, au prix de 330 $ par mois pour 40 heures d'utilisation [3], entraîne un coût annuel d'environ 4 000 $.
Compte tenu des dépenses combinées de GPT et d'Eleven Labs, le coût total de la mise en œuvre de l'IA pour un animateur radio est d'environ 4 100 $ par an. Cela représente une réduction significative des coûts par rapport aux méthodes de production traditionnelles et ouvre de nouvelles possibilités pour les animateurs radio/live-stream avec des budgets limités.
Alors que certains pourraient affirmer que le contenu généré par l'IA manque de profondeur émotionnelle et de touche personnelle fournie par le talent humain, les progrès récents dans le traitement du langage naturel ont montré le contraire. Grâce aux algorithmes d'apprentissage en profondeur, les systèmes d'IA peuvent désormais analyser de vastes quantités de données linguistiques et apprendre des nuances dans le contexte, le ton et la cadence de la parole.
Lorsqu'ils sont formés correctement, ces systèmes sont capables d'imiter les qualités humaines tout en conservant précision et efficacité. En fait, de nombreuses industries allant du service client au journalisme ont déjà connu un premier succès avec la mise en œuvre de chat-bots et de contenu généré par des machines en raison d'avantages économiques, même dans des secteurs que l'on croyait à l'abri de la prise de contrôle technologique. En fin de compte, il semble raisonnable de supposer un avenir similaire pour les marchés de la radiodiffusion comme l'hébergement radio.
Sous notre marque Avalon Star Stream, nous avons mis en place une preuve de concept démontrant l'efficacité de la diffusion assistée par IA. En tirant parti d'outils open source tels que ffmpeg et intégrés dans notre cadre d'application NodeJS personnalisé géré via Docker, nous avons pu réaliser une configuration de diffusion en direct automatisée fonctionnelle avec des capacités de génération en temps réel pour son jockey radio d'entracte.
Le système, dans les paramètres par défaut, jouera 3 chansons avant de tenter une pause de chanson. Pendant la pause-chanson, notre modèle analyse les invites reçues en ligne lors des trois sets musicaux précédents et produit son propre matériel écrit original ciblant les donateurs en les remerciant, avant de lire une publicité pour un produit imaginaire et de continuer. On dit à notre modèle de prendre le personnage d'un animateur de radio vivant dans l' univers de Fallout 4 sous le nom de "Antoni Starr".
En raison de contraintes budgétaires, Antoni utilise une stratégie de réduction des coûts. Lors de la génération de contenu, il y a 10 % de chances, limitées à une fois par heure, que son système tire et génère dynamiquement une nouvelle pause de chanson. Cette méthode ajoute un élément de surprise et d'unicité au spectacle tout en optimisant les coûts de production pour les besoins de cette démonstration technologique. Toutes les autres lectures publicitaires proviendront d'un sac à main généré précédemment et créé lors des tests. De plus, en raison de la nouveauté de la chaîne, nous ne sommes pas en mesure d'activer les abonnés/adhésions à utiliser lors des annonces.
Bien que je n'aie pas encore décidé de publier mon code pour cela, j'ai décidé de parler de la pile technologique. Comme le montre l'image ci-dessus, l'outil exploitant diverses technologies (FFmpeg, WebDAV, ChatGPT, EleventLabs, MongoDB) et l'application les combinent dans une plate-forme de génération de flux en direct.
Cet élément de la pile technologique est là pour aider à enregistrer le contenu généré et agir comme un magasin de fichiers. L'aspect WebxDAV nous permet de stocker à distance les fichiers musicaux et de les télécharger à l'instanciation pour le flux.
Ce sont les bêtes de somme du contenu génératif. Lorsqu'il est temps de générer une nouvelle coupure publicitaire, nous utilisons l'API ChatGPT avec notre invite personnalisée pour obtenir le script suivant. Notre invite sera pré-ensemencée avec le nom / les informations des donateurs du flux et un faux produit aléatoire à lire.
Le cheval de bataille du streaming. FFmpeg est responsable de tous les éléments audio/visuels que vous voyez sur le flux. de la superposition d'images statiques à la vidéo encodée diffusée sur le téléviseur et au son que vous entendez. FFmpeg est la magie derrière tout cela.
Non vu dans le diagramme ci-dessus, il existe une interface de gestion pour modifier les paramètres du flux en cours d'exécution. Cela permet à l'administrateur de forcer les coupures publicitaires, de modifier l'algorithme de taux de coupure publicitaire et plus encore. De plus, comme mentionné précédemment, toute la plate-forme fonctionne à partir de NodeJS
Nous avons examiné la possibilité de remplacer les animateurs radio par de l'intelligence artificielle et avons conclu que, sous certaines conditions, il pourrait effectivement être possible de le faire. Nos résultats suggèrent que les stations de radio alimentées par l'IA auraient des avantages financiers évidents par rapport à leurs homologues humains et seraient capables de produire un contenu de haute qualité égal ou supérieur à celui des DJ humains. Un examen plus approfondi devrait être fait pour s'assurer que les auditeurs restent engagés et à l'écoute des offres du programme au milieu de tels développements.
Dans l'ensemble, alors que l'idée d'une station de radio ou d'un flux en direct entièrement automatisé, avec une personnalité vocale dynamique, peut sembler tirée par les cheveux, la réalité est que les technologies émergentes rendent rapidement la notion réalisable et pratique. Ainsi, les chefs d'entreprise doivent reconnaître l'évolution du paysage et s'adapter en conséquence avant de risquer d'être laissés pour compte dans un marché en constante évolution.
Liens de diffusion en direct
Si vous voulez voir plus de l'outil lui-même, n'hésitez pas à nous contacter.