En este artículo, examinamos la posible interrupción de la industria de transmisión en vivo/locutor de radio a través del uso de tecnología de inteligencia artificial. Al analizar el salario promedio del locutor de radio, la cantidad de anuncios por hora, el total de palabras habladas por hora y otros factores, como las tarifas de licencias de música, demostramos que es posible crear una estación de radio completamente automatizada utilizando tecnología de inteligencia artificial en una fracción. del costo de contratar talento humano.
Mostramos una demostración en vivo de una de esas soluciones actualmente activa bajo la marca Avalon Star Streams, donde después de ejecutar canciones de una transmisión de música creative commons, la IA genera nuevo contenido de radio durante los descansos entre esas canciones, incluso permitiendo la selección aleatoria de nuevas canciones si se desea. . Finalmente, brindamos detalles sobre la pila de tecnología utilizada, incluida la imagen acoplable de NodeJS, que nos permite controlar las transmisiones ffmpeg y administrar las listas de reproducción de manera eficiente.
En el momento de escribir este artículo, puede encontrar el ejemplo de transmisión en vivo en Twitch.TV y YouTube .
Si por alguna razón la demostración no se transmite en vivo, no dude en ver este video de YouTube para ver un ejemplo.
NOTA: el video de YouTube muestra casos de 2 guiones generados automáticamente con el actor de voz AI Antoni Starr. El primero es un llamado para donaciones, y el segundo es un anuncio aleatorio que anuncia la próxima canción.
El factor clave detrás de la posible interrupción de la industria de los presentadores de radio radica en la reducción significativa de los costos laborales. Utilizando los modelos de precios actuales, el costo anual de los servicios de voz de IA necesarios para operar una estación de radio completa asciende solo a aproximadamente $ 4100 en comparación con un salario promedio nacional de locutores de radio estimado en alrededor de $ 42k [0].
Con una duración media de los anuncios de radio de 16 minutos y una velocidad de conversación media de 140 palabras por minuto [1][2], cada anuncio de radio consta de aproximadamente 2240 palabras. La generación de contenido impulsada por IA, como ChatGPT, tiene un costo de alrededor de $ 0.002 por 750 palabras. Por lo tanto, el costo total de usar GPT por una hora de contenido asciende a aproximadamente $0.006.
Dado que los presentadores de radio pasan alrededor de 45,5 horas por mes en el aire [1], el costo anual del uso de GPT se estima en aproximadamente $55. Además, la integración de la tecnología de voz AI de Eleven Labs, con un precio de $330 por mes por 40 horas de uso [3], incurre en un costo anual de alrededor de $4000.
Teniendo en cuenta los gastos combinados de GPT y Eleven Labs, el costo total de implementar IA para un locutor de radio es de aproximadamente $4100 por año. Esto representa una reducción de costos significativa en comparación con los métodos de producción tradicionales y abre nuevas posibilidades para los anfitriones de radio/transmisión en vivo con presupuestos limitados.
Si bien algunos podrían argumentar que el contenido generado por IA carece de la profundidad emocional y el toque personal proporcionado por el talento humano, los avances recientes en el procesamiento del lenguaje natural han demostrado lo contrario. Con algoritmos de aprendizaje profundo, los sistemas de IA ahora pueden analizar grandes cantidades de datos lingüísticos y aprender matices en contexto, tono y cadencia del habla.
Cuando se entrenan adecuadamente, estos sistemas pueden imitar las cualidades humanas mientras mantienen la precisión y la eficiencia. De hecho, muchas industrias que van desde el servicio al cliente hasta el periodismo ya han tenido un éxito inicial con la implementación de chatbots y contenido generado por máquinas debido a las ventajas económicas, incluso en sectores que se creían inmunes a la adquisición tecnológica. En última instancia, parece razonable suponer un futuro similar para los mercados de transmisión como el alojamiento de radio.
Bajo nuestra marca Avalon Star Stream, establecimos una prueba de concepto que muestra la eficiencia de la transmisión asistida por IA. Aprovechando herramientas de código abierto como ffmpeg e integradas dentro de nuestro marco de aplicación NodeJS personalizado administrado a través de Docker, pudimos lograr una configuración de transmisión en vivo automatizada y funcional completa con capacidades de generación en tiempo real para su radio jockey intermedio.
El sistema, en la configuración predeterminada, reproducirá 3 canciones antes de intentar una pausa de canción. Durante la pausa de la canción, nuestro modelo analiza las indicaciones recibidas en línea durante los tres conjuntos musicales anteriores y produce su propio material escrito original dirigido a los donantes agradeciéndoles, antes de leer un anuncio de un producto imaginario y continuar. A nuestra modelo se le dice que adopte la personalidad de un locutor de radio que vive en el universo de Fallout 4 con el nombre de "Antoni Starr".
Debido a restricciones presupuestarias, Antoni emplea una estrategia de ahorro de costes. Mientras genera contenido, hay un 10 % de posibilidades, limitadas a una vez por hora, de que su sistema active y genere dinámicamente una nueva canción. Este método agrega un elemento de sorpresa y exclusividad al espectáculo al tiempo que optimiza los costos de producción para el propósito de esta demostración técnica. Todas las demás lecturas de anuncios provendrán de una bolsa de sorpresas generada previamente creada durante la prueba. Además, debido a que el canal es tan nuevo, no podemos activar los suscriptores/membresías para usar durante los anuncios.
Si bien aún no he decidido publicar mi código para esto, he decidido hablar sobre la pila tecnológica. Como se ve en la imagen de arriba, la herramienta aprovecha varias tecnologías (FFmpeg, WebDAV, ChatGPT, EleventLabs, MongoDB) y la aplicación las combina en una plataforma para la generación de transmisiones en vivo.
Esta pieza de la pila tecnológica está aquí para ayudar a registrar el contenido generado y actuar como un almacén de archivos. El aspecto WebxDAV nos permite almacenar de forma remota los archivos de música y descargarlos en la instanciación de la transmisión.
Estos son los caballos de batalla del contenido generativo. Cuando es hora de generar una nueva pausa publicitaria, aprovechamos la API de ChatGPT con nuestro indicador personalizado para obtener el siguiente script. Nuestro aviso se presembrará con el nombre/información de los donantes de flujo y un producto falso al azar para leer el anuncio.
El caballo de batalla de la transmisión. FFmpeg es responsable de todo el audio/visual que ves en la transmisión. desde la superposición de imágenes estáticas hasta el video codificado que se reproduce en el televisor y el audio que escucha. FFmpeg es la magia detrás de todo.
No se ve en el diagrama anterior, hay una interfaz de administración para modificar los parámetros de la transmisión en ejecución. Esto permite que el administrador fuerce las pausas publicitarias, modifique el algoritmo de tasa de pausas publicitarias y más. Además, como se mencionó anteriormente, toda la plataforma se ejecuta fuera de NodeJS.
Examinamos la posibilidad de reemplazar los presentadores de radio con inteligencia artificial y llegamos a la conclusión de que, dadas ciertas condiciones, es posible hacerlo. Nuestros hallazgos sugieren que las estaciones de radio impulsadas por IA tendrían claras ventajas financieras sobre sus contrapartes humanas y serían capaces de producir contenido de alta calidad igual o superior al de los DJ humanos. Se debe realizar una consideración adicional para garantizar que los oyentes permanezcan comprometidos y en sintonía con las ofertas del programa en medio de tales desarrollos.
En general, si bien la idea de una estación de radio completamente automatizada o una transmisión en vivo, con una personalidad de voz dinámica, inicialmente puede parecer descabellada, la realidad es que las tecnologías emergentes rápidamente están haciendo que la noción sea factible y práctica. Por lo tanto, los líderes empresariales deben reconocer el panorama cambiante y adaptarse en consecuencia antes de correr el riesgo de quedarse atrás en un mercado en constante evolución.
Enlaces de transmisión en vivo
Si desea ver más de la herramienta en sí, no dude en comunicarse.