Neste artigo, examinamos a potencial disrupção da indústria de rádio/transmissão ao vivo por meio do uso da tecnologia de inteligência artificial. Ao analisar o salário médio do apresentador de rádio, o número de spots por hora, o total de palavras faladas por hora e outros fatores, como taxas de licenciamento de música, demonstramos que é possível criar uma estação de rádio totalmente automatizada usando a tecnologia AI em uma fração do custo de contratação de talentos humanos.
Apresentamos uma demonstração ao vivo de uma solução atualmente ativa sob a marca Avalon Star Streams, onde após executar músicas de um stream de música creative commons, a IA gera novo conteúdo de rádio durante os intervalos entre essas músicas, permitindo até mesmo a seleção aleatória de novas músicas, se desejado . Por fim, fornecemos detalhes sobre a pilha de tecnologia utilizada, incluindo a imagem do docker NodeJS, que nos permite controlar fluxos ffmpeg e gerenciar listas de reprodução com eficiência.
No momento da redação deste artigo, você pode encontrar o exemplo de transmissão ao vivo em Twitch.TV e YouTube .
Se, por algum motivo, a demonstração não for transmitida ao vivo, sinta-se à vontade para conferir este vídeo do YouTube para obter um exemplo.
NOTA: o vídeo do YouTube mostra casos de 2 scripts gerados automaticamente com o AI Voice Actor Antoni Starr. O primeiro é um pedido de doações e o segundo é uma reprodução aleatória de anúncios anunciando a próxima música.
O principal fator por trás da potencial disrupção da indústria de rádio está na redução significativa dos custos de mão de obra. Utilizando os modelos de preços atuais, o custo anual dos serviços de voz de IA necessários para executar uma estação de rádio completa é de apenas aproximadamente US$ 4.100, em comparação com um salário médio nacional de apresentadores de rádio estimado em cerca de US$ 42 mil [0].
Com uma duração média de spot de rádio de 16 minutos e uma taxa média de fala de 140 palavras por minuto [1][2], cada spot de rádio consiste em aproximadamente 2.240 palavras. A geração de conteúdo com tecnologia de IA, como o ChatGPT, tem um custo de cerca de US$ 0,002 por 750 palavras. Assim, o custo total do uso do GPT para uma hora de conteúdo é de aproximadamente US$ 0,006.
Com os apresentadores de rádio gastando cerca de 45,5 horas por mês no ar [1], o custo anual de uso do GPT é estimado em aproximadamente US$ 55. Além disso, a integração da tecnologia de voz AI da Eleven Labs, com preço de US$ 330 por mês para 40 horas de uso [3], incorre em um custo anual de cerca de US$ 4.000.
Considerando as despesas combinadas do GPT e do Eleven Labs, o custo total de implementação da IA para um apresentador de rádio é de aproximadamente US$ 4.100 por ano. Isso representa uma redução de custo significativa em comparação com os métodos de produção tradicionais e abre novas possibilidades para hosts de rádio/transmissão ao vivo com orçamentos limitados.
Embora alguns possam argumentar que o conteúdo gerado por IA carece de profundidade emocional e toque pessoal fornecido pelo talento humano, avanços recentes no processamento de linguagem natural mostraram o contrário. Com algoritmos de aprendizado profundo, os sistemas de IA agora podem analisar vastos tesouros de dados linguísticos e aprender nuances no contexto, tom e cadência da fala.
Quando treinados adequadamente, esses sistemas são capazes de imitar qualidades humanas, mantendo a precisão e a eficiência. De fato, muitos setores, desde atendimento ao cliente até jornalismo, já obtiveram sucesso inicial com a implementação de chat-bots e conteúdo gerado por máquina devido a vantagens econômicas, mesmo em setores considerados imunes à aquisição tecnológica. Em última análise, parece razoável supor um futuro semelhante para mercados de transmissão como hospedagem de rádio.
Sob nossa marca Avalon Star Stream, criamos uma prova de conceito que mostra a eficiência da transmissão assistida por IA. Aproveitando ferramentas de código aberto como ffmpeg e integradas em nossa estrutura de aplicativo NodeJS personalizada gerenciada por meio do Docker, conseguimos obter uma configuração automatizada de transmissão ao vivo completa com recursos de geração em tempo real para seu rádio jockey de intervalo.
O sistema, nas configurações padrão, tocará 3 músicas antes de tentar uma pausa na música. Durante o intervalo da música, nosso modelo analisa as solicitações recebidas online durante os três conjuntos musicais anteriores e produz seu próprio material escrito original direcionado aos doadores, agradecendo-os, antes de ler um anúncio de um produto imaginário e continuar. Dizem que nosso modelo assume a personalidade de um apresentador de rádio que vive no universo Fallout 4 com o nome de “Antoni Starr”.
Devido a restrições orçamentárias, Antoni emprega uma estratégia de economia de custos. Ao gerar conteúdo, há 10% de chance, limitada a uma vez por hora, de que seu sistema puxe dinamicamente e gere um novo intervalo de música. Este método adiciona um elemento de surpresa e singularidade ao show, otimizando os custos de produção para o propósito desta demonstração técnica. Todas as outras leituras de anúncios virão de uma sacola gerada anteriormente durante o teste. Além disso, devido ao canal ser tão novo, não podemos ativar os inscritos/assinaturas para serem usados durante os anúncios.
Embora eu ainda não tenha decidido liberar meu código para isso, decidi falar sobre a pilha de tecnologia. Como visto na imagem acima, a ferramenta aproveita várias tecnologias (FFmpeg, WebDAV, ChatGPT, EleventLabs, MongoDB) e o aplicativo as combina em uma plataforma para geração de transmissão ao vivo.
Esta parte da pilha de tecnologia está aqui para ajudar a registrar o conteúdo gerado e atuar como um armazenamento de arquivos. O aspecto WebxDAV nos permite armazenar remotamente os arquivos de música e baixá-los na instanciação do stream.
Estes são os burros de carga do conteúdo generativo. Quando é hora de gerar um novo intervalo de anúncio, aproveitamos a API ChatGPT com nosso prompt personalizado para obter o próximo script. Nosso prompt será pré-semeado com nome/informações de doadores de stream e um produto falso aleatório para leitura de anúncio.
O burro de carga do streaming. O FFmpeg é responsável por todo o áudio/visual que você vê no stream. da sobreposição de imagem estática ao vídeo codificado reproduzido na TV e ao áudio que você ouve. FFmpeg é a mágica por trás de tudo.
Não visto no diagrama acima, há uma interface de gerenciamento para ajustar os parâmetros do fluxo em execução. Isso permite que o administrador force intervalos de anúncio, ajuste o algoritmo de taxa de intervalo de anúncio e muito mais. Além disso, como mencionado anteriormente, toda a plataforma está rodando no NodeJS
Examinamos a possibilidade de substituir os apresentadores de rádio por inteligência artificial e concluímos que, dadas certas condições, pode sim ser possível fazê-lo. Nossas descobertas sugerem que as estações de rádio com IA teriam claras vantagens financeiras sobre suas contrapartes humanas e seriam capazes de produzir conteúdo de alta qualidade igual ou superior ao de DJs humanos. Outras considerações devem ser feitas para garantir que os ouvintes permaneçam engajados e sintonizados com as ofertas do programa em meio a tais desenvolvimentos.
No geral, embora a ideia de uma estação de rádio ou transmissão ao vivo completamente automatizada, com uma personalidade dinâmica de voz possa inicialmente parecer absurda, a realidade é que as tecnologias emergentes estão rapidamente tornando a noção viável e prática. Assim, os líderes de negócios devem reconhecer o cenário em mudança e se adaptar de acordo antes de correr o risco de ficar para trás em um mercado em constante evolução.
Links de transmissão ao vivo
Se você quiser ver mais da própria ferramenta, não hesite em entrar em contato.