이 기사에서는 인공 지능 기술을 사용하여 라디오 진행자/라이브 스트림 산업이 가져올 잠재적인 혼란을 살펴봅니다. 평균 라디오 진행자 급여, 시간당 스팟 수, 시간당 발언된 총 단어 수, 음악 라이선스 비용 등 기타 요소를 분석하여 AI 기술을 사용하여 아주 짧은 시간에 완전 자동화된 라디오 방송국을 만드는 것이 가능함을 보여줍니다. 인재를 채용하는 데 드는 비용.
우리는 Avalon Star Streams 브랜드에서 현재 활성화된 솔루션 중 하나를 라이브로 시연합니다. 크리에이티브 커먼즈 음악 스트림에서 노래를 실행한 후 AI는 해당 노래 사이의 휴식 시간에 새로운 라디오 콘텐츠를 생성하고 원하는 경우 새 노래를 무작위로 선택할 수도 있습니다. . 마지막으로 ffmpeg 스트림을 제어하고 재생 목록을 효율적으로 관리할 수 있는 NodeJS 도커 이미지를 포함하여 활용되는 기술 스택에 대한 세부 정보를 제공합니다.
이 글을 쓰는 시점에 Twitch.TV 및 YouTube 에서 실시간 스트리밍 예시를 찾을 수 있습니다.
어떤 이유로든 데모가 라이브 스트리밍이 아닌 경우 이 YouTube 동영상에서 예시를 확인하세요.
참고: YouTube 비디오에서는 AI 성우 Antoni Starr를 사용하여 자동 생성된 스크립트 2개를 보여줍니다. 첫 번째는 기부 요청이고, 두 번째는 다음 곡을 알리는 랜덤 광고 플레이입니다.
무선 호스트 산업의 잠재적 혼란을 야기하는 주요 동인은 인건비의 상당한 감소에 있습니다. 현재 가격 책정 모델을 활용하면 전체 라디오 방송국을 운영하는 데 필요한 AI 음성 서비스의 연간 비용은 라디오 진행자의 전국 평균 급여가 약 $42,000인 것과 비교하면 약 $4100에 불과합니다[0].
평균 라디오 스팟 지속 시간은 16분이고 평균 말하기 속도는 분당 140단어입니다[1][2]. 각 라디오 스팟은 약 2,240단어로 구성됩니다. ChatGPT와 같은 AI 기반 콘텐츠 생성 비용은 750단어당 약 $0.002입니다. 따라서 콘텐츠 1시간 동안 GPT를 사용하는 데 드는 총 비용은 약 $0.006입니다.
라디오 진행자가 한 달에 약 45.5시간을 방송에 소비하는 경우[1], 연간 GPT 사용 비용은 약 55달러로 추산됩니다. 또한 40시간 사용 시 월 330달러의 가격으로 제공되는 Eleven Labs의 AI 음성 기술을 통합하면[3] 연간 약 4,000달러의 비용이 발생합니다.
GPT와 Eleven Labs의 비용을 합산하면 라디오 진행자의 AI 구현에 드는 총 비용은 연간 약 4,100달러입니다. 이는 기존 제작 방법에 비해 상당한 비용 절감을 의미하며 제한된 예산으로 라디오/라이브 스트림 호스트에게 새로운 가능성을 열어줍니다.
AI가 생성한 콘텐츠에는 인간의 재능이 제공하는 감정적 깊이와 개인적인 터치가 부족하다고 주장하는 사람도 있지만, 최근 자연어 처리의 발전은 그렇지 않은 것으로 나타났습니다. 딥 러닝 알고리즘을 통해 AI 시스템은 이제 방대한 양의 언어 데이터를 분석하고 문맥, 어조, 말투의 뉘앙스를 학습할 수 있습니다.
적절하게 훈련되면 이러한 시스템은 정확성과 효율성을 유지하면서 인간과 유사한 특성을 모방할 수 있습니다. 실제로, 고객 서비스부터 저널리즘에 이르는 많은 산업 분야에서는 기술 인수가 불가능하다고 생각되는 분야에서도 이미 경제적 이점으로 인해 챗봇과 기계 생성 콘텐츠를 구현하여 초기 성공을 거두었습니다. 궁극적으로 라디오 호스팅과 같은 방송 시장에서도 유사한 미래를 가정하는 것이 합리적으로 보입니다.
Avalon Star Stream 브랜드로 AI 지원 방송의 효율성을 보여주는 개념 증명을 설정했습니다. ffmpeg와 같은 오픈 소스 도구를 활용하고 Docker를 통해 관리되는 맞춤형 NodeJS 애플리케이션 프레임워크에 통합되어 중간 휴식 라디오 자키를 위한 실시간 생성 기능을 갖춘 자동화된 라이브 스트림 설정을 완료할 수 있었습니다.
시스템은 기본 설정에서 노래 나누기를 시도하기 전에 3곡을 재생합니다. 노래가 나오는 동안 우리 모델은 이전 세 번의 뮤지컬 세트에서 온라인으로 받은 메시지를 분석하고 기부자들에게 감사를 표하는 자체 원본 서면 자료를 제작한 후 상상의 제품에 대한 광고를 읽고 계속합니다. 우리 모델은 "Antoni Starr"라는 이름으로 Fallout 4 Universe 에 살고 있는 라디오 진행자의 페르소나를 취하라는 지시를 받았습니다.
예산 제약으로 인해 Antoni는 비용 절감 전략을 사용합니다. 콘텐츠를 생성하는 동안 그의 시스템이 동적으로 새로운 노래 브레이크를 생성하고 생성할 확률은 10%입니다(시간당 한 번으로 제한됨). 이 방법은 이 기술 데모의 목적에 맞게 제작 비용을 최적화하는 동시에 쇼에 놀라움과 독특함의 요소를 추가합니다. 다른 모든 광고 읽기는 테스트 중에 생성된 이전에 생성된 복주머니에서 나옵니다. 또한 채널이 너무 새로워서 공지사항에 사용할 구독자/멤버십을 설정할 수 없습니다.
아직 이에 대한 코드를 공개하기로 결정하지는 않았지만 기술 스택에 대해 이야기하기로 결정했습니다. 위 이미지에서 볼 수 있듯이 다양한 기술(FFmpeg, WebDAV, ChatGPT, EleventLabs, MongoDB)을 활용하는 도구와 애플리케이션은 이를 라이브 스트림 생성을 위한 플랫폼으로 결합합니다.
이 기술 스택은 생성된 콘텐츠를 기록하고 파일 저장소 역할을 하는 데 도움이 됩니다. WebxDAV 측면을 사용하면 음악 파일을 원격으로 저장하고 스트림 인스턴스화 시 다운로드할 수 있습니다.
이들은 생성 콘텐츠의 일꾼입니다. 새로운 광고 시간을 생성할 시간이 되면 맞춤 프롬프트와 함께 ChatGPT API를 활용하여 다음 스크립트를 가져옵니다. 우리의 프롬프트에는 스트림 기부자의 이름/정보와 임의의 가짜 제품이 미리 시드되어 광고를 읽을 수 있습니다.
스트리밍의 일꾼. FFmpeg는 스트림에서 볼 수 있는 모든 오디오/비주얼을 담당합니다. 정적 이미지 오버레이부터 TV에서 재생되는 인코딩된 비디오와 듣는 오디오까지. FFmpeg는 그 뒤에 숨은 마법입니다.
위 다이어그램에는 표시되지 않지만 실행 중인 스트림의 매개변수를 조정하는 관리 인터페이스가 있습니다. 이를 통해 관리자는 광고 중단을 강제하고 광고 중단 비율 알고리즘을 조정하는 등의 작업을 수행할 수 있습니다. 또한 이전에 언급했듯이 전체 플랫폼은 NodeJS에서 실행됩니다.
우리는 무선 호스트를 인공 지능으로 대체할 가능성을 조사한 후 특정 조건이 주어지면 실제로 그렇게 하는 것이 가능할 수도 있다는 결론을 내렸습니다. 우리의 연구 결과에 따르면 AI 기반 라디오 방송국은 인간 라디오 방송국에 비해 분명한 재정적 이점을 가지며 인간 DJ와 동등하거나 이를 능가하는 고품질 콘텐츠를 제작할 수 있습니다. 그러한 발전 속에서도 청취자들이 계속 참여하고 프로그램 내용에 적응할 수 있도록 추가 고려가 이루어져야 합니다.
전반적으로, 역동적인 목소리를 지닌 완전히 자동화된 라디오 방송국이나 라이브 스트림에 대한 아이디어는 처음에는 무리한 것처럼 보일 수 있지만, 현실은 신흥 기술이 빠르게 이 개념을 실현 가능하고 실용적으로 만들고 있다는 것입니다. 따라서 비즈니스 리더는 끊임없이 변화하는 시장에서 뒤처질 위험이 있기 전에 변화하는 환경을 인식하고 그에 따라 적응해야 합니다.
라이브 스트림 링크
도구 자체에 대해 더 자세히 알고 싶다면 주저하지 말고 문의해 주세요.