Bu makalede, yapay zeka teknolojisinin kullanımı yoluyla radyo sunucusu/canlı yayın endüstrisinin potansiyel aksamasını inceliyoruz. Ortalama radyo sunucusu maaşını, saat başına reklam sayısını, saat başına konuşulan toplam kelimeyi ve müzik lisans ücretleri gibi diğer faktörleri analiz ederek, yapay zeka teknolojisini kullanarak çok küçük bir maliyetle tam otomatik bir radyo istasyonu oluşturmanın mümkün olduğunu gösteriyoruz. insan yeteneğini işe almanın maliyeti.
Avalon Star Streams markası altında şu anda aktif olan böyle bir çözümün canlı gösterimini sergiliyoruz; burada yaratıcı bir ortak müzik akışından şarkıları çalıştırdıktan sonra yapay zeka, bu şarkılar arasındaki molalar sırasında yeni radyo içeriği üretiyor, hatta istenirse yeni şarkıların rastgele seçilmesine bile izin veriyor. . Son olarak, ffmpeg akışlarını kontrol etmemize ve çalma listelerini verimli bir şekilde yönetmemize olanak tanıyan NodeJS docker görüntüsü de dahil olmak üzere, kullanılan teknoloji yığını hakkında ayrıntılar sağlıyoruz.
Bu yazının yazıldığı sırada canlı yayın örneğini Twitch.TV ve YouTube'da bulabilirsiniz.
Herhangi bir nedenle demo canlı yayınlanmıyorsa, örnek olarak bu YouTube videosuna göz atmaktan çekinmeyin.
NOT: YouTube videosunda Yapay Zeka Seslendirme Sanatçısı Antoni Starr ile otomatik olarak oluşturulan 2 komut dosyası gösterilmektedir. Birincisi bağış çağrısı, ikincisi ise bir sonraki şarkının duyurulduğu rastgele bir reklam oyunu.
Radyo sunucusu endüstrisindeki potansiyel kesintinin ardındaki temel etken, işgücü maliyetlerindeki önemli düşüşte yatmaktadır. Mevcut fiyatlandırma modelleri kullanıldığında, tam bir radyo istasyonunu çalıştırmak için gereken yapay zeka ses hizmetlerinin yıllık maliyeti, radyo sunucularının ulusal ortalama maaşının 42 bin dolar civarında olduğu tahmin edilirken yalnızca yaklaşık 4100 dolar tutarındadır [0].
Ortalama radyo spotu süresi 16 dakika ve ortalama konuşma hızı dakikada 140 kelime olan [1] [2] her radyo spotu yaklaşık 2.240 kelimeden oluşmaktadır. ChatGPT gibi yapay zeka destekli içerik oluşturmanın maliyeti 750 kelime başına yaklaşık 0,002 ABD dolarıdır. Dolayısıyla bir saatlik içerik için GPT kullanmanın toplam maliyeti yaklaşık 0,006 ABD dolarıdır.
Radyo sunucularının ayda yaklaşık 45,5 saati yayında geçirdiği göz önüne alındığında [1], GPT kullanımının yıllık maliyetinin yaklaşık 55 dolar olduğu tahmin ediliyor. Ayrıca, Eleven Labs'ın 40 saatlik kullanım için aylık 330 ABD doları tutarında fiyatlandırılan yapay zeka ses teknolojisinin entegrasyonu [3], yıllık yaklaşık 4.000 ABD doları tutarında bir maliyete neden oluyor.
GPT ve Eleven Labs'ın toplam giderleri göz önüne alındığında, bir radyo sunucusu için yapay zeka uygulamasının toplam maliyeti yıllık yaklaşık 4.100 ABD dolarıdır. Bu, geleneksel prodüksiyon yöntemleriyle karşılaştırıldığında önemli bir maliyet düşüşünü temsil ediyor ve sınırlı bütçelere sahip radyo/canlı yayın sunucuları için yeni olanaklar sunuyor.
Bazıları yapay zeka tarafından oluşturulan içeriğin duygusal derinlikten ve insan yeteneğinin sağladığı kişisel dokunuştan yoksun olduğunu iddia etse de, doğal dil işlemedeki son gelişmeler bunun aksini gösterdi. Yapay zeka sistemleri artık derin öğrenme algoritmalarıyla çok sayıda dilsel veriyi analiz edebiliyor ve konuşmanın bağlamı, tonu ve ritmindeki nüansları öğrenebiliyor.
Düzgün bir şekilde eğitildiğinde bu sistemler, doğruluk ve verimliliği korurken insan benzeri nitelikleri taklit edebiliyor. Aslına bakılırsa, müşteri hizmetlerinden gazeteciliğe kadar birçok endüstri, teknolojik devralmaya karşı bağışık olduğu düşünülen sektörlerde bile, ekonomik avantajlar nedeniyle sohbet robotlarının ve makine tarafından oluşturulan içeriğin uygulanmasıyla ilk başarıyı zaten gördü. Sonuçta radyo sunuculuğu gibi yayıncılık pazarları için de benzer bir gelecek varsaymak mantıklı görünüyor.
Avalon Star Stream markamız altında yapay zeka destekli yayıncılığın verimliliğini gösteren bir konsept kanıtı oluşturduk. Ffmpeg gibi açık kaynaklı araçlardan yararlanarak ve Docker aracılığıyla yönetilen özel NodeJS uygulama çerçevemize entegre ederek, ara radyo jokeyi için gerçek zamanlı üretim yetenekleriyle tamamlanmış, işleyen, otomatik bir canlı yayın kurulumu elde etmeyi başardık.
Sistem, varsayılan ayarlarda, şarkı ara vermeden önce 3 şarkı çalacaktır. Şarkı molası sırasında modelimiz, önceki üç müzik seti sırasında çevrimiçi olarak alınan yönlendirmeleri analiz ediyor ve hayali bir ürünün reklamını okumadan önce bağışçılara teşekkür ederek kendi orijinal yazılı materyalini üretiyor ve devam ediyor. Modelimizin Fallout 4 Evreninde yaşayan “Antoni Starr” isimli bir Radyo Sunucusunun kişiliğini alması anlatılıyor.
Antoni, bütçe kısıtlamaları nedeniyle maliyet tasarrufu sağlayan bir strateji uyguluyor. İçerik oluştururken, sisteminin dinamik olarak yeni bir şarkı molası oluşturma ve saatte bir kez ile sınırlı olmak üzere %10 şansı vardır. Bu yöntem, bu teknoloji demosunun amacı doğrultusunda üretim maliyetlerini optimize ederken gösteriye bir sürpriz ve benzersizlik unsuru katıyor. Diğer tüm reklam okumaları, test sırasında oluşturulan önceden oluşturulmuş bir tutma çantasından gelecektir. Ayrıca kanalın çok yeni olması nedeniyle duyurularda kullanılacak abone/üyelik sayısını açamıyoruz.
Bunun için henüz kodumu yayınlamaya karar vermemiş olsam da teknoloji yığını hakkında konuşmaya karar verdim. Yukarıdaki görüntüde görüldüğü gibi, çeşitli teknolojilerden (FFmpeg, WebDAV, ChatGPT, EleventLabs, MongoDB) yararlanan araç ve uygulama, bunları canlı yayın oluşturmaya yönelik bir platformda birleştiriyor.
Teknoloji yığınının bu parçası, oluşturulan içeriği kaydetmeye ve bir dosya deposu görevi görmeye yardımcı olmak için burada. WebxDAV özelliği, müzik dosyalarını uzaktan saklamamıza ve bunları akış için başlatma sırasında indirmemize olanak tanır.
Bunlar üretken içeriğin beygirleridir. Yeni bir reklam arası oluşturma zamanı geldiğinde, bir sonraki komut dosyasını almak için özel istemimizle ChatGPT API'sinden yararlanırız. İstemimiz, yayın bağışçılarının adları/bilgileri ve rastgele bir sahte ürünle önceden okunacak reklamlarla eklenecektir.
Yayının en güçlüsü. FFmpeg, yayında gördüğünüz tüm ses/görsellerden sorumludur. Statik görüntü katmanından TV'de oynatılan kodlanmış videoya ve duyduğunuz sese kadar. FFmpeg her şeyin ardındaki sihirdir.
Yukarıdaki şemada görülmeyen, çalışan akışın parametrelerini ayarlamak için bir yönetim arayüzü vardır. Bu, yöneticinin reklam aralarını zorlamasına, reklam arası oranı algoritmasında ince ayar yapmasına ve daha fazlasına olanak tanır. Ek olarak, daha önce de belirtildiği gibi platformun tamamı NodeJS ile çalışıyor
Radyo sunucularını yapay zekayla değiştirme olasılığını inceledik ve belirli koşullar altında bunu yapmanın gerçekten mümkün olabileceği sonucuna vardık. Bulgularımız, yapay zeka destekli radyo istasyonlarının insan muadillerine göre açık mali avantajlara sahip olacağını ve insan DJ'lere eşit veya onu aşan yüksek kaliteli içerik üretebileceklerini gösteriyor. Bu tür gelişmelerin ortasında dinleyicilerin programın sunduklarına ilgi duymasını ve uyum sağlamasını sağlamak için daha fazla değerlendirme yapılmalıdır.
Genel olarak, dinamik sesli bir kişiliğe sahip, tamamen otomatik bir radyo istasyonu veya canlı yayın fikri başlangıçta zor gibi görünse de, gerçek şu ki, gelişen teknolojiler bu kavramı hızlı bir şekilde uygulanabilir ve pratik hale getiriyor. Bu nedenle, iş dünyası liderlerinin, sürekli gelişen bir pazarda geride kalma riskine girmeden önce, değişen ortamı tanımaları ve buna göre uyum sağlamaları gerekmektedir.
Canlı Yayın Bağlantıları
Aracın kendisini daha fazla görmek istiyorsanız lütfen bizimle iletişime geçmekten çekinmeyin.