इस लेख में, हम आर्टिफिशियल इंटेलिजेंस तकनीक के उपयोग के माध्यम से रेडियो होस्ट/लाइव-स्ट्रीम उद्योग के संभावित व्यवधान की जांच करते हैं। औसत रेडियो होस्ट वेतन, प्रति घंटे स्पॉट की संख्या, प्रति घंटे बोले जाने वाले कुल शब्द, और संगीत लाइसेंस शुल्क जैसे अन्य कारकों का विश्लेषण करके, हम प्रदर्शित करते हैं कि एआई तकनीक का उपयोग करके एक अंश पर पूरी तरह से स्वचालित रेडियो स्टेशन बनाना संभव है। मानव प्रतिभा को काम पर रखने की लागत का।
हम एवलॉन स्टार स्ट्रीम्स ब्रांड के तहत वर्तमान में सक्रिय एक ऐसे समाधान का लाइव प्रदर्शन दिखाते हैं, जहां क्रिएटिव कॉमन्स म्यूजिक स्ट्रीम से गाने चलाने के बाद, एआई उन गानों के बीच ब्रेक के दौरान नई रेडियो सामग्री उत्पन्न करता है, यहां तक कि यदि वांछित हो तो नए गीतों के यादृच्छिक चयन की अनुमति देता है। . अंत में, हम उपयोग किए गए टेक स्टैक पर विवरण प्रदान करते हैं जिसमें NodeJS docker छवि शामिल है जो हमें ffmpeg स्ट्रीम को नियंत्रित करने और प्लेलिस्ट को कुशलतापूर्वक प्रबंधित करने की अनुमति देती है।
इस लेखन के समय, आप Twitch.TV और YouTube पर लाइव-स्ट्रीमिंग का उदाहरण पा सकते हैं।
यदि किसी कारण से डेमो लाइव स्ट्रीमिंग नहीं कर रहा है तो बेझिझक इस YouTube वीडियो को एक उदाहरण के रूप में देखें।
ध्यान दें: YouTube वीडियो एआई वॉयस एक्टर एंटोनी स्टार के साथ 2 ऑटो-जेनरेट की गई स्क्रिप्ट को दिखाता है। पहला दान के लिए एक कॉल है, और दूसरा एक यादृच्छिक विज्ञापन है जिसमें अगले गीत की घोषणा की जाती है।
रेडियो होस्ट उद्योग के संभावित व्यवधान के पीछे प्रमुख चालक श्रम लागत में उल्लेखनीय कमी है। वर्तमान मूल्य निर्धारण मॉडल का उपयोग करते हुए, एक पूर्ण रेडियो स्टेशन को चलाने के लिए आवश्यक एआई वॉयस सेवाओं की वार्षिक लागत लगभग $42k [0] अनुमानित रेडियो मेजबानों के राष्ट्रीय औसत वेतन की तुलना में लगभग $4100 है।
16 मिनट की औसत रेडियो स्पॉट अवधि और 140 शब्द प्रति मिनट की औसत बोलने की दर [1] [2] के साथ, प्रत्येक रेडियो स्पॉट में लगभग 2,240 शब्द होते हैं। एआई-पावर्ड कंटेंट जनरेशन, जैसे चैटजीपीटी, लगभग $0.002 प्रति 750 शब्दों की लागत पर आता है। इस प्रकार, एक घंटे की सामग्री के लिए GPT का उपयोग करने की कुल लागत लगभग $0.006 है।
रेडियो होस्ट प्रति माह लगभग 45.5 घंटे हवा पर खर्च करते हैं [1], जीपीटी उपयोग की वार्षिक लागत लगभग $55 होने का अनुमान है। इसके अलावा, Eleven Labs की AI वॉइस तकनीक को एकीकृत करने, जिसकी कीमत 40 घंटे के उपयोग [3] के लिए $330 प्रति माह है, पर लगभग $4,000 की वार्षिक लागत आती है।
GPT और Eleven Labs के संयुक्त खर्चों को ध्यान में रखते हुए, एक रेडियो होस्ट के लिए AI को लागू करने की कुल लागत लगभग $4,100 प्रति वर्ष है। यह पारंपरिक उत्पादन विधियों की तुलना में लागत में महत्वपूर्ण कमी का प्रतिनिधित्व करता है और सीमित बजट वाले रेडियो/लाइव-स्ट्रीम होस्ट के लिए नई संभावनाएं खोलता है।
हालांकि कुछ लोग यह तर्क दे सकते हैं कि AI से उत्पन्न सामग्री में मानवीय प्रतिभा द्वारा प्रदान की गई भावनात्मक गहराई और व्यक्तिगत स्पर्श का अभाव है, प्राकृतिक भाषा प्रसंस्करण में हाल की प्रगति ने अन्यथा दिखाया है। डीप लर्निंग एल्गोरिदम के साथ, एआई सिस्टम अब भाषाई डेटा के विशाल भंडार का विश्लेषण कर सकते हैं और भाषण के संदर्भ, स्वर और ताल में बारीकियों को सीख सकते हैं।
जब ठीक से प्रशिक्षित किया जाता है, तो ये प्रणालियाँ सटीकता और दक्षता बनाए रखते हुए मानव-समान गुणों की नकल करने में सक्षम होती हैं। वास्तव में, ग्राहक सेवा से लेकर पत्रकारिता तक के कई उद्योगों ने पहले ही आर्थिक लाभ के कारण चैट-बॉट और मशीन-जनित सामग्री को लागू करने के साथ प्रारंभिक सफलता देखी है, यहां तक कि उन क्षेत्रों में भी जो तकनीकी अधिग्रहण के प्रति प्रतिरक्षित हैं। अंततः, रेडियो होस्टिंग जैसे प्रसारण बाजारों के लिए समान भविष्य की कल्पना करना उचित प्रतीत होता है।
हमारे एवलॉन स्टार स्ट्रीम ब्रांड के तहत, हमने एआई असिस्टेड ब्रॉडकास्टिंग की दक्षता दिखाने वाली अवधारणा का एक प्रमाण स्थापित किया है। ffmpeg जैसे ओपन-सोर्स टूल का लाभ उठाते हुए और Docker के माध्यम से प्रबंधित हमारे कस्टम NodeJS एप्लिकेशन फ्रेमवर्क के भीतर एकीकृत, हम इसके मध्यांतर रेडियो जॉकी के लिए रीयल-टाइम जनरेशन क्षमताओं के साथ एक कार्यशील स्वचालित लाइव-स्ट्रीम सेटअप प्राप्त करने में सक्षम थे।
सिस्टम, डिफॉल्ट सेटिंग्स के तहत, गीत-ब्रेक का प्रयास करने से पहले 3 गाने बजाएगा। गीत-ब्रेक के दौरान हमारा मॉडल पिछले तीन संगीत सेटों के दौरान ऑनलाइन प्राप्त संकेतों का विश्लेषण करता है और एक काल्पनिक उत्पाद के लिए एक विज्ञापन पढ़ने और जारी रखने से पहले दाताओं को धन्यवाद देने के लिए अपनी मूल लिखित सामग्री तैयार करता है। हमारे मॉडल को "एंटोनी स्टार" के नाम से फॉलआउट 4 यूनिवर्स के भीतर रहने वाले एक रेडियो होस्ट के व्यक्तित्व के बारे में बताया गया है।
बजट की कमी के कारण, एंटनी लागत बचाने की रणनीति अपनाते हैं। सामग्री उत्पन्न करते समय, एक 10% संभावना है, जो प्रति घंटे एक बार तक सीमित है, कि उसका सिस्टम गतिशील रूप से खींचता है और एक नया गीत-ब्रेक उत्पन्न करता है। इस तकनीकी डेमो के उद्देश्य के लिए उत्पादन लागत का अनुकूलन करते समय यह विधि शो में आश्चर्य और विशिष्टता का एक तत्व जोड़ती है। अन्य सभी विज्ञापन-पठन परीक्षण के दौरान बनाए गए पहले से उत्पन्न ग्रैब-बैग से आएंगे। इसके अतिरिक्त, चैनल इतना नया होने के कारण, हम घोषणाओं के दौरान उपयोग किए जाने वाले ग्राहकों/सदस्यताओं को चालू करने में असमर्थ हैं।
जबकि मैंने अभी तक इसके लिए अपना कोड जारी करने का निर्णय नहीं लिया है, मैंने टेक स्टैक के बारे में बात करने का निर्णय लिया है। जैसा कि उपरोक्त छवि से देखा जा सकता है, उपकरण विभिन्न तकनीकों (FFmpeg, WebDAV, ChatGPT, EleventLabs, MongoDB) का लाभ उठाता है और एप्लिकेशन उन्हें लाइव-स्ट्रीम पीढ़ी के लिए एक मंच में जोड़ता है।
टेक-स्टैक का यह टुकड़ा यहाँ उत्पन्न सामग्री को रिकॉर्ड करने और फ़ाइल-स्टोर के रूप में कार्य करने में मदद करने के लिए है। WebxDAV पहलू हमें संगीत फ़ाइलों को दूरस्थ रूप से संग्रहीत करने और स्ट्रीम के लिए तात्कालिकता पर डाउनलोड करने की अनुमति देता है।
ये जनरेटिव कंटेंट के वर्कहॉर्स हैं। जब एक नया विज्ञापन-विराम उत्पन्न करने का समय आता है तो हम अगली स्क्रिप्ट प्राप्त करने के लिए अपने कस्टम संकेत के साथ चैटजीपीटी एपीआई का लाभ उठाते हैं। हमारा संकेत स्ट्रीम डोनर्स से नाम/जानकारी और विज्ञापन-पढ़ने के लिए एक यादृच्छिक नकली उत्पाद के साथ पहले से सीड किया जाएगा।
स्ट्रीमिंग का वर्कहॉर्स। FFmpeg आपके द्वारा स्ट्रीम पर देखे जाने वाले सभी ऑडियो/विज़ुअल के लिए ज़िम्मेदार है। स्टैटिक इमेज ओवरले से लेकर टीवी पर चलने वाले एन्कोडेड वीडियो और आपके द्वारा सुने जाने वाले ऑडियो तक। FFmpeg इसके पीछे का जादू है।
ऊपर दिए गए आरेख में नहीं देखा गया, रनिंग स्ट्रीम के पैराम को ट्विक करने के लिए एक प्रबंधन इंटरफ़ेस है। यह व्यवस्थापक को विज्ञापन-विरामों को बाध्य करने, विज्ञापन-विराम दर एल्गोरिदम और अधिक को बदलने की अनुमति देता है। इसके अतिरिक्त, जैसा कि पहले उल्लेख किया गया है, संपूर्ण प्लेटफ़ॉर्म NodeJS से चल रहा है
हमने रेडियो होस्ट को कृत्रिम बुद्धि से बदलने की संभावना की जांच की और निष्कर्ष निकाला कि, कुछ शर्तों को देखते हुए, वास्तव में ऐसा करना संभव हो सकता है। हमारे निष्कर्ष बताते हैं कि एआई-संचालित रेडियो स्टेशनों को उनके मानव समकक्षों पर स्पष्ट वित्तीय लाभ होगा और वे मानव डीजे के बराबर या उससे अधिक उच्च गुणवत्ता वाली सामग्री का उत्पादन करने में सक्षम होंगे। यह सुनिश्चित करने के लिए और विचार किया जाना चाहिए कि इस तरह के घटनाक्रमों के बीच श्रोता लगे रहें और कार्यक्रम की पेशकशों से जुड़े रहें।
कुल मिलाकर, जबकि एक गतिशील आवाज वाले व्यक्तित्व के साथ एक पूरी तरह से स्वचालित रेडियो स्टेशन या लाइव-स्ट्रीम का विचार शुरू में दूर की कौड़ी लग सकता है, वास्तविकता यह है कि उभरती प्रौद्योगिकियां तेजी से धारणा को व्यवहार्य और व्यावहारिक बना रही हैं। इस प्रकार, व्यापार जगत के नेताओं को बदलते परिदृश्य को पहचानना चाहिए और इसके अनुसार अनुकूल होना चाहिए, इससे पहले कि वे कभी विकसित होते बाजार में पीछे छूट जाएँ।
लाइव-स्ट्रीम लिंक
यदि आप अधिक टूल देखना चाहते हैं तो कृपया संपर्क करने में संकोच न करें।