এই নিবন্ধে, আমরা কৃত্রিম বুদ্ধিমত্তা প্রযুক্তি ব্যবহারের মাধ্যমে রেডিও হোস্ট/লাইভ-স্ট্রিম শিল্পের সম্ভাব্য ব্যাঘাত পরীক্ষা করি। গড় রেডিও হোস্টের বেতন, প্রতি ঘন্টায় দাগের সংখ্যা, প্রতি ঘন্টায় উচ্চারিত মোট শব্দ এবং অন্যান্য বিষয় যেমন মিউজিক লাইসেন্সিং ফি বিশ্লেষণ করে আমরা প্রমাণ করি যে একটি ভগ্নাংশে এআই প্রযুক্তি ব্যবহার করে একটি সম্পূর্ণ স্বয়ংক্রিয় রেডিও স্টেশন তৈরি করা সম্ভব। মানুষের প্রতিভা নিয়োগের খরচ।
আমরা অ্যাভালন স্টার স্ট্রীমস ব্র্যান্ডের অধীনে বর্তমানে সক্রিয় এমন একটি সমাধানের একটি লাইভ প্রদর্শন প্রদর্শন করি, যেখানে একটি ক্রিয়েটিভ কমন্স মিউজিক স্ট্রিম থেকে গান চালানোর পরে, AI সেই গানগুলির মধ্যে বিরতির সময় নতুন রেডিও সামগ্রী তৈরি করে, এমনকি ইচ্ছা হলে নতুন গানের এলোমেলো নির্বাচনের অনুমতি দেয়। . অবশেষে, আমরা নোডজেএস ডকার ইমেজ সহ ব্যবহৃত প্রযুক্তি স্ট্যাকের বিশদ প্রদান করি যা আমাদের ffmpeg স্ট্রীমগুলি নিয়ন্ত্রণ করতে এবং প্লেলিস্টগুলি দক্ষতার সাথে পরিচালনা করতে দেয়।
এই লেখার সময়, আপনি Twitch.TV এবং YouTube- এ লাইভ-স্ট্রিমিংয়ের উদাহরণ খুঁজে পেতে পারেন।
যদি কোনও কারণে ডেমোটি লাইভ স্ট্রিমিং না হয় তবে উদাহরণের জন্য এই YouTube ভিডিওটি নির্দ্বিধায় দেখুন৷
দ্রষ্টব্য: ইউটিউব ভিডিওটি AI ভয়েস অভিনেতা আন্তোনি স্টারের সাথে 2টি স্বয়ংক্রিয়ভাবে তৈরি স্ক্রিপ্ট দেখায়। প্রথমটি হল অনুদানের জন্য একটি আহ্বান, এবং দ্বিতীয়টি হল পরবর্তী গানের ঘোষণা সহ একটি এলোমেলো বিজ্ঞাপন খেলা৷
রেডিও হোস্ট শিল্পের সম্ভাব্য ব্যাঘাতের পিছনে মূল চালক শ্রম খরচের উল্লেখযোগ্য হ্রাসের মধ্যে রয়েছে। বর্তমান মূল্যের মডেলগুলি ব্যবহার করে, একটি সম্পূর্ণ রেডিও স্টেশন চালানোর জন্য প্রয়োজনীয় AI ভয়েস পরিষেবাগুলির বার্ষিক খরচ প্রায় $42k [0] অনুমান করা রেডিও হোস্টদের জাতীয় গড় বেতনের তুলনায় প্রায় $4100।
16 মিনিটের গড় রেডিও স্পট সময়কাল এবং প্রতি মিনিটে 140 শব্দের গড় কথা বলার হার [1][2], প্রতিটি রেডিও স্পট প্রায় 2,240 শব্দ নিয়ে গঠিত। AI-চালিত কন্টেন্ট জেনারেশন, যেমন ChatGPT, প্রতি 750 শব্দের জন্য প্রায় $0.002 খরচ করে। এইভাবে, সামগ্রীর এক ঘন্টার জন্য GPT ব্যবহার করার মোট খরচ প্রায় $0.006।
রেডিও হোস্টরা প্রতি মাসে প্রায় 45.5 ঘন্টা সম্প্রচারে ব্যয় করে [1], GPT ব্যবহারের বার্ষিক খরচ আনুমানিক $55 হবে। তদুপরি, ইলেভেন ল্যাবসের এআই ভয়েস প্রযুক্তিকে একীভূত করতে, যার দাম প্রতি মাসে 40 ঘন্টা ব্যবহারের জন্য $330 মূল্যের [3], প্রায় $4,000 খরচ হয়।
GPT এবং Eleven Labs এর সম্মিলিত খরচ বিবেচনা করে, একটি রেডিও হোস্টের জন্য AI বাস্তবায়নের মোট খরচ প্রতি বছর প্রায় $4,100। এটি ঐতিহ্যগত উৎপাদন পদ্ধতির তুলনায় একটি উল্লেখযোগ্য খরচ হ্রাসের প্রতিনিধিত্ব করে এবং সীমিত বাজেটের সাথে রেডিও/লাইভ-স্ট্রিম হোস্টের জন্য নতুন সম্ভাবনার খোলে।
যদিও কেউ কেউ যুক্তি দিতে পারে যে এআই তৈরি করা সামগ্রীতে মানুষের প্রতিভা দ্বারা প্রদত্ত মানসিক গভীরতা এবং ব্যক্তিগত স্পর্শের অভাব রয়েছে, প্রাকৃতিক ভাষা প্রক্রিয়াকরণের সাম্প্রতিক অগ্রগতি অন্যথায় দেখিয়েছে। গভীর শিক্ষার অ্যালগরিদমগুলির সাহায্যে, এআই সিস্টেমগুলি এখন ভাষাগত ডেটার বিশাল ভাণ্ডার বিশ্লেষণ করতে পারে এবং প্রসঙ্গ, টোন এবং বক্তৃতার সূক্ষ্মতা শিখতে পারে।
সঠিকভাবে প্রশিক্ষিত হলে, এই সিস্টেমগুলি এখনও নির্ভুলতা এবং দক্ষতা বজায় রেখে মানুষের মতো গুণাবলী অনুকরণ করতে সক্ষম হয়। প্রকৃতপক্ষে, গ্রাহক পরিষেবা থেকে সাংবাদিকতা পর্যন্ত অনেক শিল্প ইতিমধ্যেই অর্থনৈতিক সুবিধার কারণে চ্যাট-বট এবং মেশিন-উত্পাদিত বিষয়বস্তু বাস্তবায়নে প্রাথমিক সাফল্য দেখেছে, এমনকি সেক্টরগুলিতেও প্রযুক্তিগত টেকওভার থেকে প্রতিরোধী বলে মনে করা হয়েছিল। শেষ পর্যন্ত, রেডিও হোস্টিং এর মত সম্প্রচার বাজারের জন্য অনুরূপ ভবিষ্যত অনুমান করা যুক্তিসঙ্গত বলে মনে হয়।
আমাদের অ্যাভালন স্টার স্ট্রিম ব্র্যান্ডের অধীনে, আমরা AI সহায়তা সম্প্রচারের দক্ষতা প্রদর্শন করে ধারণার একটি প্রমাণ সেট আপ করি। ffmpeg-এর মতো ওপেন-সোর্স টুলসকে কাজে লাগিয়ে এবং ডকারের মাধ্যমে পরিচালিত আমাদের কাস্টম NodeJS অ্যাপ্লিকেশন ফ্রেমওয়ার্কের মধ্যে সমন্বিত, আমরা এর ইন্টারমিশন রেডিও জকির জন্য রিয়েল-টাইম জেনারেশন ক্ষমতা সহ একটি কার্যকরী স্বয়ংক্রিয় লাইভ-স্ট্রিম সেটআপ অর্জন করতে সক্ষম হয়েছি।
সিস্টেম, ডিফল্ট সেটিংসের অধীনে, একটি গান-ব্রেক করার চেষ্টা করার আগে 3টি গান চালাবে। গান-ব্রেক চলাকালীন আমাদের মডেল আগের তিনটি মিউজিক্যাল সেটের সময় অনলাইনে প্রাপ্ত প্রম্পটগুলি বিশ্লেষণ করে এবং একটি কাল্পনিক পণ্যের বিজ্ঞাপন পড়ার আগে এবং চালিয়ে যাওয়ার আগে দাতাদের ধন্যবাদ জানিয়ে তাদের নিজস্ব লিখিত উপাদান তৈরি করে। আমাদের মডেলকে বলা হয়েছে ফলআউট 4 ইউনিভার্সের মধ্যে বসবাসকারী একজন রেডিও হোস্টের ব্যক্তিত্ব নিন যার নাম “অ্যান্টোনি স্টার”।
বাজেটের সীমাবদ্ধতার কারণে, আন্তোনি একটি খরচ-সঞ্চয় কৌশল ব্যবহার করে। বিষয়বস্তু তৈরি করার সময়, 10% সম্ভাবনা রয়েছে, প্রতি ঘন্টায় একবারের মধ্যে সীমাবদ্ধ, যে তার সিস্টেম গতিশীলভাবে একটি নতুন গান-ব্রেক তৈরি করে। এই পদ্ধতিটি এই টেক ডেমোর উদ্দেশ্যে উৎপাদন খরচ অপ্টিমাইজ করার সময় শোতে চমক এবং স্বতন্ত্রতার একটি উপাদান যোগ করে। অন্যান্য সমস্ত বিজ্ঞাপন-পঠন পরীক্ষার সময় তৈরি করা একটি পূর্বে তৈরি করা গ্র্যাব-ব্যাগ থেকে আসবে। উপরন্তু, চ্যানেলটি এত নতুন হওয়ার কারণে, আমরা ঘোষণার সময় ব্যবহার করা সাবস্ক্রাইবার/মেম্বারশিপ চালু করতে পারছি না।
যদিও আমি এখনও এটির জন্য আমার কোড প্রকাশ করার সিদ্ধান্ত নিইনি, আমি টেক স্ট্যাক সম্পর্কে কথা বলার সিদ্ধান্ত নিয়েছি। উপরের চিত্র থেকে দেখা যায়, টুলটি বিভিন্ন প্রযুক্তি (FFmpeg, WebDAV, ChatGPT, EleventLabs, MongoDB) ব্যবহার করে এবং অ্যাপ্লিকেশনটি লাইভ-স্ট্রিম জেনারেশনের জন্য একটি প্ল্যাটফর্মে তাদের একত্রিত করে।
টেক-স্ট্যাকের এই অংশটি তৈরি করা সামগ্রী রেকর্ড করতে এবং ফাইল-স্টোর হিসাবে কাজ করতে সহায়তা করার জন্য এখানে রয়েছে। WebxDAV দৃষ্টিভঙ্গি আমাদেরকে দূরবর্তীভাবে সঙ্গীত ফাইল সংরক্ষণ করতে এবং স্ট্রিমের জন্য তাত্ক্ষণিকভাবে ডাউনলোড করতে দেয়।
এগুলি হল জেনারেটিভ কন্টেন্টের ওয়ার্কহরস। একটি নতুন অ্যাড-ব্রেক তৈরি করার সময় হলে আমরা পরবর্তী স্ক্রিপ্ট পেতে আমাদের কাস্টম প্রম্পট দিয়ে ChatGPT API ব্যবহার করি। আমাদের প্রম্পটটি স্ট্রীম দাতাদের কাছ থেকে নাম/তথ্য এবং বিজ্ঞাপন-পড়ার জন্য একটি এলোমেলো জাল পণ্য সহ প্রাক-বীজ করা হবে।
স্ট্রিমিং এর ওয়ার্কহরস. FFmpeg আপনি স্ট্রীমে দেখা সমস্ত অডিও/ভিজ্যুয়ালের জন্য দায়ী৷ স্ট্যাটিক ইমেজ ওভারলে থেকে, টিভিতে এনকোড করা ভিডিও এবং আপনি যে অডিও শুনতে পান। FFmpeg এর পেছনের জাদু।
উপরের চিত্রে দেখা যায়নি, চলমান স্ট্রিমের প্যারামগুলিকে টুইক করার জন্য একটি ব্যবস্থাপনা ইন্টারফেস রয়েছে। এটি অ্যাডমিনকে জোর করে অ্যাড-ব্রেক, অ্যাড-ব্রেক রেট অ্যালগরিদম এবং আরও অনেক কিছু করার অনুমতি দেয়। অতিরিক্তভাবে, পূর্বে উল্লিখিত হিসাবে, পুরো প্ল্যাটফর্মটি NodeJS থেকে চলছে
আমরা কৃত্রিম বুদ্ধিমত্তা দিয়ে রেডিও হোস্ট প্রতিস্থাপনের সম্ভাবনা পরীক্ষা করেছি এবং এই সিদ্ধান্তে পৌঁছেছি যে, কিছু শর্ত দেওয়া হলে, এটি সত্যিই সম্ভব হতে পারে। আমাদের অনুসন্ধানগুলি পরামর্শ দেয় যে AI-চালিত রেডিও স্টেশনগুলি তাদের মানব প্রতিপক্ষের তুলনায় স্পষ্ট আর্থিক সুবিধা পাবে এবং মানব ডিজেগুলির সমান বা অতিক্রম করে উচ্চ-মানের সামগ্রী তৈরি করতে সক্ষম হবে। এই ধরনের উন্নয়নের মধ্যে শ্রোতারা যাতে নিযুক্ত থাকে এবং প্রোগ্রামের অফারগুলির সাথে যুক্ত থাকে তা নিশ্চিত করার জন্য আরও বিবেচনা করা উচিত।
সামগ্রিকভাবে, একটি গতিশীল কণ্ঠস্বরযুক্ত ব্যক্তিত্ব সহ একটি সম্পূর্ণ স্বয়ংক্রিয় রেডিও স্টেশন বা লাইভ-স্ট্রিমের ধারণাটি প্রাথমিকভাবে দূরবর্তী বলে মনে হতে পারে, বাস্তবতা হল যে উদীয়মান প্রযুক্তিগুলি দ্রুত ধারণাটিকে সম্ভাব্য এবং বাস্তবসম্মত করে তুলছে। এইভাবে, ব্যবসায়ী নেতাদের অবশ্যই পরিবর্তিত ল্যান্ডস্কেপকে চিনতে হবে এবং একটি সর্বদা বিবর্তিত মার্কেটপ্লেসে পিছনে ফেলে যাওয়ার ঝুঁকির আগে সেই অনুযায়ী মানিয়ে নিতে হবে।
লাইভ-স্ট্রিম লিঙ্ক
আপনি যদি নিজেই টুলের আরও কিছু দেখতে চান তাহলে অনুগ্রহ করে যোগাযোগ করতে দ্বিধা করবেন না।