paint-brush
রেডিও হোস্ট এবং লাইভ-স্ট্রিম শিল্প: GPT ব্যাঘাতের জন্য প্রস্তুতদ্বারা@neighborlynook
1,273 পড়া
1,273 পড়া

রেডিও হোস্ট এবং লাইভ-স্ট্রিম শিল্প: GPT ব্যাঘাতের জন্য প্রস্তুত

দ্বারা Matthew Zygowicz5m2023/06/01
Read on Terminal Reader
Read this story w/o Javascript

অতিদীর্ঘ; পড়তে

এই নিবন্ধে, আমরা কৃত্রিম বুদ্ধিমত্তা প্রযুক্তি ব্যবহারের মাধ্যমে রেডিও হোস্ট/লাইভ-স্ট্রিম শিল্পের সম্ভাব্য ব্যাঘাত পরীক্ষা করি। আমরা দেখাই যে মানুষের প্রতিভা নিয়োগের খরচের একটি ভগ্নাংশে এআই প্রযুক্তি ব্যবহার করে একটি সম্পূর্ণ স্বয়ংক্রিয় রেডিও স্টেশন তৈরি করা সম্ভব। আমরা অ্যাভালন স্টার স্ট্রীমস ব্র্যান্ডের অধীনে বর্তমানে সক্রিয় এমন একটি সমাধানের একটি লাইভ প্রদর্শন প্রদর্শন করি।
featured image - রেডিও হোস্ট এবং লাইভ-স্ট্রিম শিল্প: GPT ব্যাঘাতের জন্য প্রস্তুত
Matthew Zygowicz HackerNoon profile picture
0-item
1-item
2-item

এই নিবন্ধে, আমরা কৃত্রিম বুদ্ধিমত্তা প্রযুক্তি ব্যবহারের মাধ্যমে রেডিও হোস্ট/লাইভ-স্ট্রিম শিল্পের সম্ভাব্য ব্যাঘাত পরীক্ষা করি। গড় রেডিও হোস্টের বেতন, প্রতি ঘন্টায় দাগের সংখ্যা, প্রতি ঘন্টায় উচ্চারিত মোট শব্দ এবং অন্যান্য বিষয় যেমন মিউজিক লাইসেন্সিং ফি বিশ্লেষণ করে আমরা প্রমাণ করি যে একটি ভগ্নাংশে এআই প্রযুক্তি ব্যবহার করে একটি সম্পূর্ণ স্বয়ংক্রিয় রেডিও স্টেশন তৈরি করা সম্ভব। মানুষের প্রতিভা নিয়োগের খরচ।


আমরা অ্যাভালন স্টার স্ট্রীমস ব্র্যান্ডের অধীনে বর্তমানে সক্রিয় এমন একটি সমাধানের একটি লাইভ প্রদর্শন প্রদর্শন করি, যেখানে একটি ক্রিয়েটিভ কমন্স মিউজিক স্ট্রিম থেকে গান চালানোর পরে, AI সেই গানগুলির মধ্যে বিরতির সময় নতুন রেডিও সামগ্রী তৈরি করে, এমনকি ইচ্ছা হলে নতুন গানের এলোমেলো নির্বাচনের অনুমতি দেয়। . অবশেষে, আমরা নোডজেএস ডকার ইমেজ সহ ব্যবহৃত প্রযুক্তি স্ট্যাকের বিশদ প্রদান করি যা আমাদের ffmpeg স্ট্রীমগুলি নিয়ন্ত্রণ করতে এবং প্লেলিস্টগুলি দক্ষতার সাথে পরিচালনা করতে দেয়।


চলমান উদাহরণ

এই লেখার সময়, আপনি Twitch.TV এবং YouTube- এ লাইভ-স্ট্রিমিংয়ের উদাহরণ খুঁজে পেতে পারেন।

যদি কোনও কারণে ডেমোটি লাইভ স্ট্রিমিং না হয় তবে উদাহরণের জন্য এই YouTube ভিডিওটি নির্দ্বিধায় দেখুন৷


দ্রষ্টব্য: ইউটিউব ভিডিওটি AI ভয়েস অভিনেতা আন্তোনি স্টারের সাথে 2টি স্বয়ংক্রিয়ভাবে তৈরি স্ক্রিপ্ট দেখায়। প্রথমটি হল অনুদানের জন্য একটি আহ্বান, এবং দ্বিতীয়টি হল পরবর্তী গানের ঘোষণা সহ একটি এলোমেলো বিজ্ঞাপন খেলা৷

খরচ বিশ্লেষণ

রেডিও হোস্ট শিল্পের সম্ভাব্য ব্যাঘাতের পিছনে মূল চালক শ্রম খরচের উল্লেখযোগ্য হ্রাসের মধ্যে রয়েছে। বর্তমান মূল্যের মডেলগুলি ব্যবহার করে, একটি সম্পূর্ণ রেডিও স্টেশন চালানোর জন্য প্রয়োজনীয় AI ভয়েস পরিষেবাগুলির বার্ষিক খরচ প্রায় $42k [0] অনুমান করা রেডিও হোস্টদের জাতীয় গড় বেতনের তুলনায় প্রায় $4100।


16 মিনিটের গড় রেডিও স্পট সময়কাল এবং প্রতি মিনিটে 140 শব্দের গড় কথা বলার হার [1][2], প্রতিটি রেডিও স্পট প্রায় 2,240 শব্দ নিয়ে গঠিত। AI-চালিত কন্টেন্ট জেনারেশন, যেমন ChatGPT, প্রতি 750 শব্দের জন্য প্রায় $0.002 খরচ করে। এইভাবে, সামগ্রীর এক ঘন্টার জন্য GPT ব্যবহার করার মোট খরচ প্রায় $0.006।


রেডিও হোস্টরা প্রতি মাসে প্রায় 45.5 ঘন্টা সম্প্রচারে ব্যয় করে [1], GPT ব্যবহারের বার্ষিক খরচ আনুমানিক $55 হবে। তদুপরি, ইলেভেন ল্যাবসের এআই ভয়েস প্রযুক্তিকে একীভূত করতে, যার দাম প্রতি মাসে 40 ঘন্টা ব্যবহারের জন্য $330 মূল্যের [3], প্রায় $4,000 খরচ হয়।


GPT এবং Eleven Labs এর সম্মিলিত খরচ বিবেচনা করে, একটি রেডিও হোস্টের জন্য AI বাস্তবায়নের মোট খরচ প্রতি বছর প্রায় $4,100। এটি ঐতিহ্যগত উৎপাদন পদ্ধতির তুলনায় একটি উল্লেখযোগ্য খরচ হ্রাসের প্রতিনিধিত্ব করে এবং সীমিত বাজেটের সাথে রেডিও/লাইভ-স্ট্রিম হোস্টের জন্য নতুন সম্ভাবনার খোলে।

আরও বিবেচনা

যদিও কেউ কেউ যুক্তি দিতে পারে যে এআই তৈরি করা সামগ্রীতে মানুষের প্রতিভা দ্বারা প্রদত্ত মানসিক গভীরতা এবং ব্যক্তিগত স্পর্শের অভাব রয়েছে, প্রাকৃতিক ভাষা প্রক্রিয়াকরণের সাম্প্রতিক অগ্রগতি অন্যথায় দেখিয়েছে। গভীর শিক্ষার অ্যালগরিদমগুলির সাহায্যে, এআই সিস্টেমগুলি এখন ভাষাগত ডেটার বিশাল ভাণ্ডার বিশ্লেষণ করতে পারে এবং প্রসঙ্গ, টোন এবং বক্তৃতার সূক্ষ্মতা শিখতে পারে।


সঠিকভাবে প্রশিক্ষিত হলে, এই সিস্টেমগুলি এখনও নির্ভুলতা এবং দক্ষতা বজায় রেখে মানুষের মতো গুণাবলী অনুকরণ করতে সক্ষম হয়। প্রকৃতপক্ষে, গ্রাহক পরিষেবা থেকে সাংবাদিকতা পর্যন্ত অনেক শিল্প ইতিমধ্যেই অর্থনৈতিক সুবিধার কারণে চ্যাট-বট এবং মেশিন-উত্পাদিত বিষয়বস্তু বাস্তবায়নে প্রাথমিক সাফল্য দেখেছে, এমনকি সেক্টরগুলিতেও প্রযুক্তিগত টেকওভার থেকে প্রতিরোধী বলে মনে করা হয়েছিল। শেষ পর্যন্ত, রেডিও হোস্টিং এর মত সম্প্রচার বাজারের জন্য অনুরূপ ভবিষ্যত অনুমান করা যুক্তিসঙ্গত বলে মনে হয়।

উদাহরণ

আমাদের অ্যাভালন স্টার স্ট্রিম ব্র্যান্ডের অধীনে, আমরা AI সহায়তা সম্প্রচারের দক্ষতা প্রদর্শন করে ধারণার একটি প্রমাণ সেট আপ করি। ffmpeg-এর মতো ওপেন-সোর্স টুলসকে কাজে লাগিয়ে এবং ডকারের মাধ্যমে পরিচালিত আমাদের কাস্টম NodeJS অ্যাপ্লিকেশন ফ্রেমওয়ার্কের মধ্যে সমন্বিত, আমরা এর ইন্টারমিশন রেডিও জকির জন্য রিয়েল-টাইম জেনারেশন ক্ষমতা সহ একটি কার্যকরী স্বয়ংক্রিয় লাইভ-স্ট্রিম সেটআপ অর্জন করতে সক্ষম হয়েছি।


সিস্টেম, ডিফল্ট সেটিংসের অধীনে, একটি গান-ব্রেক করার চেষ্টা করার আগে 3টি গান চালাবে। গান-ব্রেক চলাকালীন আমাদের মডেল আগের তিনটি মিউজিক্যাল সেটের সময় অনলাইনে প্রাপ্ত প্রম্পটগুলি বিশ্লেষণ করে এবং একটি কাল্পনিক পণ্যের বিজ্ঞাপন পড়ার আগে এবং চালিয়ে যাওয়ার আগে দাতাদের ধন্যবাদ জানিয়ে তাদের নিজস্ব লিখিত উপাদান তৈরি করে। আমাদের মডেলকে বলা হয়েছে ফলআউট 4 ইউনিভার্সের মধ্যে বসবাসকারী একজন রেডিও হোস্টের ব্যক্তিত্ব নিন যার নাম “অ্যান্টোনি স্টার”।


বাজেটের সীমাবদ্ধতার কারণে, আন্তোনি একটি খরচ-সঞ্চয় কৌশল ব্যবহার করে। বিষয়বস্তু তৈরি করার সময়, 10% সম্ভাবনা রয়েছে, প্রতি ঘন্টায় একবারের মধ্যে সীমাবদ্ধ, যে তার সিস্টেম গতিশীলভাবে একটি নতুন গান-ব্রেক তৈরি করে। এই পদ্ধতিটি এই টেক ডেমোর উদ্দেশ্যে উৎপাদন খরচ অপ্টিমাইজ করার সময় শোতে চমক এবং স্বতন্ত্রতার একটি উপাদান যোগ করে। অন্যান্য সমস্ত বিজ্ঞাপন-পঠন পরীক্ষার সময় তৈরি করা একটি পূর্বে তৈরি করা গ্র্যাব-ব্যাগ থেকে আসবে। উপরন্তু, চ্যানেলটি এত নতুন হওয়ার কারণে, আমরা ঘোষণার সময় ব্যবহার করা সাবস্ক্রাইবার/মেম্বারশিপ চালু করতে পারছি না।

টেক স্ট্যাক




যদিও আমি এখনও এটির জন্য আমার কোড প্রকাশ করার সিদ্ধান্ত নিইনি, আমি টেক স্ট্যাক সম্পর্কে কথা বলার সিদ্ধান্ত নিয়েছি। উপরের চিত্র থেকে দেখা যায়, টুলটি বিভিন্ন প্রযুক্তি (FFmpeg, WebDAV, ChatGPT, EleventLabs, MongoDB) ব্যবহার করে এবং অ্যাপ্লিকেশনটি লাইভ-স্ট্রিম জেনারেশনের জন্য একটি প্ল্যাটফর্মে তাদের একত্রিত করে।

WebDAV + MongoDB

টেক-স্ট্যাকের এই অংশটি তৈরি করা সামগ্রী রেকর্ড করতে এবং ফাইল-স্টোর হিসাবে কাজ করতে সহায়তা করার জন্য এখানে রয়েছে। WebxDAV দৃষ্টিভঙ্গি আমাদেরকে দূরবর্তীভাবে সঙ্গীত ফাইল সংরক্ষণ করতে এবং স্ট্রিমের জন্য তাত্ক্ষণিকভাবে ডাউনলোড করতে দেয়।

চ্যাটজিপিটি + এগারো ল্যাব

এগুলি হল জেনারেটিভ কন্টেন্টের ওয়ার্কহরস। একটি নতুন অ্যাড-ব্রেক তৈরি করার সময় হলে আমরা পরবর্তী স্ক্রিপ্ট পেতে আমাদের কাস্টম প্রম্পট দিয়ে ChatGPT API ব্যবহার করি। আমাদের প্রম্পটটি স্ট্রীম দাতাদের কাছ থেকে নাম/তথ্য এবং বিজ্ঞাপন-পড়ার জন্য একটি এলোমেলো জাল পণ্য সহ প্রাক-বীজ করা হবে।

FFmpeg

স্ট্রিমিং এর ওয়ার্কহরস. FFmpeg আপনি স্ট্রীমে দেখা সমস্ত অডিও/ভিজ্যুয়ালের জন্য দায়ী৷ স্ট্যাটিক ইমেজ ওভারলে থেকে, টিভিতে এনকোড করা ভিডিও এবং আপনি যে অডিও শুনতে পান। FFmpeg এর পেছনের জাদু।

এইচটিএমএল/সিএসএস/জাভাস্ক্রিপ্ট

উপরের চিত্রে দেখা যায়নি, চলমান স্ট্রিমের প্যারামগুলিকে টুইক করার জন্য একটি ব্যবস্থাপনা ইন্টারফেস রয়েছে। এটি অ্যাডমিনকে জোর করে অ্যাড-ব্রেক, অ্যাড-ব্রেক রেট অ্যালগরিদম এবং আরও অনেক কিছু করার অনুমতি দেয়। অতিরিক্তভাবে, পূর্বে উল্লিখিত হিসাবে, পুরো প্ল্যাটফর্মটি NodeJS থেকে চলছে

উপসংহার

আমরা কৃত্রিম বুদ্ধিমত্তা দিয়ে রেডিও হোস্ট প্রতিস্থাপনের সম্ভাবনা পরীক্ষা করেছি এবং এই সিদ্ধান্তে পৌঁছেছি যে, কিছু শর্ত দেওয়া হলে, এটি সত্যিই সম্ভব হতে পারে। আমাদের অনুসন্ধানগুলি পরামর্শ দেয় যে AI-চালিত রেডিও স্টেশনগুলি তাদের মানব প্রতিপক্ষের তুলনায় স্পষ্ট আর্থিক সুবিধা পাবে এবং মানব ডিজেগুলির সমান বা অতিক্রম করে উচ্চ-মানের সামগ্রী তৈরি করতে সক্ষম হবে। এই ধরনের উন্নয়নের মধ্যে শ্রোতারা যাতে নিযুক্ত থাকে এবং প্রোগ্রামের অফারগুলির সাথে যুক্ত থাকে তা নিশ্চিত করার জন্য আরও বিবেচনা করা উচিত।


সামগ্রিকভাবে, একটি গতিশীল কণ্ঠস্বরযুক্ত ব্যক্তিত্ব সহ একটি সম্পূর্ণ স্বয়ংক্রিয় রেডিও স্টেশন বা লাইভ-স্ট্রিমের ধারণাটি প্রাথমিকভাবে দূরবর্তী বলে মনে হতে পারে, বাস্তবতা হল যে উদীয়মান প্রযুক্তিগুলি দ্রুত ধারণাটিকে সম্ভাব্য এবং বাস্তবসম্মত করে তুলছে। এইভাবে, ব্যবসায়ী নেতাদের অবশ্যই পরিবর্তিত ল্যান্ডস্কেপকে চিনতে হবে এবং একটি সর্বদা বিবর্তিত মার্কেটপ্লেসে পিছনে ফেলে যাওয়ার ঝুঁকির আগে সেই অনুযায়ী মানিয়ে নিতে হবে।


লাইভ-স্ট্রিম লিঙ্ক

Twitch.TV এবং Youtube


আপনি যদি নিজেই টুলের আরও কিছু দেখতে চান তাহলে অনুগ্রহ করে যোগাযোগ করতে দ্বিধা করবেন না।