paint-brush
টেক্সট-টু-ভিডিও জেনারেশনের জন্য এআই স্ট্যাকদ্বারা@ratikeshmisra
2,210 পড়া
2,210 পড়া

টেক্সট-টু-ভিডিও জেনারেশনের জন্য এআই স্ট্যাক

দ্বারা Ratikesh4m2024/01/17
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

এআই টুল ব্যবহার করে ভিডিও কনটেন্ট তৈরি করা শুধু সহজ এবং দ্রুত হচ্ছে না বরং সৃজনশীলও হচ্ছে। এই পোস্টে, আমরা শিখব কিভাবে আমরা বিমূর্ত স্তরের টুল ব্যবহার করে টেক্সট-টু-ভিডিও তৈরি করতে একটি পাইপলাইন তৈরি করতে পারি।
featured image - টেক্সট-টু-ভিডিও জেনারেশনের জন্য এআই স্ট্যাক
Ratikesh HackerNoon profile picture
0-item
1-item

সাম্প্রতিক অতীতে বৃহৎ ভাষার মডেলের উৎপত্তির সাথে, একটি বিষয় যা আমরা সমালোচনামূলকভাবে চারপাশে বিতর্ক করি তা হল AI-উত্পন্ন সামগ্রী যেমন AI আর্ট, AI ভিডিও ইত্যাদি বিষয়বস্তু নির্মাতাদের সৃজনশীলতা নষ্ট করবে বা গুণমান উন্নত করতে এবং তাদের সহায়তা করতে পারে। আমার আগের ব্লগে , আমি কীভাবে এআই কোড-জেনারেশন টুলগুলি সফ্টওয়্যার ডেভেলপমেন্ট চক্রে মান যোগ করতে সাহায্য করতে পারে সে সম্পর্কে কথা বলেছিলাম, এই পোস্টে আমি প্রধানত হাইলাইট করব কীভাবে এআই টুল ব্যবহার করে ভিডিও সামগ্রী তৈরি করা সহজ এবং দ্রুত হচ্ছে না বরং সৃজনশীলও হচ্ছে। .


সৃজনশীল এবং আকর্ষক বিষয়বস্তু তৈরিতে কেউ কীভাবে বর্তমান ভিডিও এবং চিত্রের মডেলগুলিকে কাজে লাগাতে পারে তা বোঝার আগে, বর্তমান অবস্থা কেমন তা বোঝা গুরুত্বপূর্ণ, আমরা বর্তমান এআই ভিডিও জেনারেশন ল্যান্ডস্কেপকে নীচের মতো স্তর দিতে পারি:

এআই ভিডিও জেনারেশনে স্তরগুলি

  1. বিদ্যমান ভিডিও সম্পাদকরা তাদের কর্মপ্রবাহ যেমন Adobe, Canva ইত্যাদিতে AI সংহত করার চেষ্টা করছেন।

  2. AI-ভিত্তিক নতুন-যুগের ভিডিও এডিটিং টুল যেমন Fliki.ai, unscreen.com, synthesia.ai, hourone.ai, ইত্যাদি।

  3. ভিডিও জেনারেশন ওয়ার্কফ্লোতে একক ব্যবহারের ক্ষেত্রে নিবেদিত অ্যাবস্ট্রাকশন লেয়ার , যেমন মিডজার্নি ভিডিওর জন্য বাস্তবসম্মত ছবি তৈরি করতে সাহায্য করে, RunwayML ইমেজকে ভিডিওতে বা ইমেজ থেকে ইমেজ কনভার্ট করার জন্য একটি প্ল্যাটফর্ম প্রদান করে, ছবিতে অ্যানিমেশন যোগ করতে সাহায্য করে , ইত্যাদি।

  4. মডেল লেয়ার যা সমগ্র ল্যান্ডস্কেপের ভিত্তি তৈরি করে, সফ্টওয়্যার দলগুলি তাদের ব্যবহারের ক্ষেত্রে কাস্টমাইজ করার জন্য এই স্তরটি ব্যবহার করতে পারে।


কাস্টমাইজ করার জন্য আমরা স্তরের নমনীয়তার উপরে চলে যাওয়ার সাথে সাথে ব্যবহারের সহজলভ্যতা হ্রাস পায়, এই নিবন্ধের প্রসঙ্গে আমরা গভীরভাবে গভীরভাবে গভীরভাবে বুঝতে পারব কিভাবে আমরা সৃজনশীল ভিডিও তৈরিতে অ্যাবস্ট্রাকশন স্তর ব্যবহার করতে পারি যেহেতু এই স্তরটি নমনীয়তার মাঝখানে পড়ে এবং ব্যবহার সহজ, এবং একজন শিল্পী হিসাবে উভয় বিশ্বের সেরা প্রয়োজন।

টেক্সট-টু-ভিডিও পাইপলাইন তৈরি করা

বিমূর্তকরণ স্তরের সরঞ্জামগুলি ব্যবহার করে আমরা কীভাবে পাঠ্য থেকে ভিডিও তৈরি করার জন্য একটি পাইপলাইন তৈরি করতে পারি তা শেখার আগে ভিডিও তৈরির পদক্ষেপগুলি কী হবে এবং প্রতিটি স্তরে কী কী সরঞ্জাম ব্যবহার করা যেতে পারে তা নির্ধারণ করা গুরুত্বপূর্ণ৷



এআই ভিডিও জেনারেশন ওয়ার্কফ্লো



এআই টেক্সট-টু-ভিডিও জেনারেশনে নিম্নলিখিত পদক্ষেপগুলি জড়িত:

1. GPT প্রম্পট ব্যবহার করে স্ক্রিপ্ট থেকে দৃশ্য তৈরি করা


আমি প্রথম পদক্ষেপটি করেছিলাম প্রতিটি দৃশ্যে জড়িত চরিত্রগুলির মধ্যে সংলাপের আকারে হিন্দি স্ক্রিপ্ট দেওয়ার জন্য কয়েকটি শট-প্রম্পট জিপিটি।


ইনপুট

ইনপুট


আউটপুট


আউটপুট


2. দৃশ্য থেকে ছবি তৈরি করা

এটি একটি গুরুত্বপূর্ণ পদক্ষেপ এবং এর মধ্যে দৃশ্যের জন্য চিত্রগুলি তৈরি করা জড়িত যা স্ক্রিপ্ট থেকে বিচ্ছিন্ন করা হয়েছিল, এটি মিডজার্নির প্রম্পট নির্দেশিকাগুলি ব্যবহার করে আমরা কতটা সৃজনশীলভাবে নিজেকে প্রকাশ করতে পারি তা ফুটিয়ে তোলে, নীচের উদাহরণটি মিডজার্নিকে জেনারেট করার জন্য দেওয়া প্রম্পট উল্লেখ করে। একটি দৃশ্যের জন্য একটি চিত্র।



দৃশ্যের একটি কার্টুন যেখানে ভারতীয় বৃদ্ধ হিন্দু সাধু লর্ড ক্লাউডের কাছে সাহায্য চাইছেন; ভগবান মেঘ মূর্তিমান এবং তার মুখে খুশি রয়েছে, চারপাশের পরিবেশ কালো মেঘে গাছে পূর্ণ এবং চারিদিকে আলোকিত


ছবি তৈরি করা হচ্ছে


3. ছবিতে অ্যানিমেশন যোগ করা

আপনি যদি ছবিতে অ্যানিমেশন যোগ করতে চান তাহলে আপনি অক্ষর গতি এবং দৃশ্য অ্যানিমেশন যোগ করতে DiD বা RunwayML ব্যবহার করতে পারেন।

4. দৃশ্যের বর্ণনার জন্য AI ভয়েস তৈরি করা

এই ধাপে, আপনি এগারোটি ল্যাব ব্যবহার করে বর্ণনার জন্য এআই ভয়েস তৈরি করতে পারেন, সাধারণত, এগুলি টেক্সট টু স্পিচ ন্যারেশন মডেল যা পিছনে ব্যবহার করে কিছুটা রোবোটিক শোনাতে পারে কিন্তু ভয়েস জেনারেট করার উদ্দেশ্য সমাধান করে, কেউ এটিকে আরও অভিব্যক্তিপূর্ণ এবং বাস্তবসম্মত করে তুলতে পারে। এগারো ল্যাব পেইড ভার্সন থেকে, এই গল্পের জন্য আমার হিন্দি ভয়েস ন্যারেশন দরকার ছিল যার জন্য Ai4Bharat টেক্সট টু স্পিচ ন্যারেশন দারুণ কাজ করে।

5. ভিডিও ক্লিপগুলি সেলাই করা এবং ভয়েস সিঙ্ক করা

এটি একটি ভিডিও এডিটরে ছবি যোগ করার এবং দৃশ্য এবং বর্ণনার টাইমলাইন অনুযায়ী ভয়েস সিঙ্ক করার শেষ এবং সহজ ধাপ, ক্যানভা এবং অ্যাডোব এক্সপ্রেসের মতো টুলগুলি এখানে দারুণ কাজ করে।

ভিডিও উৎপাদনের রুক্ষ খরচ

উপরে কয়েকটি মৌলিক টুল ব্যবহার করে কিভাবে আপনি দ্রুত টেক্সট থেকে ভিডিও তৈরি করতে পারেন তার সহজতম ব্রেকডাউন, আমার উদাহরণের জন্য, আমি 16টি অনন্য দৃশ্য সহ একটি প্রায় ~ 3-মিনিটের ভিডিও তৈরি করেছি, আমি যে সময় এবং অর্থ প্রদান করেছি তা দেখতে আকর্ষণীয় হবে এই ভিডিও তৈরি করুন:


মিডজার্নি খরচ ~ $0.05/ছবি - 16*0.05 = $0.8

RunwayML ~ $0.02/ছবি - 16*0.02 = 0.32

ক্যানভা ~ বিনামূল্যে যেহেতু তাদের প্রিমিয়াম নিদর্শন ব্যবহার করা হয়নি৷

মোট খরচ ~ $1 / ভিডিও


Fliki- এর মতো নতুন যুগের AI ভিডিও এডিটরগুলির সাথে তুলনা করা যা 180 মিনিট তৈরির জন্য প্রায় $28/মাস চার্জ করে, যা উপরে উল্লিখিত একটি ভিডিও দৈর্ঘ্যের জন্য $0.5 খরচ হবে।

নৈবেদ্য বান্ডিল করা প্রয়োজন

যদিও AI-ভিত্তিক ভিডিও এডিটরগুলিতে ভিডিও তৈরির চূড়ান্ত খরচ মিডজার্নি, রানওয়েএমএল ইত্যাদির মতো টুল ব্যবহার করে মোট খরচের তুলনায় কম বলে মনে হয়, অতিরিক্ত খরচের সাথে এই টুলগুলি ভিডিও সামগ্রী নির্মাতাকে নমনীয়তা এবং সৃজনশীলতা প্রদান করে এবং সাহায্য করতে পারে। কিছু আশ্চর্যজনক ভিডিও তৈরি করার ক্ষেত্রে যা হলিউড মুভির একটি আশ্চর্যজনক দৃশ্যের সাথে তুলনীয় হতে পারে, মনে হচ্ছে যদি এই AI টুলগুলিকে ভিডিও এজেন্সি বা ভিডিও প্রোডাকশন হাউসের কর্মপ্রবাহের সাথে একত্রিত করা যায় তাহলে তারা ভিডিও উৎপাদনে সর্বাধিক মান তৈরি করতে পারে, যেমন জাস্টিন মুর, এই থ্রেডে অংশীদার @a16z ও একই প্রতিফলন করে।




জাস্টিন মুর