paint-brush
গুগল এখনও পর্যন্ত তার সবচেয়ে প্রতিশ্রুতিশীল পাঠ্য-টু-ভিডিও মডেল উন্মোচন করেছে: লুমিয়েরদ্বারা@aibites
1,353 পড়া
1,353 পড়া

গুগল এখনও পর্যন্ত তার সবচেয়ে প্রতিশ্রুতিশীল পাঠ্য-টু-ভিডিও মডেল উন্মোচন করেছে: লুমিয়ের

দ্বারা Shrinivasan Sankar7m2024/02/10
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

আপনি কি মোনালিসাকে ডাইনির মতো হাসতে দেখতে চান? নাকি আপনি মুক্তার কানের দুলওয়ালা মেয়েটিকে চোখ মেলে হাসতে চান? Google সবেমাত্র Lumiere [1] নামে একটি ভিডিও জেনারেশন মডেল বাদ দিয়েছে যা আপনার জন্য সবকিছু করতে সক্ষম। যদিও এটি প্রাথমিকভাবে একটি টেক্সট-টু-ভিডিও মডেল, এটি তার থেকে অনেক বেশি কিছু করতে সক্ষম। একটি প্রম্পট সহ একটি রেফারেন্স চিত্র দেওয়া হলে, এটি আপনার ভিডিওগুলিতে রেফারেন্স চিত্রের শৈলী অনুলিপি করে আপনার ভিডিওগুলিকে স্টাইলাইজ করতে পারে৷
featured image - গুগল এখনও পর্যন্ত তার সবচেয়ে প্রতিশ্রুতিশীল পাঠ্য-টু-ভিডিও মডেল উন্মোচন করেছে: লুমিয়ের
Shrinivasan Sankar HackerNoon profile picture

ভূমিকা

আপনি কি মোনালিসাকে ডাইনির মতো হাসতে দেখতে চান? নাকি আপনি মুক্তার কানের দুল দিয়ে মেয়েটিকে চোখ মেলে হাসতে চান? Google সবেমাত্র Lumiere [1] নামে একটি ভিডিও জেনারেশন মডেল বাদ দিয়েছে যা আপনার জন্য সবকিছু করতে সক্ষম।


যদিও এটি প্রাথমিকভাবে একটি টেক্সট-টু-ভিডিও মডেল, এটি এর থেকে অনেক বেশি কিছু করতে সক্ষম। একটি প্রম্পট সহ একটি রেফারেন্স চিত্র দেওয়া হলে, এটি আপনার ভিডিওগুলিতে রেফারেন্স চিত্রের শৈলী অনুলিপি করে আপনার ভিডিওগুলিকে স্টাইলাইজ করতে পারে৷


এমনকি আপনি শুধুমাত্র একটি প্রম্পট দিয়ে আপনার ভিডিও সম্পাদনা করতে পারেন। মডেল লুমিয়ার। এমনকি এটি একটি চিত্রে ব্যবহারকারী-নির্দিষ্ট অঞ্চলের মধ্যে বস্তুগুলিকে অ্যানিমেট করতে সক্ষম, সিনেমাগ্রাফ নামে একটি কৌশল।


যখন এটি আঁকার কথা আসে, লুমিয়ের এই উদাহরণে একটি কেকের মতো সম্পূর্ণ অনুপস্থিত বস্তু সম্পর্কে যুক্তি দিতে সক্ষম।


এটি একটি অভিনব স্পেস-টাইম ইউ-নেট আর্কিটেকচারের সাথে একটি ডিফিউশন মডেলে ফুটে উঠেছে [3]। এটি অস্থায়ী সামঞ্জস্যের সমস্যা সমাধানের জন্য ইউ-নেট আর্কিটেকচারের একটি কাস্টমাইজেশন যা ভিডিও জেনারেশন মডেলগুলিতে বেশ প্রচলিত।

ভিজ্যুয়াল ব্যাখ্যা

Lumiere কাগজের একটি চাক্ষুষ ব্যাখ্যা, মডেল আর্কিটেকচার, এবং ফলাফল পাওয়া যায়.

তাই, টেম্পোরাল কনসিসটেন্সি কি?

আমরা সবাই জানি যে ভিডিওগুলি ছবির একটি ক্রম। সুতরাং, উপরের চিত্রের উপরের সারিতে দেখানো চিত্রগুলির একটি ক্রম নেওয়া যাক। যদি আমরা চিত্রের একটি সারিকে সংকুচিত করি, যা সবুজ রেখাটি বাম থেকে ডানে যাওয়ার দ্বারা নির্দেশিত হয়, আমাদের ক্রমানুসারে চিত্রগুলির মধ্যে পিক্সেল মানগুলিতে একটি মসৃণ রূপান্তর দেখতে হবে।


যদি রূপান্তরটি মসৃণ হয়, তাহলে আমরা ভিডিওটি দেখার সময় একটি জাম্পিং প্রভাব দেখতে পাব না।


উদাহরণস্বরূপ, যদি আমরা স্টেবল ভিডিও ডিফিউশন নিই [২], এবং চাঁদে (উপরে) একজন নভোচারীর হাঁটার ভিডিও দেখি, আমরা দেখতে পাব যে তার হাত কেবল ফ্রেমের মধ্যে অদৃশ্য হয়ে গেছে। অন্য কথায়, ফ্রেমের মধ্যে সাময়িক সামঞ্জস্যের অভাব রয়েছে।


সময় এবং x দিকের তীব্রতার মধ্যে এই ধরনের সাময়িক অসঙ্গতি উপরের চিত্রে হাইলাইট করা XT স্লাইস হিসাবে প্লট করা যেতে পারে। এবং যদি সাময়িক অসামঞ্জস্য থাকে তবে এটি XT স্লাইসের প্লটে হাইলাইট করা হয়েছে।


লুমিয়ের একটি স্থান-কালের বিচ্ছুরণ মডেল এবং প্রসারণ মডেলে উপস্থিত একটি সংশোধিত U-Net স্থাপত্য প্রবর্তন করে এই সমস্যার সমাধান করে।

ভিডিও থেকে একটি পাঠ্যের পাইপলাইন

বিস্তারিত দেখার আগে, আসুন একটি টেক্সট-টু-ভিডিও জেনারেশন মডেলের সাধারণ পাইপলাইন দিয়ে শুরু করা যাক।

এই পাইপলাইনগুলি ইনপুট ভিডিও সিকোয়েন্স থেকে কীফ্রেম হিসাবে প্রতি 5ম ফ্রেমের নমুনা দেয় এবং একটি বেস মডেলকে প্রশিক্ষণ দেয় যা এই কীফ্রেমগুলিকে 128 বাই 128 রেজোলিউশনে তৈরি করতে পারে মাত্র 3 ফ্রেম প্রতি সেকেন্ডে।


তারপর মধ্যবর্তী ফ্রেমের পূর্বাভাস দিয়ে ফ্রেম রেট বাড়ানোর জন্য টেম্পোরাল সুপার রেজোলিউশন ব্যবহার করা হয়। সুতরাং ফ্রেম রেট এখন প্রতি সেকেন্ডে 16 ফ্রেম হয়ে যায়।


এই ফ্রেমের স্থানিক রেজোলিউশনকে একটি স্থানিক সুপার রেজোলিউশন নেটওয়ার্ক (SSR) দ্বারা 1024 দ্বারা 1024 বলা হয় যা শেষ পর্যন্ত আমাদের তৈরি ভিডিওতে নিয়ে যায়।


এই ফ্রেমওয়ার্কে ব্যবহৃত বেস মডেলটি সাধারণত একটি ডিফিউশন মডেল যার ভিতরে একটি ইউ-নেট থাকে।

Lumiere এর প্রস্তাবিত পাইপলাইন

অন্যদিকে Lumiere-এর প্রস্তাবিত পাইপলাইন ফ্রেম না ফেলে একযোগে সমস্ত ফ্রেম প্রক্রিয়া করে। সমস্ত ফ্রেম প্রক্রিয়াকরণের কম্পিউটেশনাল খরচের সাথে মানিয়ে নিতে, বেস ডিফিউশন মডেলের আর্কিটেকচারটি স্থান-কাল ইউনেট আর্কিটেকচার বা STUNet-এর সাথে আসতে পরিবর্তন করা হয়েছে।


যেহেতু STUNet সমস্ত ইনপুট ফ্রেমের সাথে কাজ করে, তাই টেম্পোরাল সুপার রেজোলিউশন বা TSR-এর প্রয়োজনীয়তা বাদ দেওয়া হয়। সুতরাং, পাইপলাইনে এখনও স্থানিক সুপার-রেজোলিউশন বা SSR রয়েছে। কিন্তু অভিনবত্ব হল মাল্টিডিফিউশনের প্রবর্তন।

U-Net থেকে STUNet পর্যন্ত

স্পেস-টাইম ইউ-নেট দেখার আগে চলুন দ্রুত ইউ-নেট পর্যালোচনা করি। ইউ-নেটে ইনপুট হল প্রস্থ W, উচ্চতা H, এবং চ্যানেল RGB সহ একটি 3 3-মাত্রিক চিত্র। U-Net-এর প্রতিটি ডবল কনভল্যুশন স্টেজের পরে, আমরা বৈশিষ্ট্যগুলির স্থানিক মাত্রা কমাতে বা নমুনা কমাতে সর্বোচ্চ পুলিং প্রয়োগ করি। এই স্থানিক মাত্রা হ্রাস পদক্ষেপ লাল তীর দ্বারা নির্দেশিত হয়.


একইভাবে, ডিকোডার পর্যায়ে, রেজোলিউশনকে ইনপুটের আকারে ফিরিয়ে আনার বা আপ নমুনা করার জন্য আপ কনভোল্যুশন আছে।

যখন এটি ভিডিওর ক্ষেত্রে আসে, তখন আমাদের ইনপুটে একটি অতিরিক্ত মাত্রা থাকে যা সময়। তাই স্পেস-টাইম U-Net শুধুমাত্র স্থানিক মাত্রায় নয়, সময়ের T-এর মাত্রায়ও ভিডিওটিকে ডাউন-স্যাম্পল এবং আপ-স্যাম্পল করার প্রস্তাব দেয়। এটি হল টেম্পোরাল রিসাইজের মূল ধারণা এবং এই লুমিয়ের পেপারের প্রধান অবদান।


আকার পরিবর্তনের জন্য, তারা 2D পুলিংয়ের পরিবর্তে 3D পুলিং ব্যবহার করে কারণ ইনপুটে এখন একটি অতিরিক্ত মাত্রা রয়েছে।


আমার মত, আপনি ধারণার সরলতা দ্বারা বিস্মিত হতে পারে. লেখক নিজেই কাগজে উল্লেখ করেছেন:

আশ্চর্যজনকভাবে, এই নকশা পছন্দটি পূর্ববর্তী T2V মডেলগুলি দ্বারা উপেক্ষা করা হয়েছে, যা স্থাপত্যে শুধুমাত্র স্থানিক ডাউন এবং আপ-স্যাম্পলিং ক্রিয়াকলাপগুলিকে অন্তর্ভুক্ত করতে এবং নেটওয়ার্ক জুড়ে একটি নির্দিষ্ট অস্থায়ী রেজোলিউশন বজায় রাখার জন্য কনভেনশন অনুসরণ করে।

বাস্তবায়ন

আসুন বাস্তবায়নের কিছু সূক্ষ্মতা নিয়ে আসি। তারা ভিডিও ডিফিউশন মডেল নামে এই কাগজে প্রবর্তিত ফ্যাক্টরাইজড কনভল্যুশন ব্যবহার করে। ধারণাটি হল প্রতিটি 2D কনভোলিউশনকে একটি স্পেস-অনলি 3D কনভোলিউশনে পরিবর্তন করা, উদাহরণস্বরূপ, প্রতিটি 3x3 কনভোলিউশনকে 1x3x3 কনভোলিউশনে পরিবর্তন করে।


মনোযোগের জন্য, প্রতিটি স্থানিক মনোযোগ ব্লকের পরে, আমরা একটি অস্থায়ী মনোযোগ ব্লক সন্নিবেশ করি যা প্রথম অক্ষের উপর মনোযোগ সঞ্চালন করে এবং স্থানিক অক্ষগুলিকে ব্যাচ অক্ষ হিসাবে বিবেচনা করে।

এই দুটি পরিবর্তনের সাথে, ফ্যাক্টরাইজড কনভোলিউশন ব্লকগুলি প্রাক-প্রশিক্ষিত মডেলে যোগ করা হয়, এবং শুধুমাত্র অতিরিক্ত স্তরগুলিকে প্রাক-প্রশিক্ষিত স্তরের ওজন স্থির করে প্রশিক্ষিত করা হয়।


কাগজটির দ্বিতীয় অভিনবত্ব হল স্থানিক সুপার রেজোলিউশনের সময় প্রবর্তিত মাল্টিডিফিউশন। আপনি যদি লুমিরের আগে ভিডিও জেনারেশন মডেলগুলি নেন, স্থানিক সুপার রেজোলিউশন মডেলটি ফ্রেমের একটি ক্রম নেয়।


যাইহোক, সিকোয়েন্স ওভারল্যাপিং ছিল না. উদাহরণস্বরূপ, SSR মডিউল দ্বারা ইনপুট হিসাবে নেওয়া প্রথম 8টি ফ্রেম এবং পরবর্তী 8টি ফ্রেম কোনো ওভারল্যাপ ছাড়াই আলাদা।


কিন্তু যখন লুমিয়েরের কথা আসে, প্রথম 8টি ফ্রেমে এবং দ্বিতীয় 8টি ফ্রেমে দুটি ফ্রেমের ওভারল্যাপ থাকে৷ এটি করার মাধ্যমে, স্থানিক সুপার-রেজোলিউশন মডেলটি টেম্পোরাল সেগমেন্টগুলির মধ্যে মসৃণ রূপান্তর অর্জন করে বলে মনে হচ্ছে। এটিকে কাগজে মাল্টিডিফিউশন হিসাবে উল্লেখ করা হয়েছে।

অ্যাপ্লিকেশন

একটি ক্যাসকেডেড ডিফিউশন মডেল আর্কিটেকচারের অনুপস্থিতির সাথে দুটি প্রস্তাবিত কৌশলকে একত্রিত করা যা পূর্ববর্তী আর্কিটেকচার যেমন ইমেজ ভিডিওতে প্রচলিত, বেশ কয়েকটি বৈচিত্র্যময় অ্যাপ্লিকেশনের দিকে নিয়ে যায়।


উদাহরণ স্বরূপ:

  • মডেলটি প্রম্পট সহ ভিডিওতে পাঠ্য রূপান্তর করতে পারে যেমন "একজন নভোচারী মঙ্গল গ্রহে তার বেসের চারপাশে ঘুরছেন" বা "একটি কুকুর মজার সানগ্লাস পরে গাড়ি চালাচ্ছেন।"


  • এটি একটি টেক্সট প্রম্পটের সাথে ছবিগুলিকে ভিডিওতে রূপান্তর করতে পারে যেমন "একটি মেয়ে চোখ মেলে ও হাসছে।"


  • এটি একটি রেফারেন্স ইমেজ এবং একটি টেক্সট প্রম্পট যেমন "ভাল্লুক নাচ" সহ প্রজন্মকে স্টাইলাইজ করতে পারে। সিনেমাগ্রাফের কথা বললে, এটি ব্যবহারকারীর দ্বারা নির্বাচিত অঞ্চলগুলিকে অ্যানিমেট করতে পারে যেমন আগুন বা বাষ্প।


  • এটি এমনকি একটি মাত্র প্রম্পট দিয়ে লোকেরা যে পোশাক পরেছে তা সম্পাদনা করতে পারে।

মূল্যায়ন

মডেলটিকে পরিমাণগতভাবে মূল্যায়ন করার জন্য, মডেলটি একটি ব্যবহারকারী অধ্যয়নের মাধ্যমে চালিত হয়েছিল যেখানে ব্যবহারকারীরা প্রস্তাবিত মডেলের ফলাফলগুলিকে কিছু অত্যাধুনিক মডেল যেমন পিকা, জিরোস্কোপ, বা স্থিতিশীল ভিডিও বিস্তারের সাথে তুলনা করেছেন। ফলাফলগুলি ইঙ্গিত দেয় যে ব্যবহারকারীরা ভিডিও থেকে পাঠ্য এবং ভিডিও থেকে চিত্র উভয় ক্ষেত্রেই লুমিয়ের মডেলটিকে পছন্দ করেছেন।

উপসংহার

সুতরাং, উপসংহারে, সমস্ত প্রচারমূলক ভিডিও স্টান্টগুলি ছাড়া, যেমন হাস্যোজ্জ্বল মোনালিসা, এই কাগজের অবদান মোটামুটি সহজ। এক লাইনে রাখুন, কাগজটি টেম্পোরাল চ্যানেলের একটি ডাউনস্যাম্পলিং প্রবর্তন করে।


এটি মাল্টিডিফিউশনের সাথে মিলিত, যা সুপার রেজোলিউশন মডেলে ওভারল্যাপ করা ফ্রেমগুলি ছাড়া কিছুই নয়, উচ্চ-বিশ্বস্ত ভিডিও তৈরি করে যা সাময়িকভাবে সামঞ্জস্যপূর্ণ।


আমি যা দেখতে পছন্দ করতাম তা হল কাগজে কিছু বিবর্ধন অধ্যয়ন যা মাল্টিডিফিউশন প্রক্রিয়া সহ এবং ছাড়া ফলাফলগুলি দেখায়।


এটি আমাদের এই নিবন্ধের শেষে নিয়ে আসে। পরের বার যখন কেউ আপনার সাথে Lumiere সম্পর্কে কথা বলবে, আপনি জানেন এক লাইনে কী বলতে হবে। আমি আশা করি যে Lumiere মডেলের কিছু অন্তর্দৃষ্টি প্রদান করেছে।


আমার পরবর্তীতে দেখা হবে, ততক্ষণ পর্যন্ত, যত্ন নিও...

তথ্যসূত্র

[১] ওমের বার-তাল, হিলা শেফার, ওমের তোভ, চার্লস হারম্যান, রনি পাইস, শিরান জাদা, এরিয়েল এফ্রাত, জুনহওয়া হুর, ইউয়ানজেন লি, তোমার মাইকেলি, অলিভার ওয়াং, ডেকিং সান, তালি ডেকেল, ইনবার মোসেরি, ভিডিও জেনারেশনের জন্য একটি স্পেস-টাইম ডিফিউশন মডেল (2024), arXiv প্রিপ্রিন্ট।


[২] আন্দ্রেয়াস ব্ল্যাটম্যান, টিম ডকহর্ন, সুমিথ কুলাল, ড্যানিয়েল মেন্ডেলেভিচ, ম্যাকিয়েজ কিলিয়ান, ডমিনিক লরেঞ্জ, ইয়াম লেভি, জিয়ন ইংলিশ, বিক্রম ভোলেটি, অ্যাডাম লেটস, বরুণ জাম্পানি, রবিন রমবাচ, স্থিতিশীল ভিডিও ডিফিউশন: সুপ্ত ভিডিও ডিফিউশন মডেলগুলিকে বড় ডেটাসেটে স্কেল করা (2023), arXiv প্রিপ্রিন্ট।


[৩] ওলাফ রনেবার্গার, ফিলিপ ফিশার এবং টমাস ব্রক্স, ইউ-নেট: বায়োমেডিকাল ইমেজ সেগমেন্টেশনের জন্য কনভোল্যুশনাল নেটওয়ার্ক (2015), মেডিকেল ইমেজ কম্পিউটিং এবং কম্পিউটার-সহায়ক হস্তক্ষেপের আন্তর্জাতিক সম্মেলন।


এছাড়াও এখানে প্রকাশিত