আপনি কি মোনালিসাকে ডাইনির মতো হাসতে দেখতে চান? নাকি আপনি মুক্তার কানের দুল দিয়ে মেয়েটিকে চোখ মেলে হাসতে চান? Google সবেমাত্র Lumiere [1] নামে একটি ভিডিও জেনারেশন মডেল বাদ দিয়েছে যা আপনার জন্য সবকিছু করতে সক্ষম।
যদিও এটি প্রাথমিকভাবে একটি টেক্সট-টু-ভিডিও মডেল, এটি এর থেকে অনেক বেশি কিছু করতে সক্ষম। একটি প্রম্পট সহ একটি রেফারেন্স চিত্র দেওয়া হলে, এটি আপনার ভিডিওগুলিতে রেফারেন্স চিত্রের শৈলী অনুলিপি করে আপনার ভিডিওগুলিকে স্টাইলাইজ করতে পারে৷
এমনকি আপনি শুধুমাত্র একটি প্রম্পট দিয়ে আপনার ভিডিও সম্পাদনা করতে পারেন। মডেল লুমিয়ার। এমনকি এটি একটি চিত্রে ব্যবহারকারী-নির্দিষ্ট অঞ্চলের মধ্যে বস্তুগুলিকে অ্যানিমেট করতে সক্ষম, সিনেমাগ্রাফ নামে একটি কৌশল।
যখন এটি আঁকার কথা আসে, লুমিয়ের এই উদাহরণে একটি কেকের মতো সম্পূর্ণ অনুপস্থিত বস্তু সম্পর্কে যুক্তি দিতে সক্ষম।
এটি একটি অভিনব স্পেস-টাইম ইউ-নেট আর্কিটেকচারের সাথে একটি ডিফিউশন মডেলে ফুটে উঠেছে [3]। এটি অস্থায়ী সামঞ্জস্যের সমস্যা সমাধানের জন্য ইউ-নেট আর্কিটেকচারের একটি কাস্টমাইজেশন যা ভিডিও জেনারেশন মডেলগুলিতে বেশ প্রচলিত।
Lumiere কাগজের একটি চাক্ষুষ ব্যাখ্যা, মডেল আর্কিটেকচার, এবং ফলাফল পাওয়া যায়.
আমরা সবাই জানি যে ভিডিওগুলি ছবির একটি ক্রম। সুতরাং, উপরের চিত্রের উপরের সারিতে দেখানো চিত্রগুলির একটি ক্রম নেওয়া যাক। যদি আমরা চিত্রের একটি সারিকে সংকুচিত করি, যা সবুজ রেখাটি বাম থেকে ডানে যাওয়ার দ্বারা নির্দেশিত হয়, আমাদের ক্রমানুসারে চিত্রগুলির মধ্যে পিক্সেল মানগুলিতে একটি মসৃণ রূপান্তর দেখতে হবে।
যদি রূপান্তরটি মসৃণ হয়, তাহলে আমরা ভিডিওটি দেখার সময় একটি জাম্পিং প্রভাব দেখতে পাব না।
উদাহরণস্বরূপ, যদি আমরা স্টেবল ভিডিও ডিফিউশন নিই [২], এবং চাঁদে (উপরে) একজন নভোচারীর হাঁটার ভিডিও দেখি, আমরা দেখতে পাব যে তার হাত কেবল ফ্রেমের মধ্যে অদৃশ্য হয়ে গেছে। অন্য কথায়, ফ্রেমের মধ্যে সাময়িক সামঞ্জস্যের অভাব রয়েছে।
সময় এবং x দিকের তীব্রতার মধ্যে এই ধরনের সাময়িক অসঙ্গতি উপরের চিত্রে হাইলাইট করা XT স্লাইস হিসাবে প্লট করা যেতে পারে। এবং যদি সাময়িক অসামঞ্জস্য থাকে তবে এটি XT স্লাইসের প্লটে হাইলাইট করা হয়েছে।
লুমিয়ের একটি স্থান-কালের বিচ্ছুরণ মডেল এবং প্রসারণ মডেলে উপস্থিত একটি সংশোধিত U-Net স্থাপত্য প্রবর্তন করে এই সমস্যার সমাধান করে।
বিস্তারিত দেখার আগে, আসুন একটি টেক্সট-টু-ভিডিও জেনারেশন মডেলের সাধারণ পাইপলাইন দিয়ে শুরু করা যাক।
এই পাইপলাইনগুলি ইনপুট ভিডিও সিকোয়েন্স থেকে কীফ্রেম হিসাবে প্রতি 5ম ফ্রেমের নমুনা দেয় এবং একটি বেস মডেলকে প্রশিক্ষণ দেয় যা এই কীফ্রেমগুলিকে 128 বাই 128 রেজোলিউশনে তৈরি করতে পারে মাত্র 3 ফ্রেম প্রতি সেকেন্ডে।
তারপর মধ্যবর্তী ফ্রেমের পূর্বাভাস দিয়ে ফ্রেম রেট বাড়ানোর জন্য টেম্পোরাল সুপার রেজোলিউশন ব্যবহার করা হয়। সুতরাং ফ্রেম রেট এখন প্রতি সেকেন্ডে 16 ফ্রেম হয়ে যায়।
এই ফ্রেমের স্থানিক রেজোলিউশনকে একটি স্থানিক সুপার রেজোলিউশন নেটওয়ার্ক (SSR) দ্বারা 1024 দ্বারা 1024 বলা হয় যা শেষ পর্যন্ত আমাদের তৈরি ভিডিওতে নিয়ে যায়।
এই ফ্রেমওয়ার্কে ব্যবহৃত বেস মডেলটি সাধারণত একটি ডিফিউশন মডেল যার ভিতরে একটি ইউ-নেট থাকে।
অন্যদিকে Lumiere-এর প্রস্তাবিত পাইপলাইন ফ্রেম না ফেলে একযোগে সমস্ত ফ্রেম প্রক্রিয়া করে। সমস্ত ফ্রেম প্রক্রিয়াকরণের কম্পিউটেশনাল খরচের সাথে মানিয়ে নিতে, বেস ডিফিউশন মডেলের আর্কিটেকচারটি স্থান-কাল ইউনেট আর্কিটেকচার বা STUNet-এর সাথে আসতে পরিবর্তন করা হয়েছে।
যেহেতু STUNet সমস্ত ইনপুট ফ্রেমের সাথে কাজ করে, তাই টেম্পোরাল সুপার রেজোলিউশন বা TSR-এর প্রয়োজনীয়তা বাদ দেওয়া হয়। সুতরাং, পাইপলাইনে এখনও স্থানিক সুপার-রেজোলিউশন বা SSR রয়েছে। কিন্তু অভিনবত্ব হল মাল্টিডিফিউশনের প্রবর্তন।
স্পেস-টাইম ইউ-নেট দেখার আগে চলুন দ্রুত ইউ-নেট পর্যালোচনা করি। ইউ-নেটে ইনপুট হল প্রস্থ W, উচ্চতা H, এবং চ্যানেল RGB সহ একটি 3 3-মাত্রিক চিত্র। U-Net-এর প্রতিটি ডবল কনভল্যুশন স্টেজের পরে, আমরা বৈশিষ্ট্যগুলির স্থানিক মাত্রা কমাতে বা নমুনা কমাতে সর্বোচ্চ পুলিং প্রয়োগ করি। এই স্থানিক মাত্রা হ্রাস পদক্ষেপ লাল তীর দ্বারা নির্দেশিত হয়.
একইভাবে, ডিকোডার পর্যায়ে, রেজোলিউশনকে ইনপুটের আকারে ফিরিয়ে আনার বা আপ নমুনা করার জন্য আপ কনভোল্যুশন আছে।
যখন এটি ভিডিওর ক্ষেত্রে আসে, তখন আমাদের ইনপুটে একটি অতিরিক্ত মাত্রা থাকে যা সময়। তাই স্পেস-টাইম U-Net শুধুমাত্র স্থানিক মাত্রায় নয়, সময়ের T-এর মাত্রায়ও ভিডিওটিকে ডাউন-স্যাম্পল এবং আপ-স্যাম্পল করার প্রস্তাব দেয়। এটি হল টেম্পোরাল রিসাইজের মূল ধারণা এবং এই লুমিয়ের পেপারের প্রধান অবদান।
আকার পরিবর্তনের জন্য, তারা 2D পুলিংয়ের পরিবর্তে 3D পুলিং ব্যবহার করে কারণ ইনপুটে এখন একটি অতিরিক্ত মাত্রা রয়েছে।
আমার মত, আপনি ধারণার সরলতা দ্বারা বিস্মিত হতে পারে. লেখক নিজেই কাগজে উল্লেখ করেছেন:
আশ্চর্যজনকভাবে, এই নকশা পছন্দটি পূর্ববর্তী T2V মডেলগুলি দ্বারা উপেক্ষা করা হয়েছে, যা স্থাপত্যে শুধুমাত্র স্থানিক ডাউন এবং আপ-স্যাম্পলিং ক্রিয়াকলাপগুলিকে অন্তর্ভুক্ত করতে এবং নেটওয়ার্ক জুড়ে একটি নির্দিষ্ট অস্থায়ী রেজোলিউশন বজায় রাখার জন্য কনভেনশন অনুসরণ করে।
আসুন বাস্তবায়নের কিছু সূক্ষ্মতা নিয়ে আসি। তারা ভিডিও ডিফিউশন মডেল নামে এই কাগজে প্রবর্তিত ফ্যাক্টরাইজড কনভল্যুশন ব্যবহার করে। ধারণাটি হল প্রতিটি 2D কনভোলিউশনকে একটি স্পেস-অনলি 3D কনভোলিউশনে পরিবর্তন করা, উদাহরণস্বরূপ, প্রতিটি 3x3 কনভোলিউশনকে 1x3x3 কনভোলিউশনে পরিবর্তন করে।
মনোযোগের জন্য, প্রতিটি স্থানিক মনোযোগ ব্লকের পরে, আমরা একটি অস্থায়ী মনোযোগ ব্লক সন্নিবেশ করি যা প্রথম অক্ষের উপর মনোযোগ সঞ্চালন করে এবং স্থানিক অক্ষগুলিকে ব্যাচ অক্ষ হিসাবে বিবেচনা করে।
এই দুটি পরিবর্তনের সাথে, ফ্যাক্টরাইজড কনভোলিউশন ব্লকগুলি প্রাক-প্রশিক্ষিত মডেলে যোগ করা হয়, এবং শুধুমাত্র অতিরিক্ত স্তরগুলিকে প্রাক-প্রশিক্ষিত স্তরের ওজন স্থির করে প্রশিক্ষিত করা হয়।
কাগজটির দ্বিতীয় অভিনবত্ব হল স্থানিক সুপার রেজোলিউশনের সময় প্রবর্তিত মাল্টিডিফিউশন। আপনি যদি লুমিরের আগে ভিডিও জেনারেশন মডেলগুলি নেন, স্থানিক সুপার রেজোলিউশন মডেলটি ফ্রেমের একটি ক্রম নেয়।
যাইহোক, সিকোয়েন্স ওভারল্যাপিং ছিল না. উদাহরণস্বরূপ, SSR মডিউল দ্বারা ইনপুট হিসাবে নেওয়া প্রথম 8টি ফ্রেম এবং পরবর্তী 8টি ফ্রেম কোনো ওভারল্যাপ ছাড়াই আলাদা।
কিন্তু যখন লুমিয়েরের কথা আসে, প্রথম 8টি ফ্রেমে এবং দ্বিতীয় 8টি ফ্রেমে দুটি ফ্রেমের ওভারল্যাপ থাকে৷ এটি করার মাধ্যমে, স্থানিক সুপার-রেজোলিউশন মডেলটি টেম্পোরাল সেগমেন্টগুলির মধ্যে মসৃণ রূপান্তর অর্জন করে বলে মনে হচ্ছে। এটিকে কাগজে মাল্টিডিফিউশন হিসাবে উল্লেখ করা হয়েছে।
একটি ক্যাসকেডেড ডিফিউশন মডেল আর্কিটেকচারের অনুপস্থিতির সাথে দুটি প্রস্তাবিত কৌশলকে একত্রিত করা যা পূর্ববর্তী আর্কিটেকচার যেমন ইমেজ ভিডিওতে প্রচলিত, বেশ কয়েকটি বৈচিত্র্যময় অ্যাপ্লিকেশনের দিকে নিয়ে যায়।
উদাহরণ স্বরূপ:
মডেলটিকে পরিমাণগতভাবে মূল্যায়ন করার জন্য, মডেলটি একটি ব্যবহারকারী অধ্যয়নের মাধ্যমে চালিত হয়েছিল যেখানে ব্যবহারকারীরা প্রস্তাবিত মডেলের ফলাফলগুলিকে কিছু অত্যাধুনিক মডেল যেমন পিকা, জিরোস্কোপ, বা স্থিতিশীল ভিডিও বিস্তারের সাথে তুলনা করেছেন। ফলাফলগুলি ইঙ্গিত দেয় যে ব্যবহারকারীরা ভিডিও থেকে পাঠ্য এবং ভিডিও থেকে চিত্র উভয় ক্ষেত্রেই লুমিয়ের মডেলটিকে পছন্দ করেছেন।
সুতরাং, উপসংহারে, সমস্ত প্রচারমূলক ভিডিও স্টান্টগুলি ছাড়া, যেমন হাস্যোজ্জ্বল মোনালিসা, এই কাগজের অবদান মোটামুটি সহজ। এক লাইনে রাখুন, কাগজটি টেম্পোরাল চ্যানেলের একটি ডাউনস্যাম্পলিং প্রবর্তন করে।
এটি মাল্টিডিফিউশনের সাথে মিলিত, যা সুপার রেজোলিউশন মডেলে ওভারল্যাপ করা ফ্রেমগুলি ছাড়া কিছুই নয়, উচ্চ-বিশ্বস্ত ভিডিও তৈরি করে যা সাময়িকভাবে সামঞ্জস্যপূর্ণ।
আমি যা দেখতে পছন্দ করতাম তা হল কাগজে কিছু বিবর্ধন অধ্যয়ন যা মাল্টিডিফিউশন প্রক্রিয়া সহ এবং ছাড়া ফলাফলগুলি দেখায়।
এটি আমাদের এই নিবন্ধের শেষে নিয়ে আসে। পরের বার যখন কেউ আপনার সাথে Lumiere সম্পর্কে কথা বলবে, আপনি জানেন এক লাইনে কী বলতে হবে। আমি আশা করি যে Lumiere মডেলের কিছু অন্তর্দৃষ্টি প্রদান করেছে।
আমার পরবর্তীতে দেখা হবে, ততক্ষণ পর্যন্ত, যত্ন নিও...
[১] ওমের বার-তাল, হিলা শেফার, ওমের তোভ, চার্লস হারম্যান, রনি পাইস, শিরান জাদা, এরিয়েল এফ্রাত, জুনহওয়া হুর, ইউয়ানজেন লি, তোমার মাইকেলি, অলিভার ওয়াং, ডেকিং সান, তালি ডেকেল, ইনবার মোসেরি,
[২] আন্দ্রেয়াস ব্ল্যাটম্যান, টিম ডকহর্ন, সুমিথ কুলাল, ড্যানিয়েল মেন্ডেলেভিচ, ম্যাকিয়েজ কিলিয়ান, ডমিনিক লরেঞ্জ, ইয়াম লেভি, জিয়ন ইংলিশ, বিক্রম ভোলেটি, অ্যাডাম লেটস, বরুণ জাম্পানি, রবিন রমবাচ,
[৩] ওলাফ রনেবার্গার, ফিলিপ ফিশার এবং টমাস ব্রক্স,
এছাড়াও এখানে প্রকাশিত