এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) জিওয়ান চুং, এমআইআর ল্যাব ইয়নসেই বিশ্ববিদ্যালয় ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR ল্যাব Yonsei University ( https://jiwanchung.github.io/ )।
GPT-3-এর মতো বড় ভাষার মডেলগুলি টাস্ক-নির্দিষ্ট প্রশিক্ষণ ডেটার প্রয়োজন ছাড়াই নতুন কাজের সাথে খাপ খাইয়ে নেওয়ার একটি চিত্তাকর্ষক ক্ষমতা প্রদর্শন করেছে। বর্ণনামূলক প্রশ্নের উত্তর দেওয়ার মতো সেটিংসে এই ক্ষমতা বিশেষভাবে কার্যকর হয়েছে, যেখানে কাজের বৈচিত্র্য অপরিসীম, কিন্তু উপলব্ধ তত্ত্বাবধানের ডেটা ছোট। এই কাজটিতে, আমরা তদন্ত করি যে এই ধরনের ভাষার মডেলগুলি নাটক, চলচ্চিত্র এবং অ্যানিমেশনের মতো মাল্টিমিডিয়া বিষয়বস্তুতে দীর্ঘ মাল্টিমোডাল বর্ণনায় তাদের শূন্য-শট যুক্তির ক্ষমতা প্রসারিত করতে পারে, যেখানে গল্পটি একটি অপরিহার্য ভূমিকা পালন করে। আমরা লং স্টোরি শর্ট প্রস্তাব করি, বর্ণনামূলক ভিডিও QA-এর জন্য একটি কাঠামো যা প্রথমে একটি ছোট প্লটে ভিডিওটির বর্ণনাকে সংক্ষিপ্ত করে এবং তারপর প্রশ্নের সাথে প্রাসঙ্গিক ভিডিওর অংশগুলি অনুসন্ধান করে৷ আমরা CLIPCheck-এর সাথে ভিজ্যুয়াল ম্যাচিং বাড়ানোরও প্রস্তাব করছি। আমাদের মডেল অত্যাধুনিক তত্ত্বাবধানে থাকা মডেলগুলিকে বড় ব্যবধানে ছাড়িয়ে যায়, দীর্ঘ ভিডিওগুলির জন্য শূন্য-শট QA-এর সম্ভাবনাকে হাইলাইট করে৷
সাম্প্রতিক ভিডিও QA মডেলগুলি ডেটা এবং টীকাগুলির সীমাবদ্ধতার কারণে দীর্ঘ ভিডিও বর্ণনামূলক QA কাজগুলি [2, 13, 27] (অর্থাৎ, চলচ্চিত্র, নাটক এবং YouTube ওয়েব ভিডিও) পরিচালনা করতে চ্যালেঞ্জের মুখোমুখি হয়। এর ফলে সংক্ষিপ্ত ভিডিও ক্লিপ [16, 17, 30]-এ প্রধানত ভিজ্যুয়াল প্রশ্নের উত্তর দেওয়ার বাইরে দীর্ঘ ভিডিও বর্ণনাগুলি বোঝার অক্ষমতা হয়। এই ধরনের দীর্ঘ ভিডিও QA-এর মাপগুলি একটি ভিডিওর মধ্যে জটিল বর্ণনামূলক কাঠামো সম্পূর্ণরূপে বোঝার জন্য মডেলদের প্রশিক্ষণের জন্য অপর্যাপ্ত, উপ-অনুকূল পারফরম্যান্স প্রদান করে। [১০] দেখান যে তত্ত্বাবধানে থাকা মডেলগুলি বর্ণনামূলক প্রসঙ্গের চেয়ে প্রশ্নে ভাষার পক্ষপাতের উপর বেশি নির্ভর করে: তারা কোনো ভিডিও প্রসঙ্গ না দেখেও একই ধরনের কর্মক্ষমতা পেতে পারে। এটি ছোট টাস্ক-নির্দিষ্ট তত্ত্বাবধানের বাইরে মাল্টিমডাল যুক্তি ক্ষমতার প্রয়োজনীয়তা তুলে ধরে।
কম সাধারণীকরণের কারণে সৃষ্ট চ্যালেঞ্জ মোকাবেলা করার জন্য, একটি শূন্য-শট পদ্ধতি ব্যবহার করে প্রি-ট্রেইনড লার্জ ল্যাঙ্গুয়েজ মডেল (এলএলএম) জটিল QA কাজগুলি মোকাবেলা করার জন্য একটি দক্ষ বিকল্প হতে পারে [32], এবং পাঠ্য প্রসঙ্গে সংক্ষিপ্তকরণ [8, 37]। তবুও, এই ধরনের LLM-এর বর্ণনামূলক QA ক্ষমতা কি ভিডিও ডোমেনে স্থানান্তরযোগ্য?
আমরা লং স্টোরি শর্ট (এলএসএস) প্রস্তাব করছি, চিত্র 1-এ চিত্রিত, যা ভিডিও ক্লিপগুলিকে সক্রেটিক মডেল [৩৫] দ্বারা অনুপ্রাণিত পাঠ্য চিত্রনাট্য বিন্যাসে অনুবাদ করে। GPT-3 [1] ব্যবহার করে, আমরা প্রথমে প্লটের একটি তালিকায় দীর্ঘ ভিডিওটির সংক্ষিপ্তসার করি এবং তারপরে প্রদত্ত প্রশ্নের সমাধান করার জন্য জেনারেট করা সারাংশ এবং কাঁচা ভিডিও প্রসঙ্গ উভয়ই নেভিগেট করি। আমাদের জিরো-শট পদ্ধতি মুভিকিউএ এবং ড্রামাকিউএ ডেটাসেটে অত্যাধুনিক তত্ত্বাবধান করা পদ্ধতির চেয়ে ভাল ফলাফল দেখায়। তদ্ব্যতীত, আমরা CLIPCcheck প্রস্তাব করছি, একটি ভিজ্যুয়াল-টেক্সট ম্যাচিং পদ্ধতি যা GPT-3 দ্বারা প্রদত্ত যুক্তি ফলাফলের ভিজ্যুয়াল সারিবদ্ধতা উন্নত করতে। সংক্ষেপে বলতে গেলে, আমাদের প্রধান অবদান তিনগুণ:
আমরা LSS উপস্থাপন করি, একটি কাঠামো যা প্লটের একটি তালিকায় একটি দীর্ঘ ভিডিও বর্ণনার সারসংক্ষেপ করে এবং প্রশ্নের সাথে প্রাসঙ্গিক সাবপ্লট পুনরুদ্ধার করে।
আমরা ভিজ্যুয়াল প্রম্পটিং-এ CLIP-ভিত্তিক ম্যাচিংয়ের মাধ্যমে ভিজ্যুয়াল অ্যালাইনমেন্ট শক্তি বিবেচনা করার গুরুত্ব প্রদর্শন করি।
আমাদের জিরো-শট অ্যাপ্রোচ মুভিকিউএ [২৭] এবং ড্রামাকিউএ [২]-এ অত্যাধুনিক পারফরম্যান্স অর্জন করে, তত্ত্বাবধানে বেসলাইনকে ছাড়িয়ে যায়।