এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) জিওয়ান চুং, এমআইআর ল্যাব ইয়নসেই বিশ্ববিদ্যালয় ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR ল্যাব Yonsei University ( https://jiwanchung.github.io/ )।
মুভি সংক্ষিপ্তকরণ মুভিগুলি হল স্পষ্ট বর্ণনামূলক কাঠামো সহ দীর্ঘ ভিডিওগুলির সাধারণ উদাহরণ। গোরিনস্কি এট আল। [৭] একটি চলচ্চিত্রের দৃশ্যের একটি সর্বোত্তম গ্রাফ চেইন খুঁজে বের করার কাজ হিসাবে একটি চিত্রনাট্যের সংক্ষিপ্ত সংস্করণ তৈরি করুন। TRIPOD [২৩] হল একটি স্ক্রিনপ্লে ডেটাসেট যাতে টার্নিং পয়েন্ট টীকা থাকে। একই কাজে, সিনেমার বর্ণনা থেকে টার্নিং পয়েন্ট চিহ্নিত করার জন্য একটি স্বয়ংক্রিয় মডেল প্রস্তাব করা হয়েছে। Papalampidi এট আল। [২৪] পরে টিভি সিরিজ সিএসআই ব্যবহার করে স্বয়ংক্রিয় মুভি সংক্ষিপ্তকরণে টার্নিং পয়েন্টের উপযোগিতা প্রদর্শন করে। লি এট আল। [১৫] সংলাপ বৈশিষ্ট্য এবং ট্রান্সফরমার আর্কিটেকচারের সাথে টার্নিং পয়েন্ট সনাক্তকরণকে আরও উন্নত করে।
দীর্ঘ ভিডিও QA ভিডিও প্রশ্নের উত্তর দেওয়ার কাজটি সাহিত্যে ওপেন-এন্ডেড QA [৯] এবং মাল্টি-চয়েস সমস্যা [২৮, ২৯] উভয় আকারে ব্যাপকভাবে অধ্যয়ন করা হয়েছে। RNN-ভিত্তিক মনোযোগ নেটওয়ার্ক [9, 30, 36, 38] থেকে শুরু করে মেমরি নেটওয়ার্ক [12, 22, 27] এবং ট্রান্সফরমার [4, 6] থেকে শুরু করে এই কাজটি মোকাবেলার জন্য বেশ কয়েকটি পদ্ধতির প্রস্তাব করা হয়েছে। সম্প্রতি, মাল্টিমোডাল মডেলগুলি বৃহৎ-স্কেল ভিডিও ডেটাসেটগুলিতে প্রাক-প্রশিক্ষিত (VideoQA [31], VIOLET [5], এবং MERLOT [33] এবং MERLOT-রিজার্ভ [34]) ভিডিও প্রশ্নের উত্তর দেওয়ার ক্ষেত্রেও আশাব্যঞ্জক কর্মক্ষমতা দেখায়৷
যাইহোক, দীর্ঘ ভিডিও QA এর গুরুত্ব থাকা সত্ত্বেও তুলনামূলকভাবে কম মনোযোগ পেয়েছে। মুভিকিউএ [২৭] সমগ্র সিনেমার জন্য QA তৈরি করে, যা সাধারণত দুই দীর্ঘ ঘণ্টার মধ্যে থাকে। ড্রামাকিউএ [৩] ভিজ্যুয়াল প্রসঙ্গ হিসাবে একটি একক টিভি সিরিজ ব্যবহার করে এবং এক থেকে বিশ মিনিটের দৈর্ঘ্যের ভিডিও ক্লিপগুলি বোঝার জন্য একটি সমাধানকারীকে কাজ করে।