এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) জিওয়ান চুং, এমআইআর ল্যাব ইয়নসেই বিশ্ববিদ্যালয় ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR ল্যাব Yonsei University ( https://jiwanchung.github.io/ )।
সংক্ষিপ্ত বিবরণ এবং প্রশ্নের প্রেক্ষিতে, আমরা দীর্ঘ ভিডিও থেকে প্রশ্নের সাথে প্রাসঙ্গিক অপেক্ষাকৃত ছোট ক্লিপটি পুনরুদ্ধার করতে চাই। ভাষার মডেলগুলি ওপেন-এন্ডেড পাঠ্য তৈরি করে যা অনিয়মিত এবং প্রায়শই শোরগোল করে। ভিডিওর সঠিক অংশ পুনরুদ্ধার করতে, আমরা টেক্সট ফর্মের পরিবর্তে মডেলটিকে প্লটের আউটপুট সূচকে চালাই।
উত্পন্ন সূচকগুলি ভাষা মডেলগুলির উন্মুক্ত প্রকৃতির কারণে এখনও গোলমাল হতে পারে। যখন মডেলটি টেক্সট আকারে একটি উত্তর আউটপুট করে, তখন আমরা প্লট পিস প্রার্থীদের খুঁজে বের করতে রুজ-এল [19] স্কোর ব্যবহার করি যার উত্পন্ন বাক্যের সাথে সাদৃশ্য নির্দিষ্ট থ্রেশহোল্ড α ≥ 0.5 এর উপরে।