paint-brush
দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: পদ্ধতিদ্বারা@kinetograph
107 পড়া

দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: পদ্ধতি

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা GPT-3 ব্যবহার করে শূন্য-শট ভিডিও QA অন্বেষণ করেন, তত্ত্বাবধানে মডেলগুলিকে ছাড়িয়ে যান, বর্ণনামূলক সারাংশ এবং ভিজ্যুয়াল ম্যাচিং ব্যবহার করেন।
featured image - দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: পদ্ধতি
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।

লেখক:

(1) জিওয়ান চুং, এমআইআর ল্যাব ইয়নসেই বিশ্ববিদ্যালয় ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR ল্যাব Yonsei University ( https://jiwanchung.github.io/ )।

লিঙ্কের টেবিল

2. পদ্ধতি


চিত্র 2: আমাদের প্রস্তাবিত লং স্টোরি শর্ট (LSS) মডেল দেখানো গুণগত ফলাফল যা কাঁচা ভিডিও ফুটেজের সূচক তৈরি করে এবং পুনরুদ্ধার করে। মডেলটি যখন (i) জেনারেট করা সারাংশ এবং (ii) পুনরুদ্ধার করা পাঠ্য প্রসঙ্গ থেকে চূড়ান্ত উত্তরের পূর্বাভাস দেয়, তখন CLIPCcheck প্রতিটি প্রার্থীর উত্তর যাচাই করে প্রশ্নের চূড়ান্ত উত্তর সংশোধন করতে।

2.1। প্লট জেনারেশন

2.2। আখ্যান অনুসন্ধান

সংক্ষিপ্ত বিবরণ এবং প্রশ্নের প্রেক্ষিতে, আমরা দীর্ঘ ভিডিও থেকে প্রশ্নের সাথে প্রাসঙ্গিক অপেক্ষাকৃত ছোট ক্লিপটি পুনরুদ্ধার করতে চাই। ভাষার মডেলগুলি ওপেন-এন্ডেড পাঠ্য তৈরি করে যা অনিয়মিত এবং প্রায়শই শোরগোল করে। ভিডিওর সঠিক অংশ পুনরুদ্ধার করতে, আমরা টেক্সট ফর্মের পরিবর্তে মডেলটিকে প্লটের আউটপুট সূচকে চালাই।



উত্পন্ন সূচকগুলি ভাষা মডেলগুলির উন্মুক্ত প্রকৃতির কারণে এখনও গোলমাল হতে পারে। যখন মডেলটি টেক্সট আকারে একটি উত্তর আউটপুট করে, তখন আমরা প্লট পিস প্রার্থীদের খুঁজে বের করতে রুজ-এল [19] স্কোর ব্যবহার করি যার উত্পন্ন বাক্যের সাথে সাদৃশ্য নির্দিষ্ট থ্রেশহোল্ড α ≥ 0.5 এর উপরে।


2.3। ভিজ্যুয়াল চেকিং