এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) জিওয়ান চুং, এমআইআর ল্যাব ইয়নসেই বিশ্ববিদ্যালয় ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR ল্যাব Yonsei University ( https://jiwanchung.github.io/ )।
আমরা লং স্টোরি শর্ট প্রবর্তন করেছি, একটি সারসংক্ষেপ-পরে অনুসন্ধান পদ্ধতি যা গ্লোবাল ন্যারেটিভ এবং ভিডিও ন্যারেটিভ QA-এর প্রাসঙ্গিক বিশদ উভয়ই বোঝার জন্য। আমাদের পদ্ধতি কার্যকর হয় যখন QA-এর প্রেক্ষাপট বিস্তৃত হয় এবং উল্লিখিত QA সমাধানের জন্য এই ধরনের প্রেক্ষাপটের সাথে একটি উচ্চ-স্তরের মিথস্ক্রিয়া প্রয়োজন, যা দীর্ঘ ভিডিও QA-এর ক্ষেত্রে হয়। এছাড়াও, আমরা CLIPCcheck-এর সাথে পোস্ট-চেকিং ভিজ্যুয়াল অ্যালাইনমেন্টের মাধ্যমে মডেল-উত্পন্ন উত্তরের ভিজ্যুয়াল গ্রাউন্ডিংকে আরও উন্নত করার প্রস্তাব করছি। আমাদের জিরো-শট পদ্ধতি মুভিকিউএ এবং ড্রামাকিউএ বেঞ্চমার্কগুলিতে তত্ত্বাবধানে অত্যাধুনিক পদ্ধতির উন্নতি করে। আমরা কোড এবং জেনারেট করা প্লট ডেটা জনসাধারণের কাছে প্রকাশ করার পরিকল্পনা করছি।
এই কাজের বাইরেও দুটি সম্ভাব্য গবেষণা নির্দেশনা রয়েছে: প্রথমত, চরিত্র পুনঃশনাক্তকরণ এবং সহ-রেফারেন্স রেজোলিউশন সহ গল্পের সাথে আরও ভালভাবে সারিবদ্ধ ভিজ্যুয়াল বর্ণনা প্রদান করে GPT-3-এ ইনপুট গুণমান উন্নত করে। দ্বিতীয়ত, কেউ একটি আরও গতিশীল মাল্টি-হপ অনুসন্ধান তৈরি করতে পারে যা একটি শ্রেণিবদ্ধ পদ্ধতিতে বিশ্বব্যাপী এবং স্থানীয় তথ্যকে একত্রিত করে।