এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) জিওয়ান চুং, এমআইআর ল্যাব ইয়নসেই বিশ্ববিদ্যালয় ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR ল্যাব Yonsei University ( https://jiwanchung.github.io/ )।
সমস্ত পরীক্ষার জন্য, আমরা ব্যাকবোন ভাষা মডেল হিসাবে GPT-3 [1] (টেক্সট-ডেভিন্সি-003) ব্যবহার করি। অন্যথায় বলা না থাকলে, আমরা ভিডিওগুলিকে ভাগ করতে গ্রাউন্ড ট্রুথ ক্লিপ বাউন্ডারি ব্যবহার করি। সমস্ত LSS ভেরিয়েন্ট কোনো প্রশিক্ষণ ডেটা ব্যবহার করে না এবং এইভাবে শূন্য-শট পদ্ধতি।
মুভিকিউএ [২৭] একটি বড় আকারের QA ডেটাসেট যা 408টি চলচ্চিত্র থেকে পাওয়া যায়। ডেটাসেটে তথ্যের একাধিক উৎস রয়েছে; সাবটাইটেল, স্ক্রিপ্ট, ডিভিএস, ভিডিও ক্লিপ এবং প্লট। আমরা চারটি অত্যাধুনিক তত্ত্বাবধানে বেসলাইন রিপোর্ট করি; A2A [20], PAMN [11], UniversalQA [10], এবং DHTCN [২১]।
সারণী 1 দেখায় যে শূন্য-শট LSS পূর্ববর্তী তত্ত্বাবধানে থাকা পদ্ধতির তুলনায় উন্নতি করেছে। এছাড়াও, আমাদের-সার্চ গ্রাউন্ড-ট্রুথ সেগমেন্ট সূচক লেবেল ছাড়াই শক্তিশালী কার্যক্ষমতা দেখায়। CLIPCচেক ভিডিও বিভাজনে নির্ভুলতাকে কিছুটা উন্নত করে। যাইহোক, পার্থক্যটি প্রান্তিক কারণ মুভিকিউএ-তে প্রায়শই সাধারণ ভিজ্যুয়াল মিলের পরিবর্তে চরিত্র-ভিত্তিক গ্রাউন্ডিং প্রয়োজন হয়। পরিশেষে, আমরা নাল হাইপোথিসিস নিয়ে পরীক্ষা করি: GPT-3 প্রতিটি সত্য মুখস্থ করে মুভিকিউএ সমাধান করে কিনা তা পরীক্ষা করে না। কোনো প্রসঙ্গ LSS এর চেয়ে খারাপ কাজ করে না, নাল হাইপোথিসিস প্রত্যাখ্যান করে।
পোরোরোকিউএ [১৩] একটি কার্টুন সিরিজ থেকে নির্মিত একটি ভিডিও স্টোরি QA ডেটাসেট। তত্ত্বাবধানে থাকা বেসলাইনটি মানব-উত্পাদিত প্লট এবং গ্রাউন্ড ট্রুথ ভিডিও সেগমেন্ট সূচক নেয়, যেখানে LSS +প্লট + অনুসন্ধান কোনটিই নেয় না।
সারণী 2 পোরোরোকিউএ ডেটাসেটে আমাদের ফলাফলের সংক্ষিপ্ত বিবরণ দেয়। গ্রাউন্ড-ট্রুথ এপিসোড এবং প্লট উভয়ই ব্যবহার করার সময়, GPT-3 তত্ত্বাবধানে থাকা বেসলাইনের সাথে প্রায় সমানে পারফর্ম করে। একটি মডেল-উত্পাদিত সারাংশের সাথে একটি মানব-উত্পাদিত সারাংশ প্রতিস্থাপনের ফলাফল শুধুমাত্র একটি প্রান্তিক কর্মক্ষমতা হ্রাস পায়। সম্ভবত আকর্ষণীয়ভাবে, মডেল-উত্পন্ন প্লট ব্যবহার করার সময় অনুসন্ধান প্রক্রিয়া আরও ভাল কাজ করে। আমরা এই ফলাফলটিকে দায়ী করি যে মানুষের টীকাগুলি পর্বের বৈষম্যের জন্য ডিজাইন করা হয়নি৷
DramaQA [3] হল ভিডিও QA ডেটাসেট যা গল্প বোঝার উপর ফোকাস করে। ডেটাসেটটি চারটি স্তরের শ্রেণীবদ্ধ অসুবিধা দিয়ে সাজানো হয়েছে, যা মানুষের জ্ঞানীয় বিকাশের পর্যায়গুলি অনুসরণ করে। আমরা প্লট বোঝার পরীক্ষা করার জন্য DramaQA-এর দুটি উচ্চ স্তরে LSS মূল্যায়ন করি। আমরা লেভেল-ভিত্তিক DramaQA-তে দুটি সর্বশেষ বেসলাইন রিপোর্ট করি; ক্যারেক্টার অ্যাটেনশন এবং কিম এট আল। [১৪]।
আমরা CLIPCচেক এবং ক্যাপশনের প্রভাব তুলনা করি, একটি প্রম্পট-ভিত্তিক পদ্ধতি যা BLIP [18] থেকে GPT-3-তে ইনপুট হিসাবে নেওয়া ইমেজ ফ্রেমের বর্ণনা অন্তর্ভুক্ত করে। সারণি 3 দেখায় যে CLIPCcheck চিত্রের বর্ণনার চেয়ে বেশি উন্নতির প্রস্তাব দেয়। এছাড়াও, ছবির ক্যাপশন যোগ করার সময় LSS উন্নত হয়, CLIPCcheck-এর সাথে যৌথভাবে ব্যবহার করলে লাভ অদৃশ্য হয়ে যায়। আমরা সন্দেহ করি যে এর কারণ হল ফ্রেম ক্যাপশনগুলি অনেক বেশি শোরগোল করার সময় CLIPCচেকের অনুরূপ তথ্য প্রদান করে৷ মনে রাখবেন যে এখানে স্বয়ংক্রিয় ক্যাপশনগুলি LSS এর একটি অবিচ্ছেদ্য উপাদান নয়৷ যেহেতু DramaQA ইতিমধ্যেই ভিজুয়ালি গ্রাউন্ডেড টীকা করেছে, তার উপরে স্বয়ংক্রিয় চিত্র ক্যাপশন যুক্ত করা অগত্যা মডেলের কার্যকারিতা উন্নত করবে না। বরং, আমরা ক্যাপশন ব্যবহার করি সুস্পষ্টভাবে প্রারম্ভিক বনাম দেরী ভিজ্যুয়াল অ্যালাইনমেন্ট পদ্ধতির তুলনা করতে।
অবশেষে, আমরা ভিজ্যুয়াল প্রসঙ্গ বোঝার পরিবর্তে CLIPCcheck ডেটাসেটের পক্ষপাতকে কাজে লাগায় কিনা তা পরীক্ষা করি। এই লক্ষ্যে, আমরা র্যান্ডম ভিজ্যুয়াল কনটেক্সট (CLIPC-Shuffle) সহ CLIPCcheck এর একটি রূপ তৈরি করি। CLIPCcheck-Shuffle কোনো CLIPCcheck ছাড়া LSS-এ উন্নতি করে না, পক্ষপাতের অনুমান অস্বীকার করে।
সংক্ষিপ্তকরণ এবং অনুসন্ধান উভয়ই কি আখ্যান বোঝার জন্য গুরুত্বপূর্ণ? এখানে, আমরা ন্যারেটিভ সার্চ (এলএসএস-ফুল) বা ইনপুট হিসাবে প্লট সারাংশ এবং র্যান্ডম সেগমেন্ট (এলএসএস-র্যান্ডম) ছাড়াই সম্পূর্ণ প্রসঙ্গের সাথে LSS রূপগুলি মূল্যায়ন করি। সারণি 4 দেখায় যে LSS-Full এবং LSS-Random উভয়ই LSS-Search-এর পিছনে পড়ে, যা পুনরুদ্ধারের গুরুত্ব নির্দেশ করে। মনে রাখবেন যে টোকেন দৈর্ঘ্যের সীমাবদ্ধতার কারণে আমরা LSS-Full-এ সম্পূর্ণ প্রসঙ্গ ব্যবহার করতে পারিনি। পরিবর্তে, আমরা GPT3 গৃহীত সম্পূর্ণ প্রেক্ষাপটের দীর্ঘতম উপসর্গ ব্যবহার করি (নির্দেশের দৈর্ঘ্য বিয়োগ করে 4000 টোকেন)।
চিত্র 3 LSS ফ্রেমওয়ার্কের ভাষা মডেল ব্যবহার করে দীর্ঘ ভিডিও QA-এর মধ্যবর্তী প্রসঙ্গ হিসাবে তৈরি হওয়া স্বয়ংক্রিয় প্লট সারাংশ দেখায়। গুণগত নমুনায় যেমন দেখানো হয়েছে, উত্পন্ন প্লটগুলি উইকিপিডিয়া থেকে মানব-লিখিত প্লটের সাথে ভালভাবে সারিবদ্ধ। উদাহরণস্বরূপ, "হ্যারি পটার অ্যান্ড দ্য ডেথলি হ্যালোস" সিনেমার প্রথম দৃশ্যে এলএসএস সারাংশ সঠিকভাবে লিখেছেন যে হ্যারি পটার বর্তমানে 17 বছর বয়সী এবং মূল ঘটনা যেখানে মৃত্যু ভক্ষকরা নায়ককে আক্রমণ করে।
চিত্র 4 অনুসন্ধান করা প্লট অংশ এবং উত্তর সম্ভাবনার মধ্যে সংযোগ চিত্রিত করে। বাম দিকের উদাহরণে, পুনরুদ্ধার করা সারাংশ বলে যে ট্রেঞ্চ একটি অপরাধ করেছে এবং এইভাবে পলাতক রয়েছে, পরামর্শ দেয় যে তার প্রতি আগ্রহী অন্য চরিত্র তাকে তাড়া করবে। ভাষা মডেল সঠিক উপায়ে উত্তর সম্ভাবনা সংশোধন করতে এই প্রসঙ্গ বুঝতে পারে। সঠিক উদাহরণে, এলএসএস প্লট টুকরা পরামর্শ দেয় যে এডওয়ার্ড তার সিদ্ধান্তে আত্মবিশ্বাসী। যদিও এই প্রেক্ষাপটটি প্রশ্নটির সরাসরি সংকেত দেয় না, ভাষা মডেল এটিকে উত্তর পরিবর্তন করার জন্য যথেষ্ট শক্তিশালী তথ্য হিসাবে দেখে।