यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
लेखक:
(1) जीवन चुंग, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ );
(2) यंगजई यू, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ )।
सभी प्रयोगों के लिए, हम GPT-3 [1] (text-davinci-003) को बैकबोन भाषा मॉडल के रूप में उपयोग करते हैं। जब तक अन्यथा न कहा जाए, हम वीडियो को विभाजित करने के लिए ग्राउंड ट्रुथ क्लिप सीमा का उपयोग करते हैं। सभी LSS वेरिएंट किसी भी प्रशिक्षण डेटा का उपयोग नहीं करते हैं और इस प्रकार शून्य-शॉट विधियाँ हैं।
मूवीक्यूए [27] 408 फिल्मों से प्राप्त एक बड़े पैमाने का क्यूए डेटासेट है। डेटासेट में सूचना के कई स्रोत हैं; उपशीर्षक, स्क्रिप्ट, डीवीएस, वीडियो क्लिप और प्लॉट। हम चार अत्याधुनिक पर्यवेक्षित बेसलाइन की रिपोर्ट करते हैं; A2A [20], PAMN [11], यूनिवर्सलक्यूए [10], और DHTCN [21]।
तालिका 1 दिखाती है कि पिछले पर्यवेक्षित दृष्टिकोणों की तुलना में जीरो-शॉट LSS में सुधार हुआ है। साथ ही, ग्राउंड-ट्रुथ सेगमेंट इंडेक्स लेबल के बिना भी ऑवर-सर्च मजबूत प्रदर्शन दिखाता है। CLIPCheck वीडियो स्प्लिट में सटीकता को थोड़ा बेहतर बनाता है। हालाँकि, अंतर मामूली है क्योंकि MovieQA को अक्सर सामान्य दृश्य मिलान के बजाय चरित्र-आधारित ग्राउंडिंग की आवश्यकता होती है। अंत में, हम शून्य परिकल्पना के साथ प्रयोग करते हैं: कोई संदर्भ नहीं परीक्षण करता है कि क्या GPT-3 हर तथ्य को याद करके MovieQA को हल करता है। कोई संदर्भ नहीं LSS से भी खराब प्रदर्शन करता है, शून्य परिकल्पना को खारिज करता है।
पोरोरोक्यूए [13] एक कार्टून श्रृंखला से निर्मित एक वीडियो स्टोरी क्यूए डेटासेट है। पर्यवेक्षित बेसलाइन मानव-जनित प्लॉट और ग्राउंड ट्रुथ वीडियो सेगमेंट इंडेक्स लेती है, जबकि एलएसएस + प्लॉट + सर्च दोनों में से कोई भी नहीं लेता है।
तालिका 2 पोरोरोक्यूए डेटासेट पर हमारे परिणाम का सारांश प्रस्तुत करती है। ग्राउंड-ट्रुथ एपिसोड और प्लॉट दोनों का उपयोग करते समय, GPT-3 सुपरवाइज्ड बेसलाइन के लगभग बराबर प्रदर्शन करता है। मानव-जनित सारांश को मॉडल-जनित सारांश से प्रतिस्थापित करने पर केवल मामूली प्रदर्शन में गिरावट आती है। शायद दिलचस्प बात यह है कि मॉडल-जनित प्लॉट का उपयोग करते समय खोज प्रक्रिया बेहतर काम करती है। हम इस परिणाम का श्रेय इस तथ्य को देते हैं कि मानव एनोटेशन एपिसोड भेदभाव के लिए डिज़ाइन नहीं किए गए हैं।
ड्रामाक्यूए [3] वीडियो क्यूए डेटासेट है जो कहानी की समझ पर केंद्रित है। डेटासेट को पदानुक्रमित कठिनाई के चार स्तरों के साथ व्यवस्थित किया गया है, जो मानव संज्ञानात्मक विकासात्मक चरणों का पालन करते हैं। हम प्लॉट समझ का परीक्षण करने के लिए ड्रामाक्यूए के दो उच्च स्तरों पर एलएसएस का मूल्यांकन करते हैं। हम स्तर-वार ड्रामाक्यूए में दो नवीनतम बेसलाइन की रिपोर्ट करते हैं; कैरेक्टरअटेंशन और किम एट अल। [14]।
हम CLIPCheck और Caption के प्रभाव की तुलना करते हैं, जो BLIP [18] से निकाले गए इमेज फ्रेम विवरणों को GPT-3 में इनपुट के रूप में शामिल करने की एक प्रॉम्प्ट-आधारित विधि है। तालिका 3 से पता चलता है कि CLIPCheck इमेज विवरणों की तुलना में अधिक सुधार प्रदान करता है। साथ ही, इमेज कैप्शन जोड़ने से LSS में सुधार होता है, लेकिन CLIPCheck के साथ संयुक्त रूप से उपयोग करने पर लाभ गायब हो जाता है। हमें संदेह है कि ऐसा इसलिए है क्योंकि फ्रेम कैप्शन CLIPCheck के समान जानकारी प्रदान करते हैं, जबकि बहुत अधिक शोर करते हैं। ध्यान दें कि यहां स्वचालित कैप्शन LSS का अभिन्न अंग नहीं हैं। चूंकि DramaQA में पहले से ही दृश्यमान रूप से आधारित एनोटेशन हैं, इसलिए उसके शीर्ष पर स्वचालित इमेज कैप्शन जोड़ने से मॉडल का प्रदर्शन बेहतर नहीं होगा।
अंत में, हम जाँचते हैं कि क्या CLIPCheck दृश्य संदर्भ को समझने के बजाय डेटासेट पूर्वाग्रह का फायदा उठाता है। इस उद्देश्य के लिए, हम यादृच्छिक दृश्य संदर्भ (CLIPCheck-Shuffle) के साथ CLIPCheck का एक प्रकार तैयार करते हैं। CLIPCheck-Shuffle बिना CLIPCheck के LSS पर बेहतर नहीं होता है, जो पूर्वाग्रह की परिकल्पना को नकारता है।
क्या कथात्मक समझ के लिए सारांश और खोज दोनों ही महत्वपूर्ण हैं? यहाँ, हम कथात्मक खोज के बिना पूर्ण संदर्भ के साथ LSS वेरिएंट का मूल्यांकन करते हैं (LSS-Ful) या इनपुट के रूप में प्लॉट सारांश और यादृच्छिक खंड के साथ (LSS-Random)। तालिका 4 से पता चलता है कि LSS-Ful और LSS-Random दोनों ही LSS-Search से पीछे हैं, जो पुनर्प्राप्ति के महत्व को दर्शाता है। ध्यान दें कि टोकन लंबाई सीमा के कारण हम LSS-Ful में पूर्ण संदर्भ का उपयोग नहीं कर सके। इसके बजाय, हम पूर्ण संदर्भ के सबसे लंबे उपसर्ग का उपयोग करते हैं जिसे GPT3 स्वीकार करता है (निर्देश की लंबाई घटाकर 4000 टोकन)।
चित्र 3 में LSS फ्रेमवर्क में भाषा मॉडल का उपयोग करके लंबे वीडियो QA के मध्यवर्ती संदर्भ के रूप में उत्पन्न स्वचालित प्लॉट सारांश दिखाया गया है। जैसा कि गुणात्मक नमूने में दिखाया गया है, उत्पन्न प्लॉट विकिपीडिया से मानव-लिखित प्लॉट के साथ अच्छी तरह से संरेखित होते हैं। उदाहरण के लिए, फिल्म "हैरी पॉटर एंड द डेथली हैलोज़" के पहले दृश्य में, LSS सारांश सही ढंग से लिखता है कि हैरी पॉटर वर्तमान में 17 वर्ष का है और मुख्य घटना जिसमें डेथ ईटर नायक पर हमला करते हैं।
चित्र 4 खोजे गए प्लॉट पीस और उत्तर संभावना के बीच संबंध को दर्शाता है। बाईं ओर के उदाहरण में, प्राप्त सारांश बताता है कि ट्रेंच ने एक अपराध किया है और इसलिए भाग रहा है, यह सुझाव देता है कि उसमें रुचि रखने वाला कोई अन्य चरित्र उसका पीछा कर रहा होगा। भाषा मॉडल उत्तर संभावना को सही तरीके से संशोधित करने के लिए इस संदर्भ को समझता है। सही उदाहरण में, LSS प्लॉट पीस बताता है कि एडवर्ड अपने निर्णय में आश्वस्त है। जबकि यह संदर्भ प्रश्न के लिए कोई सीधा संकेत नहीं देता है, भाषा मॉडल इसे उत्तर को बदलने के लिए पर्याप्त मजबूत जानकारी के रूप में देखता है।