यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
लेखक:
(1) जीवन चुंग, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ );
(2) यंगजई यू, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ )।
GPT-3 जैसे बड़े भाषा मॉडल ने कार्य-विशिष्ट प्रशिक्षण डेटा की आवश्यकता के बिना नए कार्यों के अनुकूल होने की एक प्रभावशाली क्षमता का प्रदर्शन किया है। यह क्षमता विशेष रूप से कथात्मक प्रश्न उत्तर जैसी सेटिंग्स में प्रभावी रही है, जहाँ कार्यों की विविधता बहुत अधिक है, लेकिन उपलब्ध पर्यवेक्षण डेटा छोटा है। इस कार्य में, हम जांच करते हैं कि क्या ऐसे भाषा मॉडल अपनी शून्य-शॉट तर्क क्षमताओं को नाटक, फ़िल्मों और एनीमेशन जैसी मल्टीमीडिया सामग्री में लंबी मल्टीमॉडल कथाओं तक बढ़ा सकते हैं, जहाँ कहानी एक आवश्यक भूमिका निभाती है। हम लॉन्ग स्टोरी शॉर्ट का प्रस्ताव करते हैं, जो कथात्मक वीडियो QA के लिए एक रूपरेखा है जो पहले वीडियो की कथा को एक छोटे कथानक में सारांशित करती है और फिर प्रश्न से संबंधित वीडियो के कुछ हिस्सों को खोजती है। हम CLIPCheck के साथ दृश्य मिलान को बढ़ाने का भी प्रस्ताव करते हैं। हमारा मॉडल अत्याधुनिक पर्यवेक्षित मॉडलों से बहुत बेहतर प्रदर्शन करता है, जो लंबे वीडियो के लिए शून्य-शॉट QA की क्षमता को उजागर करता है।
हाल के वीडियो QA मॉडल डेटा और एनोटेशन की सीमाओं के कारण लंबे वीडियो कथात्मक QA कार्यों [2, 13, 27] (यानी, फिल्में, नाटक और YouTube वेब वीडियो) को संभालने में चुनौतियों का सामना करते हैं। इसके परिणामस्वरूप छोटे वीडियो क्लिप [16, 17, 30] पर मुख्य रूप से दृश्य प्रश्नों के उत्तर देने से परे लंबे वीडियो कथाओं को समझने में असमर्थता होती है। ऐसे लंबे वीडियो QAs का आकार मॉडल को वीडियो के भीतर जटिल कथात्मक संरचनाओं को पूरी तरह से समझने के लिए प्रशिक्षित करने के लिए अपर्याप्त है, जिससे उप-इष्टतम प्रदर्शन प्राप्त होता है। [10] प्रदर्शित करता है कि पर्यवेक्षित मॉडल कथात्मक संदर्भ की तुलना में प्रश्न में भाषा के पूर्वाग्रहों पर अधिक निर्भर करते हैं: वे बिना कोई वीडियो संदर्भ देखे भी समान प्रदर्शन प्राप्त कर सकते हैं।
कम सामान्यीकरण के कारण होने वाली चुनौती का समाधान करने के लिए, प्रीट्रेन्ड लार्ज लैंग्वेज मॉडल (एलएलएम) का उपयोग करके शून्य-शॉट दृष्टिकोण जटिल क्यूए कार्यों से निपटने के लिए एक कुशल विकल्प हो सकता है [32], और पाठ संदर्भ सारांश [8, 37]। फिर भी, क्या ऐसे एलएलएम की कथात्मक क्यूए क्षमता वीडियो डोमेन में स्थानांतरित की जा सकती है?
हम लॉन्ग स्टोरी शॉर्ट (LSS) का प्रस्ताव करते हैं, जैसा कि चित्र 1 में दर्शाया गया है, जो वीडियो क्लिप को सुकराती मॉडल [35] से प्रेरित होकर टेक्स्ट स्क्रीनप्ले प्रारूप में अनुवादित करता है। GPT-3 [1] का उपयोग करते हुए, हम पहले लंबे वीडियो को प्लॉट की सूची में सारांशित करते हैं और फिर दिए गए प्रश्न को हल करने के लिए उत्पन्न सारांश और कच्चे वीडियो संदर्भ दोनों को नेविगेट करते हैं। हमारा जीरो-शॉट तरीका मूवीक्यूए और ड्रामाक्यूए डेटासेट में अत्याधुनिक पर्यवेक्षित तरीकों की तुलना में बेहतर परिणाम दिखाता है। इसके अलावा, हम क्लिपचेक का प्रस्ताव करते हैं, जो GPT-3 द्वारा प्रदान किए गए तर्क परिणामों के दृश्य संरेखण को बढ़ाने के लिए एक दृश्य-पाठ मिलान विधि है। संक्षेप में, हमारे मुख्य योगदान तीन गुना हैं:
हम एलएसएस प्रस्तुत करते हैं, जो एक ढांचा है जो एक लंबे वीडियो वर्णन को कथानकों की सूची में सारांशित करता है और प्रश्न से संबंधित उपकथानक को पुनः प्राप्त करता है।
हम दृश्य संकेत में CLIP आधारित मिलान के माध्यम से दृश्य संरेखण शक्ति पर विचार करने के महत्व को प्रदर्शित करते हैं।
हमारा शून्य-शॉट दृष्टिकोण मूवीक्यूए [27] और ड्रामाक्यूए [2] में अत्याधुनिक प्रदर्शन प्राप्त करता है, जो पर्यवेक्षित बेसलाइन से बेहतर प्रदर्शन करता है।