यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।   लेखक:  (1) जीवन चुंग, एमआईआर लैब योनसी विश्वविद्यालय (   ); https://jiwanchung.github.io/  (2) यंगजई यू, एमआईआर लैब योनसी विश्वविद्यालय (   )। https://jiwanchung.github.io/  लिंक की तालिका   सार और परिचय   तरीका   प्रयोगों   संबंधित कार्य   निष्कर्ष   सीमाएँ और संदर्भ   A. प्रयोग विवरण   बी. शीघ्र नमूने  अमूर्त  GPT-3 जैसे बड़े भाषा मॉडल ने कार्य-विशिष्ट प्रशिक्षण डेटा की आवश्यकता के बिना नए कार्यों के अनुकूल होने की एक प्रभावशाली क्षमता का प्रदर्शन किया है। यह क्षमता विशेष रूप से कथात्मक प्रश्न उत्तर जैसी सेटिंग्स में प्रभावी रही है, जहाँ कार्यों की विविधता बहुत अधिक है, लेकिन उपलब्ध पर्यवेक्षण डेटा छोटा है। इस कार्य में, हम जांच करते हैं कि क्या ऐसे भाषा मॉडल अपनी शून्य-शॉट तर्क क्षमताओं को नाटक, फ़िल्मों और एनीमेशन जैसी मल्टीमीडिया सामग्री में लंबी मल्टीमॉडल कथाओं तक बढ़ा सकते हैं, जहाँ कहानी एक आवश्यक भूमिका निभाती है। हम लॉन्ग स्टोरी शॉर्ट का प्रस्ताव करते हैं, जो कथात्मक वीडियो QA के लिए एक रूपरेखा है जो पहले वीडियो की कथा को एक छोटे कथानक में सारांशित करती है और फिर प्रश्न से संबंधित वीडियो के कुछ हिस्सों को खोजती है। हम CLIPCheck के साथ दृश्य मिलान को बढ़ाने का भी प्रस्ताव करते हैं। हमारा मॉडल अत्याधुनिक पर्यवेक्षित मॉडलों से बहुत बेहतर प्रदर्शन करता है, जो लंबे वीडियो के लिए शून्य-शॉट QA की क्षमता को उजागर करता है।  1 परिचय  हाल के वीडियो QA मॉडल डेटा और एनोटेशन की सीमाओं के कारण लंबे वीडियो कथात्मक QA कार्यों [2, 13, 27] (यानी, फिल्में, नाटक और YouTube वेब वीडियो) को संभालने में चुनौतियों का सामना करते हैं। इसके परिणामस्वरूप छोटे वीडियो क्लिप [16, 17, 30] पर मुख्य रूप से दृश्य प्रश्नों के उत्तर देने से परे लंबे वीडियो कथाओं को समझने में असमर्थता होती है। ऐसे लंबे वीडियो QAs का आकार मॉडल को वीडियो के भीतर जटिल कथात्मक संरचनाओं को पूरी तरह से समझने के लिए प्रशिक्षित करने के लिए अपर्याप्त है, जिससे उप-इष्टतम प्रदर्शन प्राप्त होता है। [10] प्रदर्शित करता है कि पर्यवेक्षित मॉडल कथात्मक संदर्भ की तुलना में प्रश्न में भाषा के पूर्वाग्रहों पर अधिक निर्भर करते हैं: वे बिना कोई वीडियो संदर्भ देखे भी समान प्रदर्शन प्राप्त कर सकते हैं।  कम सामान्यीकरण के कारण होने वाली चुनौती का समाधान करने के लिए, प्रीट्रेन्ड लार्ज लैंग्वेज मॉडल (एलएलएम) का उपयोग करके शून्य-शॉट दृष्टिकोण जटिल क्यूए कार्यों से निपटने के लिए एक कुशल विकल्प हो सकता है [32], और पाठ संदर्भ सारांश [8, 37]। फिर भी, क्या ऐसे एलएलएम की कथात्मक क्यूए क्षमता वीडियो डोमेन में स्थानांतरित की जा सकती है?   हम लॉन्ग स्टोरी शॉर्ट (LSS) का प्रस्ताव करते हैं, जैसा कि चित्र 1 में दर्शाया गया है, जो वीडियो क्लिप को सुकराती मॉडल [35] से प्रेरित होकर टेक्स्ट स्क्रीनप्ले प्रारूप में अनुवादित करता है। GPT-3 [1] का उपयोग करते हुए, हम पहले लंबे वीडियो को प्लॉट की सूची में सारांशित करते हैं और फिर दिए गए प्रश्न को हल करने के लिए उत्पन्न सारांश और कच्चे वीडियो संदर्भ दोनों को नेविगेट करते हैं। हमारा जीरो-शॉट तरीका मूवीक्यूए और ड्रामाक्यूए डेटासेट में अत्याधुनिक पर्यवेक्षित तरीकों की तुलना में बेहतर परिणाम दिखाता है। इसके अलावा, हम क्लिपचेक का प्रस्ताव करते हैं, जो GPT-3 द्वारा प्रदान किए गए तर्क परिणामों के दृश्य संरेखण को बढ़ाने के लिए एक दृश्य-पाठ मिलान विधि है। संक्षेप में, हमारे मुख्य योगदान तीन गुना हैं:  हम एलएसएस प्रस्तुत करते हैं, जो एक ढांचा है जो एक लंबे वीडियो वर्णन को कथानकों की सूची में सारांशित करता है और प्रश्न से संबंधित उपकथानक को पुनः प्राप्त करता है।  हम दृश्य संकेत में CLIP आधारित मिलान के माध्यम से दृश्य संरेखण शक्ति पर विचार करने के महत्व को प्रदर्शित करते हैं।  हमारा शून्य-शॉट दृष्टिकोण मूवीक्यूए [27] और ड्रामाक्यूए [2] में अत्याधुनिक प्रदर्शन प्राप्त करता है, जो पर्यवेक्षित बेसलाइन से बेहतर प्रदर्शन करता है।

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: सार और परिचय

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

डिजिटल खानाबदोशों सुनो: थाईलैंड के नए डीटीवी वीज़ा के बारे में आपको क्या जानना चाहिए

HackerNoon एक बहुभाषी प्लेटफ़ॉर्म है: सभी शीर्ष कहानियाँ अब 13 भाषाओं में उपलब्ध हैं

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

AI की शक्ति को उन्मुक्त करना। अत्याधुनिक तकनीकों की एक व्यवस्थित समीक्षा: सार और परिचय

डिजिटल खानाबदोशों सुनो: थाईलैंड के नए डीटीवी वीज़ा के बारे में आपको क्या जानना चाहिए

HackerNoon एक बहुभाषी प्लेटफ़ॉर्म है: सभी शीर्ष कहानियाँ अब 13 भाषाओं में उपलब्ध हैं

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

AI की शक्ति को उन्मुक्त करना। अत्याधुनिक तकनीकों की एक व्यवस्थित समीक्षा: सार और परिचय

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps