paint-brush
लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: प्रयोग द्वारा@kinetograph

लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: प्रयोग

द्वारा Kinetograph: The Video Editing Technology Publication
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover...

4 मिनट read2024/05/26
Read on Terminal Reader
Read this story in a terminal
Print this story

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने GPT-3 का उपयोग करते हुए शून्य-शॉट वीडियो QA का पता लगाया है, जो पर्यवेक्षित मॉडलों से बेहतर प्रदर्शन करता है, कथात्मक सारांश और दृश्य मिलान का लाभ उठाता है।
featured image - लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: प्रयोग
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) जीवन चुंग, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ );

(2) यंगजई यू, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ )।

लिंक की तालिका

3. प्रयोग

सभी प्रयोगों के लिए, हम GPT-3 [1] (text-davinci-003) को बैकबोन भाषा मॉडल के रूप में उपयोग करते हैं। जब तक अन्यथा न कहा जाए, हम वीडियो को विभाजित करने के लिए ग्राउंड ट्रुथ क्लिप सीमा का उपयोग करते हैं। सभी LSS वेरिएंट किसी भी प्रशिक्षण डेटा का उपयोग नहीं करते हैं और इस प्रकार शून्य-शॉट विधियाँ हैं।


तालिका 1: मूवीक्यूए सत्यापन विभाजन पर मूल्यांकन। डेटासेट औसतन 3 मिनट की वीडियो क्लिप के साथ जीटी संरेखण प्रदान करता है: हम ऑर्स-सर्च की भी रिपोर्ट करते हैं जो जीटी संरेखण के बिना पूरे मूवी संदर्भ की खोज करता है। (V) वीडियो को इंगित करता है और (S) उपशीर्षक को इंगित करता है।

तालिका 1: मूवीक्यूए सत्यापन विभाजन पर मूल्यांकन। डेटासेट औसतन 3 मिनट की वीडियो क्लिप के साथ जीटी संरेखण प्रदान करता है: हम ऑर्स-सर्च की भी रिपोर्ट करते हैं जो जीटी संरेखण के बिना पूरे मूवी संदर्भ की खोज करता है। (V) वीडियो को इंगित करता है और (S) उपशीर्षक को इंगित करता है।


तालिका 2: पोरोरोक्यूए सत्यापन विभाजन पर मूल्यांकन। मशीन द्वारा निर्मित प्लॉट (+प्लॉट) मानव एनोटेशन (बेस) के करीब प्रदर्शन करता है।

तालिका 2: पोरोरोक्यूए सत्यापन विभाजन पर मूल्यांकन। मशीन द्वारा निर्मित प्लॉट (+प्लॉट) मानव एनोटेशन (बेस) के करीब प्रदर्शन करता है।


तालिका 3: ड्रामाक्यूए सत्यापन विभाजन के स्तर तीन और चार पर मूल्यांकन। CLIPCheck बेसलाइन और छवि विवरण इनपुट करने के प्रॉम्प्ट-आधारित दृष्टिकोण [35] पर अत्याधुनिक हासिल करता है।

तालिका 3: ड्रामाक्यूए सत्यापन विभाजन के स्तर तीन और चार पर मूल्यांकन। CLIPCheck बेसलाइन और छवि विवरण इनपुट करने के प्रॉम्प्ट-आधारित दृष्टिकोण [35] पर अत्याधुनिक हासिल करता है।


तालिका 4: मूवीक्यूए सत्यापन विभाजन पर पृथक्करण अध्ययन।

तालिका 4: मूवीक्यूए सत्यापन विभाजन पर पृथक्करण अध्ययन।

3.1. लंबी कहानी का संक्षेप में मूल्यांकन

मूवीक्यूए [27] 408 फिल्मों से प्राप्त एक बड़े पैमाने का क्यूए डेटासेट है। डेटासेट में सूचना के कई स्रोत हैं; उपशीर्षक, स्क्रिप्ट, डीवीएस, वीडियो क्लिप और प्लॉट। हम चार अत्याधुनिक पर्यवेक्षित बेसलाइन की रिपोर्ट करते हैं; A2A [20], PAMN [11], यूनिवर्सलक्यूए [10], और DHTCN [21]।


तालिका 1 दिखाती है कि पिछले पर्यवेक्षित दृष्टिकोणों की तुलना में जीरो-शॉट LSS में सुधार हुआ है। साथ ही, ग्राउंड-ट्रुथ सेगमेंट इंडेक्स लेबल के बिना भी ऑवर-सर्च मजबूत प्रदर्शन दिखाता है। CLIPCheck वीडियो स्प्लिट में सटीकता को थोड़ा बेहतर बनाता है। हालाँकि, अंतर मामूली है क्योंकि MovieQA को अक्सर सामान्य दृश्य मिलान के बजाय चरित्र-आधारित ग्राउंडिंग की आवश्यकता होती है। अंत में, हम शून्य परिकल्पना के साथ प्रयोग करते हैं: कोई संदर्भ नहीं परीक्षण करता है कि क्या GPT-3 हर तथ्य को याद करके MovieQA को हल करता है। कोई संदर्भ नहीं LSS से भी खराब प्रदर्शन करता है, शून्य परिकल्पना को खारिज करता है।


पोरोरोक्यूए [13] एक कार्टून श्रृंखला से निर्मित एक वीडियो स्टोरी क्यूए डेटासेट है। पर्यवेक्षित बेसलाइन मानव-जनित प्लॉट और ग्राउंड ट्रुथ वीडियो सेगमेंट इंडेक्स लेती है, जबकि एलएसएस + प्लॉट + सर्च दोनों में से कोई भी नहीं लेता है।


तालिका 2 पोरोरोक्यूए डेटासेट पर हमारे परिणाम का सारांश प्रस्तुत करती है। ग्राउंड-ट्रुथ एपिसोड और प्लॉट दोनों का उपयोग करते समय, GPT-3 सुपरवाइज्ड बेसलाइन के लगभग बराबर प्रदर्शन करता है। मानव-जनित सारांश को मॉडल-जनित सारांश से प्रतिस्थापित करने पर केवल मामूली प्रदर्शन में गिरावट आती है। शायद दिलचस्प बात यह है कि मॉडल-जनित प्लॉट का उपयोग करते समय खोज प्रक्रिया बेहतर काम करती है। हम इस परिणाम का श्रेय इस तथ्य को देते हैं कि मानव एनोटेशन एपिसोड भेदभाव के लिए डिज़ाइन नहीं किए गए हैं।

3.2. CLIPCheck का मूल्यांकन

ड्रामाक्यूए [3] वीडियो क्यूए डेटासेट है जो कहानी की समझ पर केंद्रित है। डेटासेट को पदानुक्रमित कठिनाई के चार स्तरों के साथ व्यवस्थित किया गया है, जो मानव संज्ञानात्मक विकासात्मक चरणों का पालन करते हैं। हम प्लॉट समझ का परीक्षण करने के लिए ड्रामाक्यूए के दो उच्च स्तरों पर एलएसएस का मूल्यांकन करते हैं। हम स्तर-वार ड्रामाक्यूए में दो नवीनतम बेसलाइन की रिपोर्ट करते हैं; कैरेक्टरअटेंशन और किम एट अल। [14]।


हम CLIPCheck और Caption के प्रभाव की तुलना करते हैं, जो BLIP [18] से निकाले गए इमेज फ्रेम विवरणों को GPT-3 में इनपुट के रूप में शामिल करने की एक प्रॉम्प्ट-आधारित विधि है। तालिका 3 से पता चलता है कि CLIPCheck इमेज विवरणों की तुलना में अधिक सुधार प्रदान करता है। साथ ही, इमेज कैप्शन जोड़ने से LSS में सुधार होता है, लेकिन CLIPCheck के साथ संयुक्त रूप से उपयोग करने पर लाभ गायब हो जाता है। हमें संदेह है कि ऐसा इसलिए है क्योंकि फ्रेम कैप्शन CLIPCheck के समान जानकारी प्रदान करते हैं, जबकि बहुत अधिक शोर करते हैं। ध्यान दें कि यहां स्वचालित कैप्शन LSS का अभिन्न अंग नहीं हैं। चूंकि DramaQA में पहले से ही दृश्यमान रूप से आधारित एनोटेशन हैं, इसलिए उसके शीर्ष पर स्वचालित इमेज कैप्शन जोड़ने से मॉडल का प्रदर्शन बेहतर नहीं होगा।


चित्र 3: LSS द्वारा तैयार किए गए प्लॉट सारांश और विकिपीडिया से प्राप्त ग्राउंड-ट्रुथ सारांश के बीच तुलना। यहाँ, हम स्थान की सीमा के कारण पूरे प्लॉट के केवल पहले दो पैराग्राफ ही दिखाते हैं।

चित्र 3: LSS द्वारा तैयार किए गए प्लॉट सारांश और विकिपीडिया से प्राप्त ग्राउंड-ट्रुथ सारांश के बीच तुलना। यहाँ, हम स्थान की सीमा के कारण पूरे प्लॉट के केवल पहले दो पैराग्राफ ही दिखाते हैं।


अंत में, हम जाँचते हैं कि क्या CLIPCheck दृश्य संदर्भ को समझने के बजाय डेटासेट पूर्वाग्रह का फायदा उठाता है। इस उद्देश्य के लिए, हम यादृच्छिक दृश्य संदर्भ (CLIPCheck-Shuffle) के साथ CLIPCheck का एक प्रकार तैयार करते हैं। CLIPCheck-Shuffle बिना CLIPCheck के LSS पर बेहतर नहीं होता है, जो पूर्वाग्रह की परिकल्पना को नकारता है।

3.3. एब्लेशन अध्ययन

क्या कथात्मक समझ के लिए सारांश और खोज दोनों ही महत्वपूर्ण हैं? यहाँ, हम कथात्मक खोज के बिना पूर्ण संदर्भ के साथ LSS वेरिएंट का मूल्यांकन करते हैं (LSS-Ful) या इनपुट के रूप में प्लॉट सारांश और यादृच्छिक खंड के साथ (LSS-Random)। तालिका 4 से पता चलता है कि LSS-Ful और LSS-Random दोनों ही LSS-Search से पीछे हैं, जो पुनर्प्राप्ति के महत्व को दर्शाता है। ध्यान दें कि टोकन लंबाई सीमा के कारण हम LSS-Ful में पूर्ण संदर्भ का उपयोग नहीं कर सके। इसके बजाय, हम पूर्ण संदर्भ के सबसे लंबे उपसर्ग का उपयोग करते हैं जिसे GPT3 स्वीकार करता है (निर्देश की लंबाई घटाकर 4000 टोकन)।


चित्र 4: LSS में QA प्रक्रिया नमूने। खोजे गए प्लॉट टुकड़े पर कंडीशनिंग का भाषा मॉडल के उत्तर संभावना वितरण पर पर्याप्त प्रभाव पड़ता है।

चित्र 4: LSS में QA प्रक्रिया नमूने। खोजे गए प्लॉट टुकड़े पर कंडीशनिंग का भाषा मॉडल के उत्तर संभावना वितरण पर पर्याप्त प्रभाव पड़ता है।

3.4. गुणात्मक परिणाम

चित्र 3 में LSS फ्रेमवर्क में भाषा मॉडल का उपयोग करके लंबे वीडियो QA के मध्यवर्ती संदर्भ के रूप में उत्पन्न स्वचालित प्लॉट सारांश दिखाया गया है। जैसा कि गुणात्मक नमूने में दिखाया गया है, उत्पन्न प्लॉट विकिपीडिया से मानव-लिखित प्लॉट के साथ अच्छी तरह से संरेखित होते हैं। उदाहरण के लिए, फिल्म "हैरी पॉटर एंड द डेथली हैलोज़" के पहले दृश्य में, LSS सारांश सही ढंग से लिखता है कि हैरी पॉटर वर्तमान में 17 वर्ष का है और मुख्य घटना जिसमें डेथ ईटर नायक पर हमला करते हैं।


चित्र 4 खोजे गए प्लॉट पीस और उत्तर संभावना के बीच संबंध को दर्शाता है। बाईं ओर के उदाहरण में, प्राप्त सारांश बताता है कि ट्रेंच ने एक अपराध किया है और इसलिए भाग रहा है, यह सुझाव देता है कि उसमें रुचि रखने वाला कोई अन्य चरित्र उसका पीछा कर रहा होगा। भाषा मॉडल उत्तर संभावना को सही तरीके से संशोधित करने के लिए इस संदर्भ को समझता है। सही उदाहरण में, LSS प्लॉट पीस बताता है कि एडवर्ड अपने निर्णय में आश्वस्त है। जबकि यह संदर्भ प्रश्न के लिए कोई सीधा संकेत नहीं देता है, भाषा मॉडल इसे उत्तर को बदलने के लिए पर्याप्त मजबूत जानकारी के रूप में देखता है।

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication@kinetograph
The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

लेबल

इस लेख में चित्रित किया गया था...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
X REMOVE AD