paint-brush
लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: संबंधित कार्यद्वारा@kinetograph

लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: संबंधित कार्य

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने GPT-3 का उपयोग करते हुए शून्य-शॉट वीडियो QA का पता लगाया है, जो पर्यवेक्षित मॉडलों से बेहतर प्रदर्शन करता है, कथात्मक सारांश और दृश्य मिलान का लाभ उठाता है।
featured image - लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: संबंधित कार्य
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) जीवन चुंग, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ );

(2) यंगजई यू, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ )।

लिंक की तालिका

4. संबंधित कार्य

मूवी सारांश मूवी स्पष्ट कथात्मक संरचनाओं के साथ लंबे वीडियो के विशिष्ट उदाहरण हैं। गोरिंस्की एट अल। [7] मूवी सीन की इष्टतम ग्राफ चेन खोजने के कार्य के रूप में एक पटकथा का छोटा संस्करण तैयार करते हैं। ट्राइपॉड [23] एक पटकथा डेटासेट है जिसमें टर्निंग पॉइंट एनोटेशन होते हैं। उसी काम में, मूवी कथाओं से टर्निंग पॉइंट की पहचान करने के लिए एक स्वचालित मॉडल प्रस्तावित किया गया है। पापालैम्पिडी एट अल। [24] बाद में टीवी सीरीज़ सीएसआई का उपयोग करके स्वचालित मूवी सारांश में टर्निंग पॉइंट की उपयोगिता को प्रदर्शित करते हैं। ली एट अल। [15] डायलॉग फीचर्स और ट्रांसफॉर्मर आर्किटेक्चर के साथ टर्निंग पॉइंट पहचान को और बेहतर बनाता है।


लॉन्ग वीडियो क्यूए वीडियो प्रश्न उत्तर देने के कार्य का साहित्य में ओपन-एंडेड क्यूए [9] और मल्टी-चॉइस प्रॉब्लम्स [28, 29] दोनों के रूप में बड़े पैमाने पर अध्ययन किया गया है। इस कार्य को संबोधित करने के लिए कई दृष्टिकोण प्रस्तावित किए गए हैं, आरएनएन-आधारित ध्यान नेटवर्क [9, 30, 36, 38] से लेकर मेमोरी नेटवर्क [12, 22, 27] और ट्रांसफॉर्मर [4, 6] तक। हाल ही में, बड़े पैमाने के वीडियो डेटासेट (वीडियोक्यूए [31], वायलेट [5], और मेरलोट [33] और मेरलोट-रिजर्व [34]) पर प्री-ट्रेन्ड मल्टीमॉडल मॉडल वीडियो प्रश्न उत्तर देने में भी आशाजनक प्रदर्शन दिखाते हैं।


हालाँकि, लंबे वीडियो QA को इसके महत्व के बावजूद अपेक्षाकृत कम ध्यान मिला है। MovieQA [27] पूरी मूवी पर QAs तैयार करता है, जो आम तौर पर दो लंबे घंटों तक चलता है। DramaQA [3] एक एकल टीवी सीरीज़ को विज़ुअल संदर्भ के रूप में उपयोग करता है, और एक सॉल्वर को एक से बीस मिनट की लंबाई वाली वीडियो क्लिप को समझने का काम देता है।