यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
लेखक:
(1) जीवन चुंग, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ );
(2) यंगजई यू, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ )।
मूवी सारांश मूवी स्पष्ट कथात्मक संरचनाओं के साथ लंबे वीडियो के विशिष्ट उदाहरण हैं। गोरिंस्की एट अल। [7] मूवी सीन की इष्टतम ग्राफ चेन खोजने के कार्य के रूप में एक पटकथा का छोटा संस्करण तैयार करते हैं। ट्राइपॉड [23] एक पटकथा डेटासेट है जिसमें टर्निंग पॉइंट एनोटेशन होते हैं। उसी काम में, मूवी कथाओं से टर्निंग पॉइंट की पहचान करने के लिए एक स्वचालित मॉडल प्रस्तावित किया गया है। पापालैम्पिडी एट अल। [24] बाद में टीवी सीरीज़ सीएसआई का उपयोग करके स्वचालित मूवी सारांश में टर्निंग पॉइंट की उपयोगिता को प्रदर्शित करते हैं। ली एट अल। [15] डायलॉग फीचर्स और ट्रांसफॉर्मर आर्किटेक्चर के साथ टर्निंग पॉइंट पहचान को और बेहतर बनाता है।
लॉन्ग वीडियो क्यूए वीडियो प्रश्न उत्तर देने के कार्य का साहित्य में ओपन-एंडेड क्यूए [9] और मल्टी-चॉइस प्रॉब्लम्स [28, 29] दोनों के रूप में बड़े पैमाने पर अध्ययन किया गया है। इस कार्य को संबोधित करने के लिए कई दृष्टिकोण प्रस्तावित किए गए हैं, आरएनएन-आधारित ध्यान नेटवर्क [9, 30, 36, 38] से लेकर मेमोरी नेटवर्क [12, 22, 27] और ट्रांसफॉर्मर [4, 6] तक। हाल ही में, बड़े पैमाने के वीडियो डेटासेट (वीडियोक्यूए [31], वायलेट [5], और मेरलोट [33] और मेरलोट-रिजर्व [34]) पर प्री-ट्रेन्ड मल्टीमॉडल मॉडल वीडियो प्रश्न उत्तर देने में भी आशाजनक प्रदर्शन दिखाते हैं।
हालाँकि, लंबे वीडियो QA को इसके महत्व के बावजूद अपेक्षाकृत कम ध्यान मिला है। MovieQA [27] पूरी मूवी पर QAs तैयार करता है, जो आम तौर पर दो लंबे घंटों तक चलता है। DramaQA [3] एक एकल टीवी सीरीज़ को विज़ुअल संदर्भ के रूप में उपयोग करता है, और एक सॉल्वर को एक से बीस मिनट की लंबाई वाली वीडियो क्लिप को समझने का काम देता है।