यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
लेखक:
(1) जीवन चुंग, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ );
(2) यंगजई यू, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ )।
हमने लॉन्ग स्टोरी शॉर्ट की शुरुआत की, जो वैश्विक कथा और वीडियो कथा QA के लिए प्रासंगिक विवरण दोनों को समझने के लिए एक सारांश-फिर-खोज विधि है। हमारा दृष्टिकोण तब प्रभावी होता है जब QA का संदर्भ व्यापक होता है और ऐसे संदर्भ के साथ उच्च-स्तरीय बातचीत उक्त QA को हल करने के लिए आवश्यक होती है, जो कि लंबे वीडियो QAs में होता है। साथ ही, हम CLIPCheck के साथ दृश्य संरेखण की पोस्ट-चेकिंग करके मॉडल-जनरेटेड उत्तर के विज़ुअल ग्राउंडिंग को और बढ़ाने का प्रस्ताव करते हैं। हमारी ज़ीरो-शॉट विधि MovieQA और DramaQA बेंचमार्क में पर्यवेक्षित अत्याधुनिक दृष्टिकोणों को बेहतर बनाती है। हम कोड और जनरेटेड प्लॉट डेटा को जनता के लिए जारी करने की योजना बना रहे हैं।
इस कार्य से परे दो संभावित शोध दिशाएँ हैं: पहला, चरित्र पुनः-पहचान और सह-संदर्भ संकल्प के साथ कहानी के साथ बेहतर ढंग से संरेखित दृश्य विवरण प्रदान करना GPT-3 में इनपुट गुणवत्ता में सुधार करता है। दूसरा, कोई अधिक गतिशील मल्टी-हॉप खोज तैयार कर सकता है जो वैश्विक और स्थानीय जानकारी को पदानुक्रमित तरीके से जोड़ता है।