paint-brush
लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: निष्कर्षद्वारा@kinetograph
260 रीडिंग

लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: निष्कर्ष

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने GPT-3 का उपयोग करते हुए शून्य-शॉट वीडियो QA का पता लगाया है, जो पर्यवेक्षित मॉडलों से बेहतर प्रदर्शन करता है, कथात्मक सारांश और दृश्य मिलान का लाभ उठाता है।
featured image - लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: निष्कर्ष
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) जीवन चुंग, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ );

(2) यंगजई यू, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ )।

लिंक की तालिका

5। उपसंहार

हमने लॉन्ग स्टोरी शॉर्ट की शुरुआत की, जो वैश्विक कथा और वीडियो कथा QA के लिए प्रासंगिक विवरण दोनों को समझने के लिए एक सारांश-फिर-खोज विधि है। हमारा दृष्टिकोण तब प्रभावी होता है जब QA का संदर्भ व्यापक होता है और ऐसे संदर्भ के साथ उच्च-स्तरीय बातचीत उक्त QA को हल करने के लिए आवश्यक होती है, जो कि लंबे वीडियो QAs में होता है। साथ ही, हम CLIPCheck के साथ दृश्य संरेखण की पोस्ट-चेकिंग करके मॉडल-जनरेटेड उत्तर के विज़ुअल ग्राउंडिंग को और बढ़ाने का प्रस्ताव करते हैं। हमारी ज़ीरो-शॉट विधि MovieQA और DramaQA बेंचमार्क में पर्यवेक्षित अत्याधुनिक दृष्टिकोणों को बेहतर बनाती है। हम कोड और जनरेटेड प्लॉट डेटा को जनता के लिए जारी करने की योजना बना रहे हैं।


इस कार्य से परे दो संभावित शोध दिशाएँ हैं: पहला, चरित्र पुनः-पहचान और सह-संदर्भ संकल्प के साथ कहानी के साथ बेहतर ढंग से संरेखित दृश्य विवरण प्रदान करना GPT-3 में इनपुट गुणवत्ता में सुधार करता है। दूसरा, कोई अधिक गतिशील मल्टी-हॉप खोज तैयार कर सकता है जो वैश्विक और स्थानीय जानकारी को पदानुक्रमित तरीके से जोड़ता है।