paint-brush
लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: विधिद्वारा@kinetograph
108 रीडिंग

लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: विधि

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने GPT-3 का उपयोग करते हुए शून्य-शॉट वीडियो QA का पता लगाया है, जो पर्यवेक्षित मॉडलों से बेहतर प्रदर्शन करता है, कथात्मक सारांश और दृश्य मिलान का लाभ उठाता है।
featured image - लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: विधि
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) जीवन चुंग, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ );

(2) यंगजई यू, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ )।

लिंक की तालिका

2. विधि


चित्र 2: हमारे प्रस्तावित लॉन्ग स्टोरी शॉर्ट (LSS) मॉडल को दर्शाने वाला गुणात्मक परिणाम जो कच्चे वीडियो फुटेज का सूचकांक उत्पन्न करता है और पुनः प्राप्त करता है। जब मॉडल (i) उत्पन्न सारांश और (ii) प्राप्त पाठ संदर्भ से अंतिम उत्तर की भविष्यवाणी करता है, तो CLIPCheck प्रश्न के अंतिम उत्तर को संशोधित करने के लिए प्रत्येक उम्मीदवार के उत्तरों को मान्य करता है।

2.1. प्लॉट निर्माण

2.2. कथात्मक खोज

संक्षेप में दिए गए विवरण और प्रश्न को देखते हुए, हम लंबे वीडियो से प्रश्न से संबंधित अपेक्षाकृत छोटी क्लिप को पुनः प्राप्त करना चाहते हैं। भाषा मॉडल ओपन-एंडेड टेक्स्ट उत्पन्न करते हैं जो अनियमित और अक्सर शोरगुल वाला होता है। वीडियो के सटीक हिस्से को पुनः प्राप्त करने के लिए, हम मॉडल को टेक्स्ट फॉर्म के बजाय प्लॉट के इंडेक्स आउटपुट करने के लिए प्रेरित करते हैं।



भाषा मॉडल की ओपन-एंडेड प्रकृति के कारण उत्पन्न सूचकांक अभी भी शोर हो सकते हैं। जब मॉडल टेक्स्ट फॉर्म में उत्तर आउटपुट करता है, तो हम प्लॉट पीस उम्मीदवारों को खोजने के लिए रूज-एल [19] स्कोर का उपयोग करते हैं जिनकी उत्पन्न वाक्य के साथ समानता निर्दिष्ट सीमा α ≥ 0.5 से ऊपर है।


2.3. दृश्य जाँच