यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
लेखक:
(1) जीवन चुंग, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ );
(2) यंगजई यू, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ )।
संक्षेप में दिए गए विवरण और प्रश्न को देखते हुए, हम लंबे वीडियो से प्रश्न से संबंधित अपेक्षाकृत छोटी क्लिप को पुनः प्राप्त करना चाहते हैं। भाषा मॉडल ओपन-एंडेड टेक्स्ट उत्पन्न करते हैं जो अनियमित और अक्सर शोरगुल वाला होता है। वीडियो के सटीक हिस्से को पुनः प्राप्त करने के लिए, हम मॉडल को टेक्स्ट फॉर्म के बजाय प्लॉट के इंडेक्स आउटपुट करने के लिए प्रेरित करते हैं।
भाषा मॉडल की ओपन-एंडेड प्रकृति के कारण उत्पन्न सूचकांक अभी भी शोर हो सकते हैं। जब मॉडल टेक्स्ट फॉर्म में उत्तर आउटपुट करता है, तो हम प्लॉट पीस उम्मीदवारों को खोजने के लिए रूज-एल [19] स्कोर का उपयोग करते हैं जिनकी उत्पन्न वाक्य के साथ समानता निर्दिष्ट सीमा α ≥ 0.5 से ऊपर है।