यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
लेखक:
(1) जीवन चुंग, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ );
(2) यंगजई यू, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ )।
कम्प्यूटेशनल बजट। लॉन्ग स्टोरी शॉर्ट ओपनएआई एपीआई के माध्यम से जीपीटी-3 (175बी पैरामीटर) का उपयोग बैकबोन के रूप में करता है। एक वीडियो सेगमेंट को सारांशित करने के लिए एक औसत प्रॉम्प्ट लगभग 3000 टोकन प्रोसेस करता है, जबकि एक क्यूए प्रॉम्प्ट आमतौर पर लगभग 4000 टोकन लेता है। CLIPCheck के लिए, हम CLIP सुविधाएँ निकालते हैं और एक एकल NVIDIA A6000 GPU का उपयोग करके कोसाइन समानता की गणना करते हैं: MovieQA सत्यापन विभाजन के लिए वीडियो फ़्रेम को प्रोसेस करने में 0.5 घंटे लगते हैं।
हाइपरपैरामीटर । सभी हाइपरपैरामीटर एक एकल प्रशिक्षण नमूने का विश्लेषण करके पूर्व-परिभाषित किए जाते हैं। कथात्मक खोज के लिए, हम प्लॉट के टुकड़े खोजने के लिए वाक्य समानता सीमा α ≥ 0.5 का उपयोग करते हैं जब GPT-3 एक भी इंडेक्स आउटपुट नहीं करता है। हम CLIPCheck में बाइनरी एन्ट्रॉपी सीमा E ′ ≥ 0.4 का उपयोग करते हैं। हम प्रत्येक प्रयोग को केवल एक बार चलाते हैं, क्योंकि हमारी विधि नियतात्मक है और आरंभीकरण में यादृच्छिकता के लिए अतिसंवेदनशील नहीं है।
वीडियो विभाजन योजना। इस पेपर में हमारे द्वारा उपयोग किए जाने वाले सभी डेटासेट के लिए पूर्वनिर्धारित सेगमेंट सीमा एनोटेशन हैं। साथ ही, सभी प्लॉट पीस में बारी-बारी से संरेखित क्लिप सेगमेंट होते हैं क्योंकि हम पूर्वनिर्धारित सीमाओं के साथ विभाजित प्रत्येक क्लिप पर सारांशीकरण करते हैं। साथ ही, LSS लागू करने से पहले हम उन क्लिप सेगमेंट को फ़िल्टर करते हैं जो 1. बहुत छोटे हैं, 2. कोई संरेखित छवि फ़्रेम नहीं है, या 3. कोई टेक्स्ट संदर्भ नहीं है ताकि यह सुनिश्चित किया जा सके कि हम प्लॉट सारांश का उपयोग करके क्लिप सेगमेंट को पुनः प्राप्त कर सकें।
बाहरी लाइब्रेरी। हम GPT-3 भाषा मॉडल तक पहुँचने के लिए OpenAI API का उपयोग करते हैं। CLIP सुविधाओं की गणना हगिंगफेस कार्यान्वयन (https://huggingface.co/docs/transformers/main/en/model_doc/clip) के साथ की जाती है।