paint-brush
लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: सीमाएँ और संदर्भद्वारा@kinetograph

लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: सीमाएँ और संदर्भ

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने GPT-3 का उपयोग करते हुए शून्य-शॉट वीडियो QA का पता लगाया है, जो पर्यवेक्षित मॉडलों से बेहतर प्रदर्शन करता है, कथात्मक सारांश और दृश्य मिलान का लाभ उठाता है।
featured image - लंबे वीडियो प्रश्न उत्तर के लिए सारांश-फिर-खोज विधि: सीमाएँ और संदर्भ
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) जीवन चुंग, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ );

(2) यंगजई यू, एमआईआर लैब योनसी विश्वविद्यालय ( https://jiwanchung.github.io/ )।

लिंक की तालिका

6. सीमाएं

हमारे अध्ययन में कुछ सीमाएँ हैं, जिनमें शामिल हैं:


  1. हम केवल अंग्रेजी उपशीर्षक वाले वीडियो के साथ प्रयोग करते हैं। हालाँकि, एक मजबूत बहुभाषी भाषा मॉडल के साथ हमारी विधि को बहुभाषी संदर्भों को शामिल करने के लिए बढ़ाया जा सकता है।


  2. हमारी विधि की संगणना और मेमोरी की आवश्यकता काफी अधिक है क्योंकि यह बड़े भाषा मॉडल, GPT-3 पर अत्यधिक निर्भर है।


  3. हमने लॉन्ग स्टोरी शॉर्ट का मूल्यांकन एलएलएम (जीपीटी-3) के केवल एक उदाहरण के आधार पर किया है।


संभावित जोखिम। GPT-3 के साथ लंबे वीडियो संदर्भ को सारांशित करने से भाषा मॉडल की खुली प्रकृति से संबंधित नैतिक जोखिम होते हैं। GPT-3 (a) सामग्री के बारे में झूठे तथ्य दिखा सकता है, (b) विषाक्त कथन उत्पन्न कर सकता है, या (c) सारांश और उत्तर संभावनाओं में सामाजिक पूर्वाग्रहों को अंतर्निहित कर सकता है।

संदर्भ

[1] टॉम ब्राउन, बेंजामिन मान, निक राइडर, मेलानी सुब्बियाह, जेरेड डी कपलान, प्रफुल्ल धारीवाल, अरविंद नीलकांतन, प्रणव श्याम, गिरीश शास्त्री, अमांडा असकेल, आदि। भाषा मॉडल बहुत कम सीखने वाले होते हैं। तंत्रिका सूचना प्रसंस्करण प्रणालियों में प्रगति, 33:1877–1901, 2020।


[2] सेओंगहो चोई, क्योंग-वून ऑन, यू-जंग हेओ, अहजॉन्ग सेओ, यूवॉन जंग, सेउंगचन ली, मिंसू ली और ब्योंग-तक झांग। ड्रामाक्यूए: पदानुक्रमित क्यूए के साथ चरित्र-केंद्रित वीडियो कहानी समझ। arXiv प्रीप्रिंट arXiv:2005.03356, 2020।


[3] सेओंघो चोई, क्योंग-वून ऑन, यू-जंग हीओ, अहजियोंग सेओ, यूवोन जंग, मिंसू ली और ब्योंग-तक झांग। ड्रामाका: हाइरार्किकल क्यूए के साथ चरित्र-केंद्रित वीडियो कहानी समझ। आर्टिफिशियल इंटेलिजेंस पर AAAI सम्मेलन की कार्यवाही में, खंड 35, पृष्ठ 1166-1174, 2021।


[4] चेनयू फैन, शियाओफैन झांग, शू झांग, वेन्शेंग वांग, ची झांग और हेंग हुआंग। वीडियो प्रश्न उत्तर के लिए विषम स्मृति संवर्धित बहुविध ध्यान मॉडल। कंप्यूटर विज़न और पैटर्न पहचान पर IEEE/CVF सम्मेलन की कार्यवाही में, पृष्ठ 1999-2007, 2019।


[5] त्सू-जुई फू, लिंजी ली, झे गण, केविन लिन, विलियम यांग वांग, लिजुआन वांग, और ज़िचेंग लियू। वायलेट: मास्क्ड विज़ुअल-टोकन मॉडलिंग के साथ एंड-टू-एंड वीडियो-भाषा ट्रांसफार्मर। arXiv प्रीप्रिंट arXiv:2111.12681, 2021.


[6] जियांग गाओ, रनझोउ जीई, कान चेन, और राम नेवतिया। वीडियो प्रश्न उत्तर के लिए गति-उपस्थिति सह-स्मृति नेटवर्क। कंप्यूटर विज़न और पैटर्न मान्यता पर IEEE सम्मेलन की कार्यवाही में, पृष्ठ 6576-6585, 2018।


[7] फिलिप जॉन गोरिंस्की और मिरेला लापाटा। ग्राफ़-आधारित दृश्य निष्कर्षण के रूप में मूवी स्क्रिप्ट सारांश। NAACL, 2015 में।


[8] पेंगचेंग हे, बाओलिन पेंग, लियांग लू, सोंगहे वांग, जी मेई, यांग लियू, रुओचेन जू, हानी हसन अवदल्ला, यू शि, चेंगुआंग झू, वेन ज़ियोनग, माइकल ज़ेंग, जियानफ़ेंग गाओ, और ज़ुएडोंग हुआंग। Z-code++: अमूर्त संक्षेपण के लिए अनुकूलित एक पूर्व-प्रशिक्षित भाषा मॉडल। आर्क्सिव, एबीएस/2208.09770, 2022.


[9] युनसोक जंग, येल सॉन्ग, यंगजे यू, यंगजिन किम और गुन्ही किम। टीजीआईएफ-क्यूए: विज़ुअल क्वेश्चन आंसरिंग में स्थानिक-लौकिक तर्क की ओर। कंप्यूटर विज़न और पैटर्न रिकग्निशन पर IEEE कॉन्फ्रेंस की कार्यवाही में, पृष्ठ 2758-2766, 2017।


[10] भवन जसानी, रोहित गिरधर, और देवा रामनन। क्या हम मूवीक्वा में सही सवाल पूछ रहे हैं? कंप्यूटर विज़न वर्कशॉप पर IEEE/CVF इंटरनेशनल कॉन्फ्रेंस की कार्यवाही में, पृष्ठ 0–0, 2019।


[11] जुनयेओंग किम, मिनुक मा, क्यूंगसु किम, सुंगजिन किम और चांग डी यू। मूवी स्टोरी प्रश्न उत्तर के लिए प्रगतिशील ध्यान स्मृति नेटवर्क। कंप्यूटर विज़न और पैटर्न रिकॉग्निशन पर IEEE/CVF सम्मेलन की कार्यवाही में, पृष्ठ 8337-8346, 2019।


[12] जुनयेओंग किम, मिनुक मा, क्यूंगसु किम, सुंगजिन किम और चांग डी यू। मूवी स्टोरी प्रश्न उत्तर के लिए प्रगतिशील ध्यान स्मृति नेटवर्क। कंप्यूटर विज़न और पैटर्न रिकॉग्निशन पर IEEE/CVF सम्मेलन की कार्यवाही में, पृष्ठ 8337-8346, 2019।


[13] क्यूंग-मिन किम, मिन-ओह हेओ, सेओंग-हो चोई, और ब्योंग-तक झांग। डीपस्टोरी: डीप एम्बेडेड मेमोरी नेटवर्क द्वारा वीडियो स्टोरी क्यूए। आर्टिफिशियल इंटेलिजेंस पर 26वें अंतर्राष्ट्रीय संयुक्त सम्मेलन की कार्यवाही में, पृष्ठ 2016-2022, 2017।


[14] सोनहून किम, सियोहयोंग जियोंग, यूनब्युल किम, इनहो कांग और नोजुन क्वाक। मल्टीपल-चॉइस वीडियो क्यूए के लिए स्व-पर्यवेक्षित प्री-ट्रेनिंग और कंट्रास्टिव रिप्रेजेंटेशन लर्निंग। AAAI, 2021 में।


[15] म्युंगजी ली, हांग-सोक क्वोन, जेहुन शिन, वोनकी ली, बैक्जिन जंग और जोंगह्योक ली। संवाद सूचना के साथ संवर्धित शिक्षण प्रतिनिधित्व का उपयोग करते हुए ट्रांसफॉर्मर-आधारित पटकथा सारांश। NUSE, 2021 में।


[16] जी लेई, लिचेंग यू, मोहित बंसल, और तमारा एल बर्ग। टीवीक्यूए: स्थानीयकृत, रचनात्मक वीडियो प्रश्न उत्तर। ईएमएनएलपी, 2018 में।


[17] जी लेई, लिचेंग यू, तमारा एल बर्ग, और मोहित बंसल। टीवीक्यूए+: वीडियो प्रश्न उत्तर के लिए स्थानिक-अस्थायी ग्राउंडिंग। टेक रिपोर्ट में, arXiv, 2019।


[18] जुन्नान ली, डोंगक्सू ली, कैमिंग ज़ियोनग और स्टीवन होई। ब्लिप: एकीकृत दृष्टि-भाषा समझ और निर्माण के लिए बूटस्ट्रैपिंग लैंग्वेजइमेज प्री-ट्रेनिंग। आईसीएमएल, 2022 में।


[19] चिन-यू लिन. रूज: सारांशों के स्वचालित मूल्यांकन के लिए एक पैकेज. टेक्स्ट समराइजेशन ब्रांचेस आउट में, पृष्ठ 74-81, बार्सिलोना, स्पेन, जुलाई 2004. कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन. यूआरएल https://aclanthology.org/W04-1013.


[20] चाओ-निंग लियू, डिंग-जी चेन, ह्वान-त्ज़ोंग चेन, और टिंग-लुह लियू। A2a: मूवी प्रश्न उत्तर के लिए ध्यान से ध्यान तर्क। कंप्यूटर विज़न-ACCV 2018 में: कंप्यूटर विज़न पर 14वाँ एशियाई सम्मेलन, पर्थ, ऑस्ट्रेलिया, 2-6 दिसंबर, 2018, संशोधित चयनित पत्र, भाग VI 14, पृष्ठ 404-419। स्प्रिंगर, 2019।


[21] फी लियू, जिंग लियू, शिनक्सिन झू, रिचांग होंग और हनकिंग लू। वीडियो स्टोरी प्रश्न उत्तर के लिए क्यूए-अवेयर डायनेमिक नॉर्मलाइजेशन के साथ डुअल हाइरार्किकल टेम्पोरल कन्वोल्यूशनल नेटवर्क। मल्टीमीडिया पर 28वें एसीएम इंटरनेशनल कॉन्फ्रेंस की कार्यवाही में, पृष्ठ 4253-4261, 2020।


[22] सेइल ना, सांघो ली, जीसुंग किम और गुन्ही किम। मूवी स्टोरी समझने के लिए रीड-राइट मेमोरी नेटवर्क। IEEE इंटरनेशनल कॉन्फ्रेंस ऑन कंप्यूटर विज़न की कार्यवाही में, पृष्ठ 677-685, 2017।


[23] पिनेलोपी पापालाम्पिडी, फ्रैंक केलर और मिरेला लापाटा। टर्निंग पॉइंट आइडेंटिफिकेशन के माध्यम से मूवी प्लॉट विश्लेषण। नेचुरल लैंग्वेज प्रोसेसिंग में अनुभवजन्य विधियों पर 2019 सम्मेलन और नेचुरल लैंग्वेज प्रोसेसिंग पर 9वें अंतर्राष्ट्रीय संयुक्त सम्मेलन (ईएमएनएलपी-आईजेसीएनएलपी) की कार्यवाही में, नवंबर 2019।


[24] पिनेलोपी पापालाम्पिडी, फ्रैंक केलर, ली फ़्रेरमैन और मिरेला लापाटा। लेटेंट नैरेटिव स्ट्रक्चर का उपयोग करके स्क्रीनप्ले सारांश। एसोसिएशन फॉर कम्प्यूटेशनल लिंग्विस्टिक्स की वार्षिक बैठक में, 2020।


[25] एलेक रैडफ़ोर्ड, जोंग वुक किम, क्रिस हैलेसी, आदित्य रमेश, गेब्रियल गोह, संधिनी अग्रवाल, गिरीश शास्त्री, अमांडा एस्केल, पामेला मिशकिन, जैक क्लार्क, आदि। प्राकृतिक भाषा पर्यवेक्षण से हस्तांतरणीय दृश्य मॉडल सीखना। मशीन लर्निंग पर अंतर्राष्ट्रीय सम्मेलन में, पृष्ठ 8748-8763। पीएमएलआर, 2021।


[26] एना रोहरबैक, अटूसा तोराबी, मार्कस रोहरबैक, निकेट टंडन, क्रिस्टोफर पाल, ह्यूगो लारोशेल, आरोन कोर्टविले और बर्नट शिएले। मूवी विवरण। आईजेसीवी, 2017।


[27] मकरंद तपस्वी, युकुन झू, रेनर स्टीफेलहेगन, एंटोनियो टोराल्बा, राकेल उर्टसुन और संजा फिडलर। मूवीका: सवाल-जवाब के ज़रिए फिल्मों की कहानियों को समझना। कंप्यूटर विज़न और पैटर्न रिकग्निशन पर IEEE कॉन्फ्रेंस की कार्यवाही में, पृष्ठ 4631-4640, 2016।


[28] बो वू, शौबिन यू, झेनफैंग चेन, जोशुआ बी टेनेनबाम और चुआंग गण। स्टार: वास्तविक दुनिया के वीडियो में स्थित तर्क के लिए एक बेंचमार्क। न्यूरल इंफॉर्मेशन प्रोसेसिंग सिस्टम डेटासेट और बेंचमार्क ट्रैक (राउंड 2) पर 35वें सम्मेलन में, 2021।


[29] जुनबिन ज़ियाओ, ज़िंडी शांग, एंजेला याओ, और टाट-सेंग चुआ। नेक्स्ट-क्यूए: प्रश्न-उत्तर का अगला चरण अस्थायी क्रियाओं की व्याख्या करने के लिए। कंप्यूटर विज़न और पैटर्न रिकॉग्निशन पर IEEE/CVF सम्मेलन की कार्यवाही में, पृष्ठ 9777–9786, 2021।


[30] देजिंग जू, झोउ झाओ, जून शियाओ, फी वू, हानवांग झांग, जियांगन हे, और यूटिंग झुआंग। उपस्थिति और गति पर धीरे-धीरे परिष्कृत ध्यान के माध्यम से वीडियो प्रश्न उत्तर। मल्टीमीडिया पर 25वें एसीएम अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, पृष्ठ 1645-1653, 2017।


[31] एंटोनी यांग, एंटोनी मीच, जोसेफ सिविक, इवान लैपटेव और कॉर्डेलिया श्मिड। बस पूछें: लाखों वर्णित वीडियो से सवालों के जवाब देना सीखें। IEEE/CVF इंटरनेशनल कॉन्फ्रेंस ऑन कंप्यूटर विज़न की कार्यवाही में, पृष्ठ 1686–1697, 2021।


[32] झेंगयुआन यांग, झे गण, जियानफ़ेंग वांग, ज़ियाओवेई हू, युमाओ लू, ज़िचेंग लियू, और लिजुआन वांग। कुछ-शॉट ज्ञान-आधारित vqa के लिए gpt-3 का एक अनुभवजन्य अध्ययन। arXiv प्रीप्रिंट arXiv:2109.05014, 2021.


[33] रोवन ज़ेलर्स, ज़िमिंग लू, जैक हेसल, यंगजे यू, जे सुंग पार्क, जीज़े काओ, अली फरहादी और येजिन चोई। मेरलोट: मल्टीमॉडल न्यूरल स्क्रिप्ट नॉलेज मॉडल। एम. रांज़ाटो, ए. बेगेलज़िमर, वाई. डौफ़िन, पीएस लियांग और जे. वोर्टमैन वॉन, संपादक, एडवांस इन न्यूरल इंफ़ॉर्मेशन प्रोसेसिंग सिस्टम्स, खंड 34, पृष्ठ 23634-23651। करन एसोसिएट्स, इंक., 2021. URL https://proceedings.neurips.cc/paper/ 2021/file/c6d4eb15f1e84a36eff58eca3627c82e-Paper.pdf.


[34] रोवन ज़ेलर्स, जियासेन लू, ज़िमिंग लू, यंगजे यू, यानपेंग झाओ, मोहम्मदरेज़ा सालेही, आदित्य कुसुपति, जैक हेसल, अली फरहादी और येजिन चोई। मेरलोट रिज़र्व: दृष्टि और भाषा और ध्वनि के माध्यम से तंत्रिका लिपि ज्ञान। कंप्यूटर विज़न और पैटर्न रिकॉग्निशन (CVPR) पर IEEE/CVF सम्मेलन की कार्यवाही में, 2022।


[35] एंडी ज़ेंग, एड्रियन वोंग, स्टीफ़न वेल्कर, क्रिज़्सटॉफ़ चोरोमान्स्की, फ़ेडेरिको टॉमबारी, अवीक पुरोहित, माइकल एस रयू, विकास सिंधवानी, जॉनी ली, विंसेंट वानहौके, एट अल. सुकराती मॉडल: भाषा के साथ ज़ीरो-शॉट मल्टीमॉडल रीजनिंग की रचना। 2022.


[36] कुओ-हाओ ज़ेंग, त्सेंग-हंग चेन, चिंग-याओ चुआंग, युआन-होंग लियाओ, जुआन कार्लोस नीबल्स और मिन सन। वीडियो प्रश्न उत्तर सीखने के लिए वीडियो विवरण का लाभ उठाना। आर्टिफिशियल इंटेलिजेंस पर AAAI सम्मेलन की कार्यवाही में, खंड 31, 2017।


[37] जिंगकिंग झांग, याओ झाओ, मोहम्मद सालेह और पीटर लियू। पेगासस: सारगर्भित सारांश के लिए निकाले गए गैप-वाक्यों के साथ प्री-ट्रेनिंग। मशीन लर्निंग पर अंतर्राष्ट्रीय सम्मेलन में, पृष्ठ 11328-11339। पीएमएलआर, 2020।


[38] झोउ झाओ, जिंगहाओ लिन, झिंगुआ जियांग, डेंग कै, शियाओफेई हे, और यूटिंग झुआंग। पदानुक्रमित दोहरे-स्तरीय ध्यान नेटवर्क सीखने के माध्यम से वीडियो प्रश्न उत्तर। मल्टीमीडिया पर 25वें ACM अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, पृष्ठ 1050-1058, 2017।