लेखक:
(1) पिनेलोपी पापालाम्पीडी, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;
(2) फ्रैंक केलर, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;
(3) मिरेला लापाटा, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय।
डेटासेट हमारे मॉडल को TRIPODL पर प्रशिक्षित किया गया था, जो TRIPOD डेटासेट [41, 42] का एक विस्तारित संस्करण है जिसमें सिल्वर-मानक TP एनोटेशन (दृश्य-स्तर) [3] और संबंधित वीडियो के साथ 122 पटकथाएं हैं। [4] प्रत्येक फिल्म के लिए, हमने YouTube से यथासंभव अधिक ट्रेलर एकत्र किए, जिनमें आधिकारिक और (गंभीर) प्रशंसक-आधारित, या पुरानी फिल्मों के आधुनिक ट्रेलर शामिल हैं। हमारे एल्गोरिदम द्वारा निर्मित ट्रेलरों का मूल्यांकन करने के लिए, हमने 41 फिल्मों का एक नया होल्ड-आउट सेट भी एकत्र किया। इन फिल्मों को मूवीस्कोप डेटासेट [5] [11] से चुना गया था, जिसमें आधिकारिक मूवी ट्रेलर शामिल हैं। होल्ड-आउट सेट में कोई अतिरिक्त जानकारी नहीं है, जैसे कि पटकथा या टीपी एनोटेशन। TRIPODL के आंकड़े तालिका 1 में प्रस्तुत किए गए हैं।
मूवी और ट्रेलर प्रोसेसिंग पिछले अनुभागों में प्रस्तुत मॉडलिंग दृष्टिकोण यह मानता है कि हम स्क्रीनप्ले दृश्यों और मूवी शॉट्स के बीच पत्राचार जानते हैं। हम डायनामिक टाइम वॉरपिंग (DTW; [36, 42]) का उपयोग करके स्क्रीनप्ले में संवाद को उपशीर्षकों के साथ स्वचालित रूप से संरेखित करके यह मैपिंग प्राप्त करते हैं। हम पहले इस मैपिंग के आधार पर वीडियो को दृश्यों में विभाजित करते हैं, और फिर PySceneDetect[6] का उपयोग करके प्रत्येक दृश्य को शॉट्स में विभाजित करते हैं। कुल मिलाकर 100 से कम फ़्रेम वाले शॉट प्रोसेसिंग और ट्रेलर के हिस्से के रूप में प्रदर्शित करने के लिए बहुत छोटे होते हैं और इसलिए उन्हें छोड़ दिया जाता है।
इसके अलावा, प्रत्येक शॉट के लिए हम दृश्य और श्रव्य विशेषताएँ निकालते हैं। हम तीन अलग-अलग प्रकार की दृश्य विशेषताओं पर विचार करते हैं:
(1) हम प्रति शॉट एक की-फ़्रेम का सैंपल लेते हैं और ImageNet [14] पर ऑब्जेक्ट पहचान के लिए पहले से प्रशिक्षित ResNeXt-101 [56] का उपयोग करके फीचर्स निकालते हैं। (2) हम हर 10 फ़्रेम में से 1 की आवृत्ति के साथ फ़्रेम का सैंपल लेते हैं (हम बड़ी अवधि वाले शॉट्स के लिए इस समय अंतराल को बढ़ाते हैं क्योंकि हमें मेमोरी की समस्या होती है) और Kinetics [10] पर पहले से प्रशिक्षित टू-स्ट्रीम I3D नेटवर्क का उपयोग करके मोशन फीचर्स निकालते हैं। (3) हम हर की-फ़्रेम में व्यक्ति के उदाहरणों का पता लगाने के लिए Detectron2 [54] में कार्यान्वित Faster-RCNN [18] का उपयोग करते हैं और प्रति शॉट शीर्ष चार बाउंडिंग बॉक्स रखते हैं जिनमें संबंधित क्षेत्रीय अभ्यावेदन के साथ सबसे अधिक आत्मविश्वास होता है। हम पहले सभी व्यक्तिगत अभ्यावेदन को समान निचले आयाम में प्रोजेक्ट करते हैं ऑडियो मोडैलिटी के लिए, हम ऑडियोसेट-यूट्यूब कॉर्पस पर पहले से प्रशिक्षित YAMNet का उपयोग करते हैं [16] ऑडियो सेगमेंट को 521 ऑडियो क्लास (जैसे, उपकरण, संगीत, विस्फोट) में वर्गीकृत करने के लिए; दृश्य में शामिल प्रत्येक ऑडियो सेगमेंट के लिए, हम अंतिम परत से सुविधाएँ निकालते हैं। अंत में, हम यूनिवर्सल सेंटेंस एनकोडर (USE; [12]) का उपयोग करके उपशीर्षक और स्क्रीनप्ले दृश्यों से पाठ्य सुविधाएँ [42] निकालते हैं।
मूल्यांकन के उद्देश्य से, हमें यह जानना होगा कि मूवी में कौन से शॉट ट्रेलर के योग्य हैं या नहीं। हम संबंधित ट्रेलर को शॉट्स में विभाजित करके और प्रत्येक शॉट के लिए मूवी के सभी शॉट्स के साथ इसकी दृश्य समानता की गणना करके ऐसा करते हैं। उच्चतम समानता मान वाले शॉट्स को सकारात्मक लेबल प्राप्त होते हैं (यानी, उन्हें ट्रेलर में होना चाहिए)। हालाँकि, चूँकि ट्रेलर में ऐसे शॉट भी होते हैं जो मूवी में नहीं होते हैं (जैसे, टेक्स्ट वाली काली स्क्रीन, या बस ऐसी सामग्री जो अंतिम मूवी में नहीं आई), हम एक सीमा भी निर्धारित करते हैं जिसके नीचे हम ट्रेलर शॉट्स को मूवी शॉट्स से मैप नहीं करते हैं। इस तरह, हम मूवी शॉट्स के लिए सिल्वर-स्टैंडर्ड बाइनरी लेबल बनाते हैं।
भावना लेबल चूंकि TRIPOD में भावना एनोटेशन नहीं होते हैं, इसलिए हम इसके बजाय COSMIC [17] के माध्यम से सिल्वर-स्टैंडर्ड लेबल प्राप्त करते हैं, जो प्राकृतिक भाषा वार्तालापों में भावना और भावना वर्गीकरण के लिए अत्याधुनिक प्रदर्शन के साथ एक सामान्य ज्ञान-निर्देशित ढांचा है। विशेष रूप से, हम COSMIC को MELD [43] पर प्रशिक्षित करते हैं, जिसमें टीवी श्रृंखला फ्रेंड्स के एपिसोड के संवाद होते हैं और यह अन्य भावना वर्गीकरण डेटासेट (जैसे, [9, 29]) की तुलना में हमारे डोमेन के लिए अधिक उपयुक्त है। प्रशिक्षण के बाद, हम COSMIC का उपयोग TRIPOD पटकथाओं के लिए वाक्य-स्तरीय भावना भविष्यवाणियों का उत्पादन करने के लिए करते हैं। किसी दृश्य की भावना उसके वाक्यों की अधिकांश भावना से मेल खाती है। हम टीपी के लिए नियोजित समान वन-टू-मनी मैपिंग का उपयोग करके शॉट्स पर दृश्य-आधारित भावना लेबल प्रोजेक्ट करते हैं।
यह पेपर CC BY-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
[3] https://github.com/ppapalampidi/TRIPOD
[4] https://datashare.ed.ac.uk/handle/10283/3819
[5] http://www.cs.virginia.edu/pc9za/research/moviescope.html
[6] https://github.com/Breakthrough/PySceneDetect