paint-brush
टास्क डिकंपोज़िशन के माध्यम से फ़िल्म ट्रेलर निर्माण: प्रायोगिक सेटअपद्वारा@kinetograph
117 रीडिंग

टास्क डिकंपोज़िशन के माध्यम से फ़िल्म ट्रेलर निर्माण: प्रायोगिक सेटअप

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने ट्रेलर बनाने के लिए फिल्मों को ग्राफ के रूप में मॉडल किया है, कथात्मक संरचना की पहचान की है और भावनाओं का पूर्वानुमान लगाया है, जो पर्यवेक्षित विधियों से बेहतर है।
featured image - टास्क डिकंपोज़िशन के माध्यम से फ़िल्म ट्रेलर निर्माण: प्रायोगिक सेटअप
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

लेखक:

(1) पिनेलोपी पापालाम्पीडी, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;

(2) फ्रैंक केलर, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;

(3) मिरेला लापाटा, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय।

लिंक की तालिका

4. प्रायोगिक सेटअप

डेटासेट हमारे मॉडल को TRIPODL पर प्रशिक्षित किया गया था, जो TRIPOD डेटासेट [41, 42] का एक विस्तारित संस्करण है जिसमें सिल्वर-मानक TP एनोटेशन (दृश्य-स्तर) [3] और संबंधित वीडियो के साथ 122 पटकथाएं हैं। [4] प्रत्येक फिल्म के लिए, हमने YouTube से यथासंभव अधिक ट्रेलर एकत्र किए, जिनमें आधिकारिक और (गंभीर) प्रशंसक-आधारित, या पुरानी फिल्मों के आधुनिक ट्रेलर शामिल हैं। हमारे एल्गोरिदम द्वारा निर्मित ट्रेलरों का मूल्यांकन करने के लिए, हमने 41 फिल्मों का एक नया होल्ड-आउट सेट भी एकत्र किया। इन फिल्मों को मूवीस्कोप डेटासेट [5] [11] से चुना गया था, जिसमें आधिकारिक मूवी ट्रेलर शामिल हैं। होल्ड-आउट सेट में कोई अतिरिक्त जानकारी नहीं है, जैसे कि पटकथा या टीपी एनोटेशन। TRIPODL के आंकड़े तालिका 1 में प्रस्तुत किए गए हैं।


मूवी और ट्रेलर प्रोसेसिंग पिछले अनुभागों में प्रस्तुत मॉडलिंग दृष्टिकोण यह मानता है कि हम स्क्रीनप्ले दृश्यों और मूवी शॉट्स के बीच पत्राचार जानते हैं। हम डायनामिक टाइम वॉरपिंग (DTW; [36, 42]) का उपयोग करके स्क्रीनप्ले में संवाद को उपशीर्षकों के साथ स्वचालित रूप से संरेखित करके यह मैपिंग प्राप्त करते हैं। हम पहले इस मैपिंग के आधार पर वीडियो को दृश्यों में विभाजित करते हैं, और फिर PySceneDetect[6] का उपयोग करके प्रत्येक दृश्य को शॉट्स में विभाजित करते हैं। कुल मिलाकर 100 से कम फ़्रेम वाले शॉट प्रोसेसिंग और ट्रेलर के हिस्से के रूप में प्रदर्शित करने के लिए बहुत छोटे होते हैं और इसलिए उन्हें छोड़ दिया जाता है।


इसके अलावा, प्रत्येक शॉट के लिए हम दृश्य और श्रव्य विशेषताएँ निकालते हैं। हम तीन अलग-अलग प्रकार की दृश्य विशेषताओं पर विचार करते हैं:


(1) हम प्रति शॉट एक की-फ़्रेम का सैंपल लेते हैं और ImageNet [14] पर ऑब्जेक्ट पहचान के लिए पहले से प्रशिक्षित ResNeXt-101 [56] का उपयोग करके फीचर्स निकालते हैं। (2) हम हर 10 फ़्रेम में से 1 की आवृत्ति के साथ फ़्रेम का सैंपल लेते हैं (हम बड़ी अवधि वाले शॉट्स के लिए इस समय अंतराल को बढ़ाते हैं क्योंकि हमें मेमोरी की समस्या होती है) और Kinetics [10] पर पहले से प्रशिक्षित टू-स्ट्रीम I3D नेटवर्क का उपयोग करके मोशन फीचर्स निकालते हैं। (3) हम हर की-फ़्रेम में व्यक्ति के उदाहरणों का पता लगाने के लिए Detectron2 [54] में कार्यान्वित Faster-RCNN [18] का उपयोग करते हैं और प्रति शॉट शीर्ष चार बाउंडिंग बॉक्स रखते हैं जिनमें संबंधित क्षेत्रीय अभ्यावेदन के साथ सबसे अधिक आत्मविश्वास होता है। हम पहले सभी व्यक्तिगत अभ्यावेदन को समान निचले आयाम में प्रोजेक्ट करते हैं ऑडियो मोडैलिटी के लिए, हम ऑडियोसेट-यूट्यूब कॉर्पस पर पहले से प्रशिक्षित YAMNet का उपयोग करते हैं [16] ऑडियो सेगमेंट को 521 ऑडियो क्लास (जैसे, उपकरण, संगीत, विस्फोट) में वर्गीकृत करने के लिए; दृश्य में शामिल प्रत्येक ऑडियो सेगमेंट के लिए, हम अंतिम परत से सुविधाएँ निकालते हैं। अंत में, हम यूनिवर्सल सेंटेंस एनकोडर (USE; [12]) का उपयोग करके उपशीर्षक और स्क्रीनप्ले दृश्यों से पाठ्य सुविधाएँ [42] निकालते हैं।


मूल्यांकन के उद्देश्य से, हमें यह जानना होगा कि मूवी में कौन से शॉट ट्रेलर के योग्य हैं या नहीं। हम संबंधित ट्रेलर को शॉट्स में विभाजित करके और प्रत्येक शॉट के लिए मूवी के सभी शॉट्स के साथ इसकी दृश्य समानता की गणना करके ऐसा करते हैं। उच्चतम समानता मान वाले शॉट्स को सकारात्मक लेबल प्राप्त होते हैं (यानी, उन्हें ट्रेलर में होना चाहिए)। हालाँकि, चूँकि ट्रेलर में ऐसे शॉट भी होते हैं जो मूवी में नहीं होते हैं (जैसे, टेक्स्ट वाली काली स्क्रीन, या बस ऐसी सामग्री जो अंतिम मूवी में नहीं आई), हम एक सीमा भी निर्धारित करते हैं जिसके नीचे हम ट्रेलर शॉट्स को मूवी शॉट्स से मैप नहीं करते हैं। इस तरह, हम मूवी शॉट्स के लिए सिल्वर-स्टैंडर्ड बाइनरी लेबल बनाते हैं।


भावना लेबल चूंकि TRIPOD में भावना एनोटेशन नहीं होते हैं, इसलिए हम इसके बजाय COSMIC [17] के माध्यम से सिल्वर-स्टैंडर्ड लेबल प्राप्त करते हैं, जो प्राकृतिक भाषा वार्तालापों में भावना और भावना वर्गीकरण के लिए अत्याधुनिक प्रदर्शन के साथ एक सामान्य ज्ञान-निर्देशित ढांचा है। विशेष रूप से, हम COSMIC को MELD [43] पर प्रशिक्षित करते हैं, जिसमें टीवी श्रृंखला फ्रेंड्स के एपिसोड के संवाद होते हैं और यह अन्य भावना वर्गीकरण डेटासेट (जैसे, [9, 29]) की तुलना में हमारे डोमेन के लिए अधिक उपयुक्त है। प्रशिक्षण के बाद, हम COSMIC का उपयोग TRIPOD पटकथाओं के लिए वाक्य-स्तरीय भावना भविष्यवाणियों का उत्पादन करने के लिए करते हैं। किसी दृश्य की भावना उसके वाक्यों की अधिकांश भावना से मेल खाती है। हम टीपी के लिए नियोजित समान वन-टू-मनी मैपिंग का उपयोग करके शॉट्स पर दृश्य-आधारित भावना लेबल प्रोजेक्ट करते हैं।


यह पेपर CC BY-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


[3] https://github.com/ppapalampidi/TRIPOD


[4] https://datashare.ed.ac.uk/handle/10283/3819


[5] http://www.cs.virginia.edu/pc9za/research/moviescope.html


[6] https://github.com/Breakthrough/PySceneDetect