लेखक:  (1) पिनेलोपी पापालाम्पीडी, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;  (2) फ्रैंक केलर, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;  (3) मिरेला लापाटा, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय।  लिंक की तालिका   सार और परिचय   संबंधित कार्य   समस्या सूत्रीकरण   प्रयोगात्मक स्थापना   परिणाम और विश्लेषण   निष्कर्ष और संदर्भ   ए. मॉडल विवरण   बी. कार्यान्वयन विवरण   सी. परिणाम: एब्लेशन अध्ययन  4. प्रायोगिक सेटअप    हमारे मॉडल को TRIPODL पर प्रशिक्षित किया गया था, जो TRIPOD डेटासेट [41, 42] का एक विस्तारित संस्करण है जिसमें सिल्वर-मानक TP एनोटेशन (दृश्य-स्तर) [3] और संबंधित वीडियो के साथ 122 पटकथाएं हैं। [4] प्रत्येक फिल्म के लिए, हमने YouTube से यथासंभव अधिक ट्रेलर एकत्र किए, जिनमें आधिकारिक और (गंभीर) प्रशंसक-आधारित, या पुरानी फिल्मों के आधुनिक ट्रेलर शामिल हैं। हमारे एल्गोरिदम द्वारा निर्मित ट्रेलरों का मूल्यांकन करने के लिए, हमने 41 फिल्मों का एक नया होल्ड-आउट सेट भी एकत्र किया। इन फिल्मों को मूवीस्कोप डेटासेट [5] [11] से चुना गया था, जिसमें आधिकारिक मूवी ट्रेलर शामिल हैं। होल्ड-आउट सेट में कोई अतिरिक्त जानकारी नहीं है, जैसे कि पटकथा या टीपी एनोटेशन। TRIPODL के आंकड़े तालिका 1 में प्रस्तुत किए गए हैं। डेटासेट  मूवी और ट्रेलर प्रोसेसिंग पिछले अनुभागों में प्रस्तुत मॉडलिंग दृष्टिकोण यह मानता है कि हम स्क्रीनप्ले दृश्यों और मूवी शॉट्स के बीच पत्राचार जानते हैं। हम डायनामिक टाइम वॉरपिंग (DTW; [36, 42]) का उपयोग करके स्क्रीनप्ले में संवाद को उपशीर्षकों के साथ स्वचालित रूप से संरेखित करके यह मैपिंग प्राप्त करते हैं। हम पहले इस मैपिंग के आधार पर वीडियो को दृश्यों में विभाजित करते हैं, और फिर PySceneDetect[6] का उपयोग करके प्रत्येक दृश्य को शॉट्स में विभाजित करते हैं। कुल मिलाकर 100 से कम फ़्रेम वाले शॉट प्रोसेसिंग और ट्रेलर के हिस्से के रूप में प्रदर्शित करने के लिए बहुत छोटे होते हैं और इसलिए उन्हें छोड़ दिया जाता है।  इसके अलावा, प्रत्येक शॉट के लिए हम दृश्य और श्रव्य विशेषताएँ निकालते हैं। हम तीन अलग-अलग प्रकार की दृश्य विशेषताओं पर विचार करते हैं:  (1) हम प्रति शॉट एक की-फ़्रेम का सैंपल लेते हैं और ImageNet [14] पर ऑब्जेक्ट पहचान के लिए पहले से प्रशिक्षित ResNeXt-101 [56] का उपयोग करके फीचर्स निकालते हैं। (2) हम हर 10 फ़्रेम में से 1 की आवृत्ति के साथ फ़्रेम का सैंपल लेते हैं (हम बड़ी अवधि वाले शॉट्स के लिए इस समय अंतराल को बढ़ाते हैं क्योंकि हमें मेमोरी की समस्या होती है) और Kinetics [10] पर पहले से प्रशिक्षित टू-स्ट्रीम I3D नेटवर्क का उपयोग करके मोशन फीचर्स निकालते हैं। (3) हम हर की-फ़्रेम में व्यक्ति के उदाहरणों का पता लगाने के लिए Detectron2 [54] में कार्यान्वित Faster-RCNN [18] का उपयोग करते हैं और प्रति शॉट शीर्ष चार बाउंडिंग बॉक्स रखते हैं जिनमें संबंधित क्षेत्रीय अभ्यावेदन के साथ सबसे अधिक आत्मविश्वास होता है। हम पहले सभी व्यक्तिगत अभ्यावेदन को समान निचले आयाम में प्रोजेक्ट करते हैं ऑडियो मोडैलिटी के लिए, हम ऑडियोसेट-यूट्यूब कॉर्पस पर पहले से प्रशिक्षित YAMNet का उपयोग करते हैं [16] ऑडियो सेगमेंट को 521 ऑडियो क्लास (जैसे, उपकरण, संगीत, विस्फोट) में वर्गीकृत करने के लिए; दृश्य में शामिल प्रत्येक ऑडियो सेगमेंट के लिए, हम अंतिम परत से सुविधाएँ निकालते हैं। अंत में, हम यूनिवर्सल सेंटेंस एनकोडर (USE; [12]) का उपयोग करके उपशीर्षक और स्क्रीनप्ले दृश्यों से पाठ्य सुविधाएँ [42] निकालते हैं।  मूल्यांकन के उद्देश्य से, हमें यह जानना होगा कि मूवी में कौन से शॉट ट्रेलर के योग्य हैं या नहीं। हम संबंधित ट्रेलर को शॉट्स में विभाजित करके और प्रत्येक शॉट के लिए मूवी के सभी शॉट्स के साथ इसकी दृश्य समानता की गणना करके ऐसा करते हैं। उच्चतम समानता मान वाले शॉट्स को सकारात्मक लेबल प्राप्त होते हैं (यानी, उन्हें ट्रेलर में होना चाहिए)। हालाँकि, चूँकि ट्रेलर में ऐसे शॉट भी होते हैं जो मूवी में नहीं होते हैं (जैसे, टेक्स्ट वाली काली स्क्रीन, या बस ऐसी सामग्री जो अंतिम मूवी में नहीं आई), हम एक सीमा भी निर्धारित करते हैं जिसके नीचे हम ट्रेलर शॉट्स को मूवी शॉट्स से मैप नहीं करते हैं। इस तरह, हम मूवी शॉट्स के लिए सिल्वर-स्टैंडर्ड बाइनरी लेबल बनाते हैं।    चूंकि TRIPOD में भावना एनोटेशन नहीं होते हैं, इसलिए हम इसके बजाय COSMIC [17] के माध्यम से सिल्वर-स्टैंडर्ड लेबल प्राप्त करते हैं, जो प्राकृतिक भाषा वार्तालापों में भावना और भावना वर्गीकरण के लिए अत्याधुनिक प्रदर्शन के साथ एक सामान्य ज्ञान-निर्देशित ढांचा है। विशेष रूप से, हम COSMIC को MELD [43] पर प्रशिक्षित करते हैं, जिसमें टीवी श्रृंखला फ्रेंड्स के एपिसोड के संवाद होते हैं और यह अन्य भावना वर्गीकरण डेटासेट (जैसे, [9, 29]) की तुलना में हमारे डोमेन के लिए अधिक उपयुक्त है। प्रशिक्षण के बाद, हम COSMIC का उपयोग TRIPOD पटकथाओं के लिए वाक्य-स्तरीय भावना भविष्यवाणियों का उत्पादन करने के लिए करते हैं। किसी दृश्य की भावना उसके वाक्यों की अधिकांश भावना से मेल खाती है। हम टीपी के लिए नियोजित समान वन-टू-मनी मैपिंग का उपयोग करके शॉट्स पर दृश्य-आधारित भावना लेबल प्रोजेक्ट करते हैं। भावना लेबल  यह पेपर CC BY-SA 4.0 DEED लाइसेंस के अंतर्गत   है। arxiv पर उपलब्ध  [3] https://github.com/ppapalampidi/TRIPOD  [4] https://datashare.ed.ac.uk/handle/10283/3819  [5] http://www.cs.virginia.edu/pc9za/research/moviescope.html  [6] https://github.com/Breakthrough/PySceneDetect

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

टास्क डिकंपोज़िशन के माध्यम से फ़िल्म ट्रेलर निर्माण: प्रायोगिक सेटअप

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

AI की शक्ति को उन्मुक्त करना। अत्याधुनिक तकनीकों की एक व्यवस्थित समीक्षा: सार और परिचय

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

अपने वर्कफ़्लो को 10 गुना बेहतर कैसे बनाएं: 17 ज़रूरी ऐप्स

He/Him/Master of Discovery

AI की शक्ति को उन्मुक्त करना। अत्याधुनिक तकनीकों की एक व्यवस्थित समीक्षा: सार और परिचय

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

अपने वर्कफ़्लो को 10 गुना बेहतर कैसे बनाएं: 17 ज़रूरी ऐप्स

He/Him/Master of Discovery

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps