लेखक:  (1) पिनेलोपी पापालाम्पीडी, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;  (2) फ्रैंक केलर, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;  (3) मिरेला लापाटा, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय।  लिंक की तालिका   सार और परिचय   संबंधित कार्य   समस्या सूत्रीकरण   प्रयोगात्मक स्थापना   परिणाम और विश्लेषण   निष्कर्ष और संदर्भ   ए. मॉडल विवरण   बी. कार्यान्वयन विवरण   सी. परिणाम: एब्लेशन अध्ययन  3. समस्या निर्माण  ट्रेलर बनाने के लिए एम शॉट्स (एलएम) की पूरी लंबाई वाली मूवी से एल शॉट्स का चयन करना आवश्यक है। फिल्में जटिल कहानियां पेश करती हैं जिनमें अलग-अलग उप-कथानक या ऐसी घटनाएं हो सकती हैं जो गैर-रैखिक रूप से सामने आती हैं, जबकि अनावश्यक घटनाएं, जिन्हें "फिलर्स" कहा जाता है, मुख्य कहानी को समृद्ध करती हैं। इसलिए, हम यह नहीं मान सकते कि लगातार शॉट आवश्यक रूप से शब्दार्थ से संबंधित हैं। घटनाओं के बीच संबंधों का बेहतर पता लगाने के लिए, हम फिल्मों को ग्राफ के रूप में दर्शाते हैं [४२]। मान लें कि G = (V, E) एक ग्राफ को दर्शाता है जहां कोने V शॉट हैं और किनारे E उनकी शब्दार्थ समानता का प्रतिनिधित्व करते हैं। हम आगे G में शॉट्स के मूल लौकिक क्रम पर विचार करते हैं, केवल पिछले से भविष्य के शॉट्स के लिए निर्देशित किनारों की अनुमति देते हैं। G को एक ऊपरी त्रिकोणीय संक्रमण मैट्रिक्स T द्वारा वर्णित किया गया है  जी के भीतर, हम मानते हैं कि कुछ शॉट फिल्म में मुख्य घटनाओं का वर्णन करते हैं (चित्र 2 में मोटे घेरे) जबकि सभी शॉट्स में एक भावना (सकारात्मक या नकारात्मक) होती है, जिसकी तीव्रता को एक स्कोर (चित्र 2 में हरे/लाल रंग के शेड) द्वारा दर्शाया जाता है। हम जी को पार करने और ट्रेलर शॉट्स के अनुक्रमों का चयन करने के लिए एक एल्गोरिथ्म का प्रस्ताव करते हैं। निम्नलिखित में, हम पहले इस एल्गोरिथ्म (अनुभाग 3.1) का वर्णन करते हैं और फिर चर्चा करते हैं कि ग्राफ जी कैसे सीखा जाता है और टीपी पहचान [41] (अनुभाग 3.2) के माध्यम से मुख्य घटनाओं का पता कैसे लगाया जाता है। अंत में, हम यह भी बताते हैं कि शॉट-आधारित भावना स्कोर की भविष्यवाणी कैसे की जाती है (अनुभाग 3.5)।  3.1. मूवी ग्राफ ट्रैवर्सल   हम कुल मिलाकर L शॉट्स का चयन करते हैं (लक्ष्य ट्रेलर की लंबाई के आधार पर) और चित्र 2 (बोल्ड लाइन) में दर्शाए अनुसार एक प्रस्ताव ट्रेलर अनुक्रम प्राप्त करते हैं। प्रत्येक चरण में, हम बनाए गए भावना प्रवाह और अब तक पहचाने गए TPs (क्रमशः एल्गोरिदम 1 में लाइनें 10 और 13-14) का ट्रैक रखते हैं। यदि पथ में कोई शॉट या उसके तत्काल पड़ोसी जोड़े गए हैं, तो ट्रेलर में प्रस्तुति के लिए एक TP ईवेंट चुना गया है।  3.2. टीपी पहचान   वीडियो-आधारित मॉडल शॉट-स्तरीय टीपी लेबल तक पहुँच मानता है। हालाँकि, टीपी पहचान के लिए एकमात्र डेटासेट जिसके बारे में हम जानते हैं वह है TRIPOD [41], जिसमें स्क्रीनप्ले के आधार पर दृश्य-स्तरीय लेबल शामिल हैं। अधिक बारीक-बारीक लेबल प्राप्त करने के लिए, हम एक सरल वन-टू-मैनी मैपिंग (विवरण के लिए अनुभाग 4 देखें) का अनुसरण करते हुए शॉट्स पर दृश्य-आधारित एनोटेशन प्रोजेक्ट करते हैं। चूँकि हमारा प्रशिक्षण संकेत अपरिहार्य रूप से शोरगुल वाला है, इसलिए हम अनुमान लगाते हैं कि स्क्रीनप्ले तक पहुँच वीडियो-आधारित मॉडल को ऐसे शॉट्स का चयन करने के लिए प्रोत्साहित करेगी जो प्रत्येक टीपी के लिए अधिक प्रतिनिधि हैं। दूसरे शब्दों में, स्क्रीनप्ले विशेषाधिकार प्राप्त ज्ञान और एक अंतर्निहित पर्यवेक्षण संकेत का प्रतिनिधित्व करते हैं, जबकि अनुमान के दौरान अतिरिक्त पूर्व-प्रसंस्करण की आवश्यकता को कम करते हैं। इसके अलावा, स्क्रीनप्ले अतिरिक्त जानकारी का खजाना प्रदान करते हैं, उदाहरण के लिए, किसी दृश्य में पात्रों और उनकी भूमिकाओं के बारे में, या उनके कार्यों और भावनाओं के बारे में (जो कैमरे द्वारा देखी गई रेखाओं द्वारा व्यक्त की जाती हैं)। यह जानकारी अन्यथा वीडियो में सटीक रूप से स्थानीयकृत करना मुश्किल हो सकता है। इसके अलावा, पटकथाओं के लेबल रहित पाठ्य संग्रह को प्राप्त करना अपेक्षाकृत आसान है और इसका उपयोग हमारे नेटवर्क को पूर्व-प्रशिक्षण देने के लिए किया जा सकता है।   3.3. ज्ञान आसवन  अब हम दो नेटवर्कों के लिए अपनी संयुक्त प्रशिक्षण व्यवस्था का वर्णन करते हैं, जो डाटा स्ट्रीम (मल्टीमॉडल बनाम केवल पाठ) के संदर्भ में फिल्म के विभिन्न दृश्यों को समाहित करता है और अर्थ इकाइयों (शॉट्स बनाम दृश्य) में उनका विभाजन करता है।     हम दो नेटवर्कों के बीच एक दूसरे नियमन हानि का उपयोग करने का प्रस्ताव करते हैं ताकि दो ग्राफ-आधारित प्रतिनिधित्वों (यानी, वीडियो शॉट्स और स्क्रीनप्ले दृश्यों पर) के बीच स्थिरता को भी लागू किया जा सके। इस हानि का उद्देश्य दोहरा है: दो नेटवर्कों के लिए टीपी भविष्यवाणियों में सुधार करना, जैसा कि विपरीत प्रतिनिधित्व सीखने पर पिछले काम में दिखाया गया है [38, 39, 48], और शॉट्स के बीच अधिक सटीक कनेक्शन सीखने में भी मदद करना (याद रखें कि शॉट-आधारित ग्राफ हमारे ट्रेलर जनरेशन एल्गोरिदम के लिए इनपुट के रूप में कार्य करता है; अनुभाग 3.1)। स्क्रीनप्ले दृश्यों की तुलना में, जो एक फिल्म में स्व-निहित घटनाओं का वर्णन करते हैं, वीडियो शॉट केवल कुछ सेकंड लंबे होते हैं और उनके अर्थ के लिए आसपास के संदर्भ पर निर्भर होते हैं  प्रतिनिधित्व संगति हानि  3.4. स्व-पर्यवेक्षित पूर्व-प्रशिक्षण  प्रीट्रेनिंग का उद्देश्य पटकथाओं से बेहतर दृश्य प्रस्तुतीकरण सीखना है, जो फिल्म वीडियो की तुलना में अधिक सुलभ है (उदाहरण के लिए, कम कॉपीराइट मुद्दे और कम कम्प्यूटेशनल ओवरहेड), इस उम्मीद में कि यह ज्ञान हमारी संगतता हानि के माध्यम से वीडियो-आधारित नेटवर्क में स्थानांतरित हो जाएगा।   3.5. भावना पूर्वानुमान  अंत में, हमारा मॉडल इस बात को ध्यान में रखता है कि एक शॉट से दूसरे शॉट में भावना कैसे प्रवाहित होती है। हम उसी संयुक्त आर्किटेक्चर (अनुभाग 3.3) और प्रशिक्षण व्यवस्था के साथ प्रति शॉट भावना स्कोर की भविष्यवाणी करते हैं जिसका उपयोग हम टीपी पहचान के लिए करते हैं। वीडियो-आधारित नेटवर्क को भावना लेबल (यानी, सकारात्मक, नकारात्मक, तटस्थ) वाले शॉट्स पर प्रशिक्षित किया जाता है, जबकि स्क्रीनप्ले-आधारित नेटवर्क को भावना लेबल वाले दृश्यों पर प्रशिक्षित किया जाता है (अनुभाग 4 बताता है कि लेबल कैसे प्राप्त किए जाते हैं)। प्रशिक्षण के बाद, हम भावना प्रवाह को पकड़ने और उच्च और निम्न-तीव्रता वाले शॉट्स के बीच भेदभाव करने के लिए प्रति शॉट भावना लेबल पर संभाव्यता वितरण की भविष्यवाणी करते हैं (विवरण के लिए परिशिष्ट देखें)।   यह पेपर CC BY-SA 4.0 DEED लाइसेंस के अंतर्गत   है। arxiv पर उपलब्ध

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

कार्य विघटन के माध्यम से फिल्म ट्रेलर निर्माण: समस्या निर्माण

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

अपने वर्कफ़्लो को 10 गुना बेहतर कैसे बनाएं: 17 ज़रूरी ऐप्स

डिजिटल खानाबदोशों सुनो: थाईलैंड के नए डीटीवी वीज़ा के बारे में आपको क्या जानना चाहिए

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

Paint us Red and Call us Santa! Our Devs Just Gifted You a Sleigh of New Features!

अपने वर्कफ़्लो को 10 गुना बेहतर कैसे बनाएं: 17 ज़रूरी ऐप्स

डिजिटल खानाबदोशों सुनो: थाईलैंड के नए डीटीवी वीज़ा के बारे में आपको क्या जानना चाहिए

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

Paint us Red and Call us Santa! Our Devs Just Gifted You a Sleigh of New Features!

Light-Mode

Classic

Newspaper

Dark-Mode

Neon Noir

Minty

HN StartUps