लेखक:
(1) पिनेलोपी पापालाम्पीडी, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;
(2) फ्रैंक केलर, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;
(3) मिरेला लापाटा, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय।
ट्रेलर बनाने के लिए एम शॉट्स (एलएम) की पूरी लंबाई वाली मूवी से एल शॉट्स का चयन करना आवश्यक है। फिल्में जटिल कहानियां पेश करती हैं जिनमें अलग-अलग उप-कथानक या ऐसी घटनाएं हो सकती हैं जो गैर-रैखिक रूप से सामने आती हैं, जबकि अनावश्यक घटनाएं, जिन्हें "फिलर्स" कहा जाता है, मुख्य कहानी को समृद्ध करती हैं। इसलिए, हम यह नहीं मान सकते कि लगातार शॉट आवश्यक रूप से शब्दार्थ से संबंधित हैं। घटनाओं के बीच संबंधों का बेहतर पता लगाने के लिए, हम फिल्मों को ग्राफ के रूप में दर्शाते हैं [४२]। मान लें कि G = (V, E) एक ग्राफ को दर्शाता है जहां कोने V शॉट हैं और किनारे E उनकी शब्दार्थ समानता का प्रतिनिधित्व करते हैं। हम आगे G में शॉट्स के मूल लौकिक क्रम पर विचार करते हैं, केवल पिछले से भविष्य के शॉट्स के लिए निर्देशित किनारों की अनुमति देते हैं। G को एक ऊपरी त्रिकोणीय संक्रमण मैट्रिक्स T द्वारा वर्णित किया गया है
जी के भीतर, हम मानते हैं कि कुछ शॉट फिल्म में मुख्य घटनाओं का वर्णन करते हैं (चित्र 2 में मोटे घेरे) जबकि सभी शॉट्स में एक भावना (सकारात्मक या नकारात्मक) होती है, जिसकी तीव्रता को एक स्कोर (चित्र 2 में हरे/लाल रंग के शेड) द्वारा दर्शाया जाता है। हम जी को पार करने और ट्रेलर शॉट्स के अनुक्रमों का चयन करने के लिए एक एल्गोरिथ्म का प्रस्ताव करते हैं। निम्नलिखित में, हम पहले इस एल्गोरिथ्म (अनुभाग 3.1) का वर्णन करते हैं और फिर चर्चा करते हैं कि ग्राफ जी कैसे सीखा जाता है और टीपी पहचान [41] (अनुभाग 3.2) के माध्यम से मुख्य घटनाओं का पता कैसे लगाया जाता है। अंत में, हम यह भी बताते हैं कि शॉट-आधारित भावना स्कोर की भविष्यवाणी कैसे की जाती है (अनुभाग 3.5)।
हम कुल मिलाकर L शॉट्स का चयन करते हैं (लक्ष्य ट्रेलर की लंबाई के आधार पर) और चित्र 2 (बोल्ड लाइन) में दर्शाए अनुसार एक प्रस्ताव ट्रेलर अनुक्रम प्राप्त करते हैं। प्रत्येक चरण में, हम बनाए गए भावना प्रवाह और अब तक पहचाने गए TPs (क्रमशः एल्गोरिदम 1 में लाइनें 10 और 13-14) का ट्रैक रखते हैं। यदि पथ में कोई शॉट या उसके तत्काल पड़ोसी जोड़े गए हैं, तो ट्रेलर में प्रस्तुति के लिए एक TP ईवेंट चुना गया है।
वीडियो-आधारित मॉडल शॉट-स्तरीय टीपी लेबल तक पहुँच मानता है। हालाँकि, टीपी पहचान के लिए एकमात्र डेटासेट जिसके बारे में हम जानते हैं वह है TRIPOD [41], जिसमें स्क्रीनप्ले के आधार पर दृश्य-स्तरीय लेबल शामिल हैं। अधिक बारीक-बारीक लेबल प्राप्त करने के लिए, हम एक सरल वन-टू-मैनी मैपिंग (विवरण के लिए अनुभाग 4 देखें) का अनुसरण करते हुए शॉट्स पर दृश्य-आधारित एनोटेशन प्रोजेक्ट करते हैं। चूँकि हमारा प्रशिक्षण संकेत अपरिहार्य रूप से शोरगुल वाला है, इसलिए हम अनुमान लगाते हैं कि स्क्रीनप्ले तक पहुँच वीडियो-आधारित मॉडल को ऐसे शॉट्स का चयन करने के लिए प्रोत्साहित करेगी जो प्रत्येक टीपी के लिए अधिक प्रतिनिधि हैं। दूसरे शब्दों में, स्क्रीनप्ले विशेषाधिकार प्राप्त ज्ञान और एक अंतर्निहित पर्यवेक्षण संकेत का प्रतिनिधित्व करते हैं, जबकि अनुमान के दौरान अतिरिक्त पूर्व-प्रसंस्करण की आवश्यकता को कम करते हैं। इसके अलावा, स्क्रीनप्ले अतिरिक्त जानकारी का खजाना प्रदान करते हैं, उदाहरण के लिए, किसी दृश्य में पात्रों और उनकी भूमिकाओं के बारे में, या उनके कार्यों और भावनाओं के बारे में (जो कैमरे द्वारा देखी गई रेखाओं द्वारा व्यक्त की जाती हैं)। यह जानकारी अन्यथा वीडियो में सटीक रूप से स्थानीयकृत करना मुश्किल हो सकता है। इसके अलावा, पटकथाओं के लेबल रहित पाठ्य संग्रह को प्राप्त करना अपेक्षाकृत आसान है और इसका उपयोग हमारे नेटवर्क को पूर्व-प्रशिक्षण देने के लिए किया जा सकता है।
अब हम दो नेटवर्कों के लिए अपनी संयुक्त प्रशिक्षण व्यवस्था का वर्णन करते हैं, जो डाटा स्ट्रीम (मल्टीमॉडल बनाम केवल पाठ) के संदर्भ में फिल्म के विभिन्न दृश्यों को समाहित करता है और अर्थ इकाइयों (शॉट्स बनाम दृश्य) में उनका विभाजन करता है।
प्रतिनिधित्व संगति हानि हम दो नेटवर्कों के बीच एक दूसरे नियमन हानि का उपयोग करने का प्रस्ताव करते हैं ताकि दो ग्राफ-आधारित प्रतिनिधित्वों (यानी, वीडियो शॉट्स और स्क्रीनप्ले दृश्यों पर) के बीच स्थिरता को भी लागू किया जा सके। इस हानि का उद्देश्य दोहरा है: दो नेटवर्कों के लिए टीपी भविष्यवाणियों में सुधार करना, जैसा कि विपरीत प्रतिनिधित्व सीखने पर पिछले काम में दिखाया गया है [38, 39, 48], और शॉट्स के बीच अधिक सटीक कनेक्शन सीखने में भी मदद करना (याद रखें कि शॉट-आधारित ग्राफ हमारे ट्रेलर जनरेशन एल्गोरिदम के लिए इनपुट के रूप में कार्य करता है; अनुभाग 3.1)। स्क्रीनप्ले दृश्यों की तुलना में, जो एक फिल्म में स्व-निहित घटनाओं का वर्णन करते हैं, वीडियो शॉट केवल कुछ सेकंड लंबे होते हैं और उनके अर्थ के लिए आसपास के संदर्भ पर निर्भर होते हैं
प्रीट्रेनिंग का उद्देश्य पटकथाओं से बेहतर दृश्य प्रस्तुतीकरण सीखना है, जो फिल्म वीडियो की तुलना में अधिक सुलभ है (उदाहरण के लिए, कम कॉपीराइट मुद्दे और कम कम्प्यूटेशनल ओवरहेड), इस उम्मीद में कि यह ज्ञान हमारी संगतता हानि के माध्यम से वीडियो-आधारित नेटवर्क में स्थानांतरित हो जाएगा।
अंत में, हमारा मॉडल इस बात को ध्यान में रखता है कि एक शॉट से दूसरे शॉट में भावना कैसे प्रवाहित होती है। हम उसी संयुक्त आर्किटेक्चर (अनुभाग 3.3) और प्रशिक्षण व्यवस्था के साथ प्रति शॉट भावना स्कोर की भविष्यवाणी करते हैं जिसका उपयोग हम टीपी पहचान के लिए करते हैं। वीडियो-आधारित नेटवर्क को भावना लेबल (यानी, सकारात्मक, नकारात्मक, तटस्थ) वाले शॉट्स पर प्रशिक्षित किया जाता है, जबकि स्क्रीनप्ले-आधारित नेटवर्क को भावना लेबल वाले दृश्यों पर प्रशिक्षित किया जाता है (अनुभाग 4 बताता है कि लेबल कैसे प्राप्त किए जाते हैं)। प्रशिक्षण के बाद, हम भावना प्रवाह को पकड़ने और उच्च और निम्न-तीव्रता वाले शॉट्स के बीच भेदभाव करने के लिए प्रति शॉट भावना लेबल पर संभाव्यता वितरण की भविष्यवाणी करते हैं (विवरण के लिए परिशिष्ट देखें)।
यह पेपर CC BY-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।