paint-brush
कार्य विघटन के माध्यम से फिल्म ट्रेलर निर्माण: समस्या निर्माणद्वारा@kinetograph
103 रीडिंग

कार्य विघटन के माध्यम से फिल्म ट्रेलर निर्माण: समस्या निर्माण

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने ट्रेलर बनाने के लिए फिल्मों को ग्राफ के रूप में मॉडल किया है, कथात्मक संरचना की पहचान की है और भावनाओं का पूर्वानुमान लगाया है, जो पर्यवेक्षित विधियों से बेहतर है।
featured image - कार्य विघटन के माध्यम से फिल्म ट्रेलर निर्माण: समस्या निर्माण
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

लेखक:

(1) पिनेलोपी पापालाम्पीडी, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;

(2) फ्रैंक केलर, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;

(3) मिरेला लापाटा, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय।

लिंक की तालिका

3. समस्या निर्माण

ट्रेलर बनाने के लिए एम शॉट्स (एलएम) की पूरी लंबाई वाली मूवी से एल शॉट्स का चयन करना आवश्यक है। फिल्में जटिल कहानियां पेश करती हैं जिनमें अलग-अलग उप-कथानक या ऐसी घटनाएं हो सकती हैं जो गैर-रैखिक रूप से सामने आती हैं, जबकि अनावश्यक घटनाएं, जिन्हें "फिलर्स" कहा जाता है, मुख्य कहानी को समृद्ध करती हैं। इसलिए, हम यह नहीं मान सकते कि लगातार शॉट आवश्यक रूप से शब्दार्थ से संबंधित हैं। घटनाओं के बीच संबंधों का बेहतर पता लगाने के लिए, हम फिल्मों को ग्राफ के रूप में दर्शाते हैं [४२]। मान लें कि G = (V, E) एक ग्राफ को दर्शाता है जहां कोने V शॉट हैं और किनारे E उनकी शब्दार्थ समानता का प्रतिनिधित्व करते हैं। हम आगे G में शॉट्स के मूल लौकिक क्रम पर विचार करते हैं, केवल पिछले से भविष्य के शॉट्स के लिए निर्देशित किनारों की अनुमति देते हैं। G को एक ऊपरी त्रिकोणीय संक्रमण मैट्रिक्स T द्वारा वर्णित किया गया है


जी के भीतर, हम मानते हैं कि कुछ शॉट फिल्म में मुख्य घटनाओं का वर्णन करते हैं (चित्र 2 में मोटे घेरे) जबकि सभी शॉट्स में एक भावना (सकारात्मक या नकारात्मक) होती है, जिसकी तीव्रता को एक स्कोर (चित्र 2 में हरे/लाल रंग के शेड) द्वारा दर्शाया जाता है। हम जी को पार करने और ट्रेलर शॉट्स के अनुक्रमों का चयन करने के लिए एक एल्गोरिथ्म का प्रस्ताव करते हैं। निम्नलिखित में, हम पहले इस एल्गोरिथ्म (अनुभाग 3.1) का वर्णन करते हैं और फिर चर्चा करते हैं कि ग्राफ जी कैसे सीखा जाता है और टीपी पहचान [41] (अनुभाग 3.2) के माध्यम से मुख्य घटनाओं का पता कैसे लगाया जाता है। अंत में, हम यह भी बताते हैं कि शॉट-आधारित भावना स्कोर की भविष्यवाणी कैसे की जाती है (अनुभाग 3.5)।

3.1. मूवी ग्राफ ट्रैवर्सल




हम कुल मिलाकर L शॉट्स का चयन करते हैं (लक्ष्य ट्रेलर की लंबाई के आधार पर) और चित्र 2 (बोल्ड लाइन) में दर्शाए अनुसार एक प्रस्ताव ट्रेलर अनुक्रम प्राप्त करते हैं। प्रत्येक चरण में, हम बनाए गए भावना प्रवाह और अब तक पहचाने गए TPs (क्रमशः एल्गोरिदम 1 में लाइनें 10 और 13-14) का ट्रैक रखते हैं। यदि पथ में कोई शॉट या उसके तत्काल पड़ोसी जोड़े गए हैं, तो ट्रेलर में प्रस्तुति के लिए एक TP ईवेंट चुना गया है।

3.2. टीपी पहचान





वीडियो-आधारित मॉडल शॉट-स्तरीय टीपी लेबल तक पहुँच मानता है। हालाँकि, टीपी पहचान के लिए एकमात्र डेटासेट जिसके बारे में हम जानते हैं वह है TRIPOD [41], जिसमें स्क्रीनप्ले के आधार पर दृश्य-स्तरीय लेबल शामिल हैं। अधिक बारीक-बारीक लेबल प्राप्त करने के लिए, हम एक सरल वन-टू-मैनी मैपिंग (विवरण के लिए अनुभाग 4 देखें) का अनुसरण करते हुए शॉट्स पर दृश्य-आधारित एनोटेशन प्रोजेक्ट करते हैं। चूँकि हमारा प्रशिक्षण संकेत अपरिहार्य रूप से शोरगुल वाला है, इसलिए हम अनुमान लगाते हैं कि स्क्रीनप्ले तक पहुँच वीडियो-आधारित मॉडल को ऐसे शॉट्स का चयन करने के लिए प्रोत्साहित करेगी जो प्रत्येक टीपी के लिए अधिक प्रतिनिधि हैं। दूसरे शब्दों में, स्क्रीनप्ले विशेषाधिकार प्राप्त ज्ञान और एक अंतर्निहित पर्यवेक्षण संकेत का प्रतिनिधित्व करते हैं, जबकि अनुमान के दौरान अतिरिक्त पूर्व-प्रसंस्करण की आवश्यकता को कम करते हैं। इसके अलावा, स्क्रीनप्ले अतिरिक्त जानकारी का खजाना प्रदान करते हैं, उदाहरण के लिए, किसी दृश्य में पात्रों और उनकी भूमिकाओं के बारे में, या उनके कार्यों और भावनाओं के बारे में (जो कैमरे द्वारा देखी गई रेखाओं द्वारा व्यक्त की जाती हैं)। यह जानकारी अन्यथा वीडियो में सटीक रूप से स्थानीयकृत करना मुश्किल हो सकता है। इसके अलावा, पटकथाओं के लेबल रहित पाठ्य संग्रह को प्राप्त करना अपेक्षाकृत आसान है और इसका उपयोग हमारे नेटवर्क को पूर्व-प्रशिक्षण देने के लिए किया जा सकता है।


चित्र 2. ग्राफ़ट्रेलर: मूवी एक ग्राफ़ है जिसके नोड शॉट होते हैं और किनारे उनके बीच संबंधों को दर्शाते हैं। प्रत्येक शॉट को एक भावना स्कोर (सकारात्मक/नकारात्मक मूल्यों के लिए हरा/लाल शेड) और महत्वपूर्ण घटनाओं (मोटे वृत्त) का वर्णन करने वाले लेबल द्वारा चिह्नित किया जाता है। हमारा एल्गोरिदम प्रस्ताव ट्रेलर अनुक्रम उत्पन्न करने के लिए ग्राफ़ (बोल्ड लाइन) में चलता है।

3.3. ज्ञान आसवन

अब हम दो नेटवर्कों के लिए अपनी संयुक्त प्रशिक्षण व्यवस्था का वर्णन करते हैं, जो डाटा स्ट्रीम (मल्टीमॉडल बनाम केवल पाठ) के संदर्भ में फिल्म के विभिन्न दृश्यों को समाहित करता है और अर्थ इकाइयों (शॉट्स बनाम दृश्य) में उनका विभाजन करता है।



चित्र 3. दो नेटवर्क फिल्म के विभिन्न दृश्यों को अलग-अलग डिग्री के ग्रैन्युलैरिटी के साथ प्रोसेस करते हैं। वीडियो-आधारित नेटवर्क फिल्म की वीडियो स्ट्रीम के आधार पर इनपुट मल्टीमॉडल फाइन-ग्रेन्ड शॉट रिप्रेजेंटेशन के रूप में लेता है। स्क्रीनप्ले-आधारित नेटवर्क टेक्स्टुअल सीन रिप्रेजेंटेशन को प्रोसेस करता है जो मोटे-मोटे होते हैं और फिल्म की स्क्रीनप्ले पर आधारित होते हैं। नेटवर्क को संयुक्त रूप से टीपी पहचान पर प्रशिक्षित किया जाता है, जिसमें नुकसान उनके बीच भविष्यवाणी और प्रतिनिधित्व स्थिरता को लागू करते हैं।


प्रतिनिधित्व संगति हानि हम दो नेटवर्कों के बीच एक दूसरे नियमन हानि का उपयोग करने का प्रस्ताव करते हैं ताकि दो ग्राफ-आधारित प्रतिनिधित्वों (यानी, वीडियो शॉट्स और स्क्रीनप्ले दृश्यों पर) के बीच स्थिरता को भी लागू किया जा सके। इस हानि का उद्देश्य दोहरा है: दो नेटवर्कों के लिए टीपी भविष्यवाणियों में सुधार करना, जैसा कि विपरीत प्रतिनिधित्व सीखने पर पिछले काम में दिखाया गया है [38, 39, 48], और शॉट्स के बीच अधिक सटीक कनेक्शन सीखने में भी मदद करना (याद रखें कि शॉट-आधारित ग्राफ हमारे ट्रेलर जनरेशन एल्गोरिदम के लिए इनपुट के रूप में कार्य करता है; अनुभाग 3.1)। स्क्रीनप्ले दृश्यों की तुलना में, जो एक फिल्म में स्व-निहित घटनाओं का वर्णन करते हैं, वीडियो शॉट केवल कुछ सेकंड लंबे होते हैं और उनके अर्थ के लिए आसपास के संदर्भ पर निर्भर होते हैं



3.4. स्व-पर्यवेक्षित पूर्व-प्रशिक्षण

प्रीट्रेनिंग का उद्देश्य पटकथाओं से बेहतर दृश्य प्रस्तुतीकरण सीखना है, जो फिल्म वीडियो की तुलना में अधिक सुलभ है (उदाहरण के लिए, कम कॉपीराइट मुद्दे और कम कम्प्यूटेशनल ओवरहेड), इस उम्मीद में कि यह ज्ञान हमारी संगतता हानि के माध्यम से वीडियो-आधारित नेटवर्क में स्थानांतरित हो जाएगा।


3.5. भावना पूर्वानुमान

अंत में, हमारा मॉडल इस बात को ध्यान में रखता है कि एक शॉट से दूसरे शॉट में भावना कैसे प्रवाहित होती है। हम उसी संयुक्त आर्किटेक्चर (अनुभाग 3.3) और प्रशिक्षण व्यवस्था के साथ प्रति शॉट भावना स्कोर की भविष्यवाणी करते हैं जिसका उपयोग हम टीपी पहचान के लिए करते हैं। वीडियो-आधारित नेटवर्क को भावना लेबल (यानी, सकारात्मक, नकारात्मक, तटस्थ) वाले शॉट्स पर प्रशिक्षित किया जाता है, जबकि स्क्रीनप्ले-आधारित नेटवर्क को भावना लेबल वाले दृश्यों पर प्रशिक्षित किया जाता है (अनुभाग 4 बताता है कि लेबल कैसे प्राप्त किए जाते हैं)। प्रशिक्षण के बाद, हम भावना प्रवाह को पकड़ने और उच्च और निम्न-तीव्रता वाले शॉट्स के बीच भेदभाव करने के लिए प्रति शॉट भावना लेबल पर संभाव्यता वितरण की भविष्यवाणी करते हैं (विवरण के लिए परिशिष्ट देखें)।



यह पेपर CC BY-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।