paint-brush
टास्क डिकंपोज़िशन के माध्यम से फ़िल्म ट्रेलर निर्माण: मॉडल विवरणद्वारा@kinetograph

टास्क डिकंपोज़िशन के माध्यम से फ़िल्म ट्रेलर निर्माण: मॉडल विवरण

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने ट्रेलर बनाने के लिए फिल्मों को ग्राफ के रूप में मॉडल किया है, कथात्मक संरचना की पहचान की है और भावनाओं का पूर्वानुमान लगाया है, जो पर्यवेक्षित विधियों से बेहतर है।
featured image - टास्क डिकंपोज़िशन के माध्यम से फ़िल्म ट्रेलर निर्माण: मॉडल विवरण
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

लेखक:

(1) पिनेलोपी पापालाम्पीडी, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;

(2) फ्रैंक केलर, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;

(3) मिरेला लापाटा, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय।

लिंक की तालिका

ए. मॉडल विवरण

इस खंड में हम अपने दृष्टिकोण के विभिन्न मॉडलिंग घटकों के बारे में विवरण प्रदान करते हैं। हम GRAPHTRAILER आर्किटेक्चर (खंड A.1) का विवरण प्रदान करके शुरू करते हैं, फिर चर्चा करते हैं कि TP पहचान नेटवर्क को कैसे प्रशिक्षित किया जाता है (खंड A.2), और अंत में स्क्रीनप्ले पर प्री-ट्रेनिंग (A.3) और ग्राफ ट्रैवर्सल (A.4) के लिए उपयोग किए जाने वाले सेंटीमेंट फ्लो के बारे में तकनीकी विवरण देते हैं।

A.1. ग्राफट्रेलर


हम अपने मॉडल में विसंगतियों (यानी, टॉप-के सैंपलिंग, नेबरहुड साइज़ सिलेक्शन) को स्ट्रेटथ्रू एस्टिमेटर [7] का उपयोग करके संबोधित करते हैं। बैकवर्ड पास के दौरान हम गंबेल-सॉफ्टमैक्स रिपैरामेट्राइज़ेशन ट्रिक [25, 32] के साथ ग्रेडिएंट की गणना करते हैं। सहायक स्क्रीनप्ले-आधारित नेटवर्क में दृश्य-स्तरीय ग्राफ़ के निर्माण और विरलीकरण के लिए भी यही प्रक्रिया अपनाई जाती है।

ए.2. टीपी पहचान पर प्रशिक्षण

सेक्शन 3 वीडियो और स्क्रीनप्ले-आधारित मॉडल के लिए हमारी प्रशिक्षण व्यवस्था प्रस्तुत करता है, जिसमें यह माना जाता है कि दृश्यों के लिए TP लेबल उपलब्ध हैं (यानी, बाइनरी लेबल यह दर्शाते हैं कि कोई दृश्य मूवी में TP के रूप में कार्य करता है या नहीं)। ऐसे लेबल दिए जाने पर, हमारे मॉडल को कुछ-हॉट गोल्ड लेबल और नेटवर्क के TP पूर्वानुमानों के बीच बाइनरी क्रॉस-एंट्रॉपी लॉस (BCE) उद्देश्य के साथ प्रशिक्षित किया जाता है।


हालाँकि, व्यवहार में, हमारे प्रशिक्षण सेट में दृश्यों के लिए सिल्वर स्टैंडर्ड लेबल शामिल हैं। बाद वाले को TRIPOD [41] डेटासेट के साथ रिलीज़ किया गया और स्वचालित रूप से बनाया गया। विशेष रूप से, TRIPOD सारांश (स्क्रीनप्ले नहीं) के लिए गोल्ड-स्टैंडर्ड TP एनोटेशन प्रदान करता है, इस धारणा के तहत कि सारांश वाक्य TP के प्रतिनिधि हैं। और वाक्य-स्तरीय एनोटेशन को शिक्षक बल [41] के साथ प्रशिक्षित मिलान मॉडल के साथ दृश्यों पर प्रक्षेपित किया जाता है ताकि सिल्वर-स्टैंडर्ड लेबल बनाए जा सकें।


A.3. स्व-पर्यवेक्षित पूर्व-प्रशिक्षण

A.4. ग्राफट्रेलर में भावना प्रवाह

हमारे ग्राफ ट्रैवर्सल एल्गोरिदम (धारा 3.1) में अगले शॉट को चुनने के मानदंडों में से एक अब तक उत्पन्न ट्रेलर का भावना प्रवाह है। विशेष रूप से, हम इस परिकल्पना[9] को अपनाते हैं कि ट्रेलरों को भावना तीव्रता के आधार पर तीन खंडों में विभाजित किया जाता है। पहले खंड में दर्शकों को आकर्षित करने के लिए मध्यम तीव्रता होती है, दूसरे खंड में फिल्म के बारे में महत्वपूर्ण जानकारी देने के लिए कम तीव्रता होती है और अंत में तीसरा खंड फिल्म के लिए क्लिफहैंगर्स और उत्साह पैदा करने के लिए उत्तरोत्तर उच्च तीव्रता प्रदर्शित करता है।


तदनुसार, L ट्रेलर शॉट्स के बजट को देखते हुए, हम उम्मीद करते हैं कि पहले L/3 शॉट्स में सेक्शन के भीतर बड़े बदलावों के बिना मध्यम तीव्रता होगी (उदाहरण के लिए, हम 0.7 के करीब औसत निरपेक्ष तीव्रता वाले शॉट्स चाहते हैं, जहाँ सभी स्कोर -1 से 1 की सीमा तक सामान्यीकृत होते हैं)। ट्रेलर के दूसरे भाग में (यानी, अगले L/3 शॉट्स) हम तीव्रता में तेज गिरावट की उम्मीद करते हैं और इस सेक्शन के शॉट्स में कमोबेश तटस्थ भावना (यानी, 0 तीव्रता) बनी रहेगी। अंत में, तीसरे सेक्शन (यानी, अंतिम L/3 शॉट्स) के लिए हम तीव्रता में लगातार वृद्धि की उम्मीद करते हैं। व्यवहार में, हम उम्मीद करते हैं कि पहले शॉट की तीव्रता 0.7 (यानी, मध्यम तीव्रता) होगी, जो अंतिम शॉट पर चरम पर पहुँचने तक प्रत्येक बाद के शॉट के साथ 0.1 तक बढ़ेगी।


यह पेपर CC BY-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


[9] https://www.derek-lieu.com/blog/2017/9/10/the-metric-is-a-trailer-editers-dream