paint-brush
टास्क डिकंपोज़िशन के माध्यम से फ़िल्म ट्रेलर निर्माण: परिणाम और विश्लेषणद्वारा@kinetograph
115 रीडिंग

टास्क डिकंपोज़िशन के माध्यम से फ़िल्म ट्रेलर निर्माण: परिणाम और विश्लेषण

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने ट्रेलर बनाने के लिए फिल्मों को ग्राफ के रूप में मॉडल किया है, कथात्मक संरचना की पहचान की है और भावनाओं का पूर्वानुमान लगाया है, जो पर्यवेक्षित विधियों से बेहतर है।
featured image - टास्क डिकंपोज़िशन के माध्यम से फ़िल्म ट्रेलर निर्माण: परिणाम और विश्लेषण
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

लेखक:

(1) पिनेलोपी पापालाम्पीडी, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;

(2) फ्रैंक केलर, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय;

(3) मिरेला लापाटा, भाषा, अनुभूति और संगणन संस्थान, सूचना विज्ञान स्कूल, एडिनबर्ग विश्वविद्यालय।

लिंक की तालिका

5. परिणाम और विश्लेषण

ज्ञान आसवन की उपयोगिता हम पहले जांच करते हैं कि क्या हम टीपी पहचान में सुधार करते हैं, क्योंकि यह ट्रेलर निर्माण कार्य के लिए महत्वपूर्ण है। हम ग्राउंड-ट्रुथ सीन-लेवल टीपी लेबल वाली मूवी के सेट को डेवलपमेंट और टेस्ट सेट में विभाजित करते हैं और मूवी में प्रति टीपी शीर्ष 5 (@5) और शीर्ष 10 (@10) शॉट्स का चयन करते हैं। मूल्यांकन मीट्रिक के रूप में, हम आंशिक समझौते (पीए; [41]) पर विचार करते हैं, जो उन टीपी के प्रतिशत को मापता है जिनके लिए एक मॉडल मूवी से चुने गए 5 या 10 शॉट्स में से कम से कम एक ग्राउंड-ट्रुथ शॉट को सही ढंग से पहचानता है (विवरण के लिए परिशिष्ट देखें)।


तालिका 2. टीपी पहचान (परीक्षण सेट) पर मॉडल प्रदर्शन। विभिन्न प्रशिक्षण व्यवस्थाओं के साथ दिखाया गया ग्राफट्रेलर। मूल्यांकन मीट्रिक: प्रति टीपी और मूवी में शीर्ष 5 (@5) और शीर्ष 10 (@10) चयनित शॉट्स के विरुद्ध आंशिक सहमति (पीए)।


तालिका 2 परीक्षण सेट पर हमारे परिणामों का सारांश प्रस्तुत करती है। हम निम्नलिखित तुलना प्रणालियों पर विचार करते हैं: रैंडम समान रूप से वितरित खंडों (10 रनों का औसत) से शॉट्स का चयन करता है; थ्योरी पटकथा लेखन सिद्धांत के अनुसार शॉट्स को टीपी प्रदान करती है (उदाहरण के लिए, "अवसर" मूवी के 10% पर होता है, "योजनाओं में बदलाव" 25% पर, आदि); वितरण प्रशिक्षण डेटा में उनकी अपेक्षित स्थिति के आधार पर शॉट्स का चयन करता है; GRAPHTP पटकथाओं पर प्रशिक्षित [42] का मूल मॉडल है (हम शॉट्स के लिए दृश्य-स्तरीय TP भविष्यवाणियों को प्रोजेक्ट करते हैं); ट्रांसफॉर्मर ग्राफ से संबंधित जानकारी के बिना एक आधार मॉडल है। हम टीपी पहचान के लिए कई वेरिएंट में अपने स्वयं के मॉडल, GRAPHTRAILER का उपयोग करते हैं: पटकथाओं तक पहुंच के बिना और साथ


हमने पाया कि GRAPHTRAILER सभी बेसलाइन के साथ-साथ ट्रांसफॉर्मर मॉडल से भी बेहतर प्रदर्शन करता है। हालाँकि बाद वाला शॉट्स के बीच लंबी दूरी की निर्भरता को एनकोड करता है, लेकिन ग्राफ में सीखे गए विरल कनेक्शन को सीधे एनकोड करने से GRAPHTRAILER को अतिरिक्त लाभ होता है। इसके अलावा, भविष्यवाणी संगति हानि (P) के माध्यम से अतुल्यकालिक ज्ञान आसवन प्रदर्शन को और बेहतर बनाता है, यह सुझाव देता है कि स्क्रीनप्ले में निहित ज्ञान वीडियो से निकाले जा सकने वाले ज्ञान का पूरक है। ध्यान दें कि जब हम प्रतिनिधित्व संगति हानि (P + R) जोड़ते हैं, तो प्रदर्शन में बहुत अधिक गिरावट आती है, जबकि प्रस्तावित प्रशिक्षण दृष्टिकोण (कंट्रास्टिव जॉइंट) सबसे अच्छा प्रदर्शन करता है। अंत में, प्रीट्रेनिंग आगे के लाभ प्रदान करता है, यद्यपि छोटे, जो स्क्रीनप्ले-आधारित नेटवर्क के लाभों को रेखांकित करता है।


ट्रेलर की गुणवत्ता अब हम 41 मूवीज़ के सेट पर GRAPHTRAILER के ट्रेलर जनरेशन एल्गोरिदम का मूल्यांकन करते हैं (तालिका 1 देखें)। मूल्यांकन मीट्रिक के रूप में, हम सटीकता का उपयोग करते हैं, यानी, सही ढंग से पहचाने गए ट्रेलर शॉट्स का प्रतिशत और हम वांछित लंबाई (लगभग 2 मिनट) प्राप्त करने के लिए ट्रेलरों के लिए 10 शॉट्स के कुल बजट पर विचार करते हैं।


तालिका 3. ट्रेलर निर्माण पर अप्रशिक्षित (ऊपरी भाग) और कम पर्यवेक्षण वाले (निचले भाग) मॉडल का प्रदर्शन: सही ढंग से पहचाने गए ट्रेलर शॉट्स की सटीकता। सभी प्रणालियों में ट्रेलर निर्माण के लिए एक ही शॉट बजट होता है।


हमने GRAPHTRAILER की तुलना कई अपर्यवेक्षित तरीकों से की है (तालिका 3 में पहला ब्लॉक) जिसमें शामिल हैं: सभी शॉट्स और GRAPHTRAILER द्वारा पहचाने गए TPs के बीच यादृच्छिक चयन; हम पूरी तरह से जुड़े ग्राफ के आधार पर दो ग्राफ-आधारित प्रणालियों को भी लागू करते हैं, जहां नोड्स शॉट हैं और किनारे उनके बीच समानता की डिग्री को दर्शाते हैं। इस ग्राफ को TPs का कोई ज्ञान नहीं है, यह जेनेरिक मल्टीमॉडल अभ्यावेदन के बीच समानता की गणना करके बनाया गया है। TEXTRANK [35] इस ग्राफ पर काम करता है ताकि शॉट्स को उनकी केंद्रीयता के आधार पर चुना जा सके, जबकि GRAPHTRAILER बिना TPs के TP और भावना मानदंड को हटाकर ग्राफ को पार करता है (समीकरण 2)। अपर्यवेक्षित प्रणालियों के लिए जिसमें स्टोकेस्टिसिटी शामिल है और प्रस्ताव तैयार करते हैं (यादृच्छिक, GRAPHTRAILER इनमें CCANet [53] शामिल है, जो केवल दृश्य जानकारी पर विचार करता है और मूवी और ट्रेलर शॉट्स के बीच क्रॉस-अटेंशन की गणना करता है, और एक वेनिला ट्रांसफॉर्मर जो स्क्रीनप्ले, भावना या टीपी पर विचार किए बिना यह पहचानने के बाइनरी कार्य के लिए प्रशिक्षित है कि कोई शॉट ट्रेलर में होना चाहिए या नहीं। सुपरवाइज्ड ग्राफट्रेलर में हमारा वीडियो आधारित नेटवर्क शामिल है जो ट्रांसफॉर्मर के समान डेटा पर प्रशिक्षित है।


GRAPHTRAILER, अप्रशिक्षित विधियों में सर्वश्रेष्ठ प्रदर्शन करता है। दिलचस्प बात यह है कि TEXTRANK, रैंडम से भी खराब है, जो दर्शाता है कि ट्रेलर निर्माण जैसे कार्यों को मानक सारांश समस्याओं के रूप में नहीं देखा जा सकता है। TP के बिना GRAPHTRAILER, TEXTRANK और रैंडम TP चयन से बेहतर प्रदर्शन करता है।[7] पर्यवेक्षित दृष्टिकोणों के संबंध में, हम पाते हैं कि मानक आर्किटेक्चर (ट्रांसफॉर्मर) के साथ सभी तौर-तरीकों का उपयोग करने से दृश्य समानता (CCANet) का उपयोग करने वाले परिष्कृत मॉडल की तुलना में बेहतर प्रदर्शन होता है। ग्राफ-संबंधी जानकारी (पर्यवेक्षित GRAPHTRAILER) जोड़कर, हम और सुधार प्राप्त करते हैं।


तालिका 5. मूवी ग्राफ में रैंडम वॉक करने के लिए विभिन्न मानदंडों के साथ ग्राफट्रेलर (एल्गोरिदम 1, समीकरण (2))।


हमने GRAPHTRAILER के लिए विकास सेट पर दो एब्लेशन अध्ययन किए हैं। पहले अध्ययन का उद्देश्य यह आकलन करना है कि दोहरे नेटवर्क के विभिन्न प्रशिक्षण शासन डाउनस्ट्रीम ट्रेलर निर्माण प्रदर्शन को कैसे प्रभावित करते हैं। हम तालिका 4 में देखते हैं कि अतुल्यकालिक प्रशिक्षण आधार मॉडल पर कोई स्पष्ट सुधार प्रदान नहीं करता है। हालाँकि, जब हम भविष्यवाणी और प्रतिनिधित्व स्थिरता हानियों का उपयोग करके दो नेटवर्क (वीडियो- और स्क्रीनप्ले-आधारित) को संयुक्त रूप से प्रशिक्षित करते हैं, तो प्रदर्शन लगभग 3% बढ़ जाता है। जब स्क्रीनप्ले-आधारित नेटवर्क को अधिक डेटा पर प्री-ट्रेन किया जाता है, तो एक और छोटी वृद्धि देखी जाती है।


दूसरा पृथक्करण अध्ययन ग्राफ जी पर यादृच्छिक वॉक करने के लिए उपयोग किए जाने वाले मानदंडों से संबंधित है। जैसा कि तालिका 5 में दिखाया गया है, जब हम चयनित पथ में नोड्स को महत्वपूर्ण घटनाओं (समानता + टीपी) के करीब होने के लिए मजबूर करते हैं तो प्रदर्शन में सुधार होता है। जब हम पूरी तरह से भावना (समानता + भावना) पर भरोसा करते हैं, तो प्रदर्शन थोड़ा कम हो जाता है। इससे पता चलता है कि पिछले तरीकों के विपरीत जो ज्यादातर सतही दृश्य आकर्षण [53, 57] या दृश्य-श्रव्य भावना विश्लेषण [47] पर ध्यान केंद्रित करते हैं, अपने आप में भावना की जानकारी पर्याप्त नहीं है और उन आउटलेर्स को बढ़ावा दे सकती है जो एक ट्रेलर में अच्छी तरह से फिट नहीं होते हैं। दूसरी ओर, जब भावना की जानकारी को कथा संरचना (समानता + टीपी + भावना) के बारे में ज्ञान के साथ जोड़ा जाता है, तो हम उच्चतम सटीकता देखते हैं।


अंत में, चूँकि हमारे पास प्रति मूवी (डेव सेट के लिए) कई ट्रेलर हैं, इसलिए हम उनके शॉट्स (ऊपरी सीमा) के बीच ओवरलैप को माप सकते हैं। औसत ओवरलैप 86.14% है, जो ट्रेलर निर्माताओं के बीच अच्छे समझौते और मानव प्रदर्शन और स्वचालित मॉडल के बीच एक बड़े अंतर को दर्शाता है।


अंत में, चूँकि हमारे पास प्रति मूवी (डेव सेट के लिए) कई ट्रेलर हैं, इसलिए हम उनके शॉट्स (ऊपरी सीमा) के बीच ओवरलैप को माप सकते हैं। औसत ओवरलैप 86.14% है, जो ट्रेलर निर्माताओं के बीच अच्छे समझौते और मानव प्रदर्शन और स्वचालित मॉडल के बीच एक बड़े अंतर को दर्शाता है।


तालिका 6. होल्ड-आउट सेट पर मानव मूल्यांकन। हाँ उत्तरों का प्रतिशत: क्या ट्रेलर में पर्याप्त जानकारी है (प्रश्न 1) और क्या यह आकर्षक है (प्रश्न 2)। प्रत्येक सिस्टम को सर्वश्रेष्ठ या सबसे खराब के रूप में चुने जाने की प्रतिशतता, और मानकीकृत सर्वश्रेष्ठ-सबसे खराब स्केलिंग स्कोर।


मानव मूल्यांकन हमने उत्पन्न ट्रेलरों की गुणवत्ता का आकलन करने के लिए एक मानव मूल्यांकन अध्ययन भी किया। मानव मूल्यांकन के लिए, हमने निचली सीमा के रूप में टीपी के बिना रैंडम चयन, दो सबसे अच्छा प्रदर्शन करने वाले अप्रशिक्षित मॉडल (यानी, टीपी के साथ और बिना ग्राफट्रेलर) और दो पर्यवेक्षित मॉडल शामिल किए हैं: सीसीएनेट, जो ट्रेलर निर्माण के लिए कला की पिछली स्थिति है, और हमारे मॉडल का पर्यवेक्षित संस्करण, जो स्वचालित मेट्रिक्स के अनुसार सबसे अच्छा प्रदर्शन करने वाला मॉडल है।[८] हमने होल्ड-आउट सेट में सभी फिल्मों के लिए ट्रेलर तैयार किए। फिर हमने अमेज़न मैकेनिकल तुर्क (एएमटी) भीड़ कार्यकर्ताओं से एक फिल्म के सभी ट्रेलरों को देखने, प्रदान की गई जानकारी (प्रश्न 1) और ट्रेलर के आकर्षण (प्रश्न 2) से संबंधित सवालों के जवाब देने और सर्वश्रेष्ठ और सबसे खराब ट्रेलर का चयन करने के लिए कहा।


तालिका 6 से पता चलता है कि टीपी के साथ ग्राफट्रेलर अन्य सभी प्रणालियों की तुलना में औसतन अधिक जानकारीपूर्ण (Q1) और आकर्षक (Q2) ट्रेलर प्रदान करता है। यद्यपि टीपी के बिना ग्राफट्रेलर और पर्यवेक्षित ग्राफट्रेलर को अक्सर सर्वश्रेष्ठ के रूप में चुना जाता है, उन्हें समान रूप से सबसे खराब के रूप में भी चुना जाता है। जब हम सर्वश्रेष्ठ-सबसे खराब स्केलिंग [31] का उपयोग करके मानकीकृत स्कोर (जेड-स्कोर) की गणना करते हैं, तो टीपी के साथ ग्राफट्रेलर सबसे अच्छा प्रदर्शन प्राप्त करता है (ध्यान दें कि इसे भी शायद ही कभी सबसे खराब के रूप में चुना जाता है) उसके बाद पर्यवेक्षित ग्राफट्रेलर होता है। दिलचस्प बात यह है कि टीपी के बिना ग्राफट्रेलर को अक्सर सर्वश्रेष्ठ (24.40%) के रूप में चुना जाता है


हमने पूरक सामग्री में अपने दृष्टिकोण के आधार पर तैयार किए गए ट्रेलरों के वीडियो उदाहरण शामिल किए हैं। इसके अलावा, हम परिशिष्ट में अपने ग्राफ ट्रैवर्सल एल्गोरिदम का चरण-दर-चरण ग्राफ़िकल उदाहरण प्रदान करते हैं।


स्पॉइलर अलर्ट! हमारा मॉडल जेनरेट किए गए ट्रेलर में स्पॉइलर को स्पष्ट रूप से नहीं टालता है। हमने एल्गोरिथम 1 में मूवी ग्राफ को पार करते समय स्पॉइलर से संबंधित मानदंड के साथ प्रयोग किया। विशेष रूप से, हमने "स्पॉइलर-सेंसिटिव" ग्राफ पड़ोस में मौजूद शॉट्स का चयन करते समय एक दंड जोड़ा। हमने अंतिम दो TPs से सबसे छोटे रास्ते को मापकर ऐसे पड़ोस की पहचान की, जो परिभाषा के अनुसार मूवी में सबसे बड़े स्पॉइलर हैं। हालाँकि, हमारे एल्गोरिथम के इस प्रकार के परिणामस्वरूप खराब प्रदर्शन हुआ और इसलिए हमने इसे आगे नहीं बढ़ाया। हमारा मानना है कि ट्रेलर अनुक्रमों को प्रस्तावित करने के लिए ऐसा मानदंड फायदेमंद नहीं है, क्योंकि यह मॉडल को मूवी के नवीनतम भागों से रोमांचक शॉट्स का चयन करने से हतोत्साहित करता है। ये हाई-टेंशन शॉट दिलचस्प ट्रेलर बनाने के लिए महत्वपूर्ण हैं और वास्तव में वास्तविक जीवन के ट्रेलरों में शामिल हैं। हमारे डेटासेट में एक तिहाई से अधिक पेशेवर ट्रेलरों में अंतिम दो TPs ("प्रमुख सेटबैक", "क्लाइमेक्स") के शॉट शामिल हैं। हम परिशिष्ट में इस पर आगे चर्चा करते हैं।


हमने जेनरेट किए गए ट्रेलरों का मैन्युअल रूप से निरीक्षण भी किया और पाया कि स्पॉइलर बहुत आम नहीं हैं (यानी, हमने टेस्ट सेट से 12 ट्रेलरों के यादृच्छिक नमूने में एक प्रमुख स्पॉइलर शॉट की पहचान की), संभवतः इसलिए क्योंकि एक प्रमुख स्पॉइलर चुनने की संभावना आम तौर पर कम होती है। और भले ही स्पॉइलर सेंसिटिव शॉट शामिल किया गया हो, लेकिन संदर्भ से बाहर किए जाने पर यह किसी फिल्म के अंत का खुलासा करने के लिए पर्याप्त नहीं हो सकता है। हालाँकि, हम अधिक विस्तृत स्पॉइलर पहचान तकनीकों की जाँच करने के लिए इसे भविष्य के काम पर छोड़ देते हैं, जिन्हें आसानी से अतिरिक्त मानदंड के रूप में हमारे एल्गोरिदम में एकीकृत किया जा सकता है।


यह पेपर CC BY-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


[7] परीक्षण सेट पर प्रदर्शन कम है क्योंकि हम केवल आधिकारिक ट्रेलर से ट्रेलर लेबल पर विचार करते हैं, जबकि डेव सेट में कई ट्रेलर होते हैं।


[8] हम मानवीय मूल्यांकन में ग्राउंड-ट्रुथ ट्रेलरों को शामिल नहीं करते हैं, क्योंकि वे पोस्ट-प्रोसेस्ड होते हैं (यानी, मोंटाज, वॉयस-ओवर, संगीत) और इस प्रकार स्वचालित लोगों से सीधे तुलनीय नहीं होते हैं।