paint-brush
स्थिति और संवाद-आधारित गहरे नेटवर्क की बहुस्तरीय प्रोफाइलिंग: प्रयोगद्वारा@kinetograph
101 रीडिंग

स्थिति और संवाद-आधारित गहरे नेटवर्क की बहुस्तरीय प्रोफाइलिंग: प्रयोग

बहुत लंबा; पढ़ने के लिए

इस पत्र में, शोधकर्ताओं ने स्थिति, संवाद और मेटाडेटा विशेषताओं का उपयोग करते हुए फिल्म शैली वर्गीकरण के लिए एक बहु-रूपता ढांचे का प्रस्ताव दिया है।
featured image - स्थिति और संवाद-आधारित गहरे नेटवर्क की बहुस्तरीय प्रोफाइलिंग: प्रयोग
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

लेखक:

(1) दिनेश कुमार विश्वकर्मा, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत;

(2) मयंक जिंदल, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत

(3) आयुष मित्तल, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत

(4) आदित्य शर्मा, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत।

लिंक की तालिका

5. प्रयोग

इस भाग में, हम विभिन्न तौर-तरीकों और प्रीफीचर फ्यूज्ड मॉडल पर विभिन्न मॉडल आर्किटेक्चर की जांच करेंगे। बाद में, हम अपने काम को मानक LMTD-9 डेटासेट के साथ-साथ हमारे प्रस्तावित डेटासेट पर मान्य करके सत्यापित करते हैं। अंत में, हमारे मॉडल की मजबूती का पता लगाने के लिए एक तुलनात्मक अध्ययन पर चर्चा की गई है। सभी प्रयोग 128 जीबी डीडीआर4 रैम और एनवीडिया टाइटन आरटीएक्स (24 जीबी) जीपीयू कॉन्फ़िगरेशन वाले जीपीयू वर्कस्टेशन पर किए गए हैं।

5.1. डेटासेट

हमारे ढांचे को सत्यापित करने के लिए, हम अपने प्रस्तावित डेटासेट और मानक LMTD-9 [2] डेटासेट का उपयोग करते हैं। विस्तृत विवरण इस प्रकार उल्लिखित हैं:

5.1.1. अंग्रेजी मूवी ट्रेलर डेटासेट (EMTD)

EMTD: हमारे प्रस्तावित डेटासेट में 1700 अद्वितीय ट्रेलरों का एक अलग प्रशिक्षण सेट और 300 अद्वितीय ट्रेलरों का एक सत्यापन सेट शामिल है, जो सभी IMDB से लिए गए हैं, जैसा कि अनुभाग 3 में उल्लेख किया गया है।

5.1.2. लेबलयुक्त मूवी ट्रेलर डेटासेट (LMTD-9)

LMTD [16], [20] एक मल्टी-लेबल बड़े पैमाने का मूवी ट्रेलर डेटासेट है जिसमें ट्रेलर लिंक, ट्रेलर मेटाडेटा, प्लॉट/सारांश, अद्वितीय ट्रेलर आईडी शामिल है जिसमें 22 अलग-अलग लेबल/शैलियों से संबंधित लगभग 9k मूवी ट्रेलर शामिल हैं। सत्यापन उद्देश्यों के लिए, LMTD-9 [2] का एक सत्यापन सेट (उपभाग) उपयोग किया जाता है जिसमें केवल 1980 के बाद रिलीज़ किए गए हॉलीवुड ट्रेलर और हमारी शैली सूची के लिए विशिष्ट ट्रेलर शामिल हैं। डेटासेट में अलग-अलग वीडियो गुणवत्ता और पहलू अनुपात वाले अलग-अलग लंबाई के ट्रेलर शामिल हैं।

5.2. विभिन्न मॉडलों पर वर्गीकरण परिणाम

इस खंड में, हम अलग-अलग फ्रेमवर्क विविधताओं के साथ अपने प्रयोगों पर चर्चा करेंगे। हमने अलग-अलग तौर-तरीकों और पूर्व-संयुक्त विशेषताओं के आधार पर 3 अलग-अलग फ्रेमवर्क के साथ प्रयोग किया।


  • एमएस (वीडियो फ्रेम विश्लेषण): वीडियो फ्रेम से केवल स्थिति आधारित विशेषताओं पर विचार करने वाला मॉडल।


  • एमडी (संवाद-मेटाडेटा विश्लेषण): ऑडियो से संवाद और मेटाडेटा से विवरण को विशेषता के रूप में मानने वाला मॉडल।


  • एमएसडी (मल्टी-मोडैलिटी विश्लेषण): वीडियो फ्रेम से स्थिति-आधारित विशेषताओं, ऑडियो से संवाद और मेटाडेटा से विवरण को विशेषताओं के रूप में मानने वाला मॉडल।





MSD के लिए सेक्शन 4.2.3 में प्रस्तावित आर्किटेक्चर का उपयोग प्री-फ़्यूज़्ड फ़ीचर के साथ किया जाता है। हालाँकि, इनपुट कॉर्पस को थोड़ा संशोधित किया गया है। सेक्शन 4.4 में परिभाषित कॉर्पस का उपयोग MSD के लिए किया जाता है। LMTD-9 और EMTD पर MSD के लिए परिशुद्धता, रिकॉल और F1-स्कोर तालिका 5 में दर्शाया गया है। हालाँकि, MS और MD के साथ MSD की AU (PRC) तुलना आगामी अनुभाग में चर्चा की गई है।


विभिन्न शैलियों के प्रदर्शन में कुछ भिन्नता देखी जा सकती है। प्रमुख शैलियों से संबंधित अधिकांश ट्रेलरों को सटीक रूप से वर्गीकृत किया जा रहा है (0.84 और उससे अधिक के F1 स्कोर के साथ), जो दर्शाता है कि प्रस्तावित मॉडल अच्छा प्रदर्शन कर रहा है। एक्शन शैली पाँच में से सबसे अच्छा प्रदर्शन करने वाली शैली थी, जिसका F1-स्कोर क्रमशः EMTD और LMTD-9 पर 0.88 और 0.89 था। F1-स्कोर के संदर्भ में रोमांस शैली सभी शैलियों में सबसे कम प्रदर्शन करने वाली शैली देखी गई। यह देखा गया है कि कई रोमांस शैली के ट्रेलरों को कॉमेडी में गलत तरीके से वर्गीकृत किया जा रहा है क्योंकि इन दोनों शैलियों में समान शब्दों जैसे कि खुशी, मुस्कान, हंसी आदि का बोलबाला है।


चित्र 5: एमडी के लिए सटीक रिकॉल वक्र A) EMTD B) LMTD-9


चित्र 6: एमएस के लिए सटीक रिकॉल वक्र A) EMTD B) LMTD-9


चित्र 7: परिशुद्धता-स्मरण वक्र एमएसडी ए) ईएमटीडी बी) एलएमटीडी-9

5.3. एयू (पीआरसी) तुलना

AU (PRC) यानी, परिशुद्धता-स्मरण वक्र के तहत क्षेत्र, हमारे वर्गीकरण परिणामों की तुलना करने के लिए गणना की जाती है, क्योंकि हम बहु-लेबल वर्गीकरण समस्या से निपट रहे हैं। AU (PRC) उपाय हमारे मॉडल के वास्तविक प्रदर्शन की तुलना करने में मदद करता है, बहु-लेबल डेटासेट में वर्ग असंतुलन के कारण शोर प्रभाव की भरपाई करता है। AU (PRC) वक्र दोनों डेटासेट पर सभी 3 मॉडलों के लिए बनाए गए हैं जैसा कि Fig. 5, Fig. 6, और Fig. 7 में दर्शाया गया है। EMTD के सत्यापन सेट पर, हमने क्रमशः MSD, MD और MS पर लगभग समान AU (PRC) मान 92%, 91%, 88% पाए। हालांकि, हमने पाया कि हमारा MSD LMTD9 डेटासेट पर 82% AU (PRC) मान देता है


तालिका 6: विभिन्न मॉडलों पर AU (PRC)


हालांकि, हमारे अध्ययन के भीतर हमारे द्वारा प्रयोग किए गए कुछ अन्य मॉडलों के साथ समग्र तुलना के लिए, हम उनके परिणामों का उल्लेख तालिका 6 में करते हैं। सर्वोत्तम आर्किटेक्चर चुनने के लिए, दोनों सत्यापन डेटासेट पर एयू (पीआरसी) के संदर्भ में मॉडल की तुलना की जाती है। फीचर्स मॉडल डेटासेट ईएमटीडी एलएमटीडी-9 डायलॉग (एमडी) ई-बीआई एलएसटीएम 0.87 0.66 ईसीनेट 0.91 0.72 स्थिति (एमएस) ईसीनेट 0.86 0.75 टीएफएनेट 0.88 0.80 फ्यूज्ड फीचर्स (एमएसडी) ईसीनेट 0.92 0.82 सभी उल्लिखित मॉडल हमें फ्यूज्ड फीचर्स के लिए सर्वश्रेष्ठ मॉडल तय करने में मदद करते हैं। हालांकि एमडी में ईएमटीडी पर एमएसडी के साथ तुलनीय एयू (पीआरसी) मूल्य हैं लेकिन एलएमटीडी-9 पर, एमएसडी ने एमडी को बेहतर प्रदर्शन किया। इसलिए, क्रॉस डेटासेट सत्यापन द्वारा MSD अधिक मजबूत साबित होता है। हम निष्कर्ष निकालते हैं कि प्रस्तावित MSD सबसे अच्छा प्रदर्शन करने वाला मॉडल है।

5.4. आधार रेखा तुलना

इस खंड में, हम तालिका 7 में दर्शाए अनुसार प्रत्येक शैली के लिए अलग-अलग AU (PRC) मीट्रिक का उपयोग करके मूवी शैली वर्गीकरण के लिए पिछले तरीकों के साथ अत्याधुनिक तुलना करके हमारे प्रस्तावित मॉडल के प्रदर्शन को मान्य करते हैं। तालिका 7 में उल्लिखित सभी परिणाम दो दशमलव स्थानों तक दिखाए गए हैं और फिश एट अल [22] को छोड़कर मानक LMTD-9 डेटासेट पर आधारित हैं, जिनके परिणाम MMX ट्रेलर-20 डेटासेट पर आधारित हैं। यह अपने अध्ययन में रोमांस शैली पर विचार नहीं करता है। हालांकि, अन्य शैलियों के लिए, फिश एट अल [22] और एमएसडी के एयू (पीआरसी) मूल्यों में अंतर ध्यान देने योग्य है। एमएसडी औसतन 20% बेहतर प्रदर्शन करता है। निम्न-स्तरीय दृश्य विशेषताएँ आधारित वर्गीकरण [23] 24 निम्न-स्तरीय दृश्य विशेषता निम्न-स्तरीय फीचर दृष्टिकोणों [23], [24] की तुलना में, MSD औसतन 10% बेहतर प्रदर्शन करता है, और उच्च-स्तरीय सुविधाओं [22], [25] का उपयोग करने वाले दृष्टिकोणों से तुलना करके, यह प्रत्येक शैली के लिए औसतन 8% बेहतर प्रदर्शन करता है। यह भी देखा गया है कि कॉमेडी शैली ने अन्य चार शैलियों की तुलना में अधिकांश कार्यों में अच्छा प्रदर्शन किया है जबकि विज्ञान-कथा में अपेक्षाकृत कम AU (PRC) मान हैं। यह विज्ञान-कथा शैली में उचित अंतर की अनुपलब्धता के कारण हो सकता है, क्योंकि इसकी विशेषताएँ कुछ अन्य समान शैलियों (जैसे एक्शन) के साथ ओवरलैप होती हैं।


तालिका 7: प्रस्तावित मॉडल की AU (PRC) का उपयोग करते हुए समान अत्याधुनिक तकनीकों से तुलना


तुलनात्मक अध्ययन से पता चलता है कि प्रस्तावित मॉडल मजबूत है क्योंकि यह मौजूदा तरीकों से बेहतर प्रदर्शन करता है और बेहतरीन नतीजे देता है। बेहतर प्रदर्शन इस कारण से है कि प्रस्तावित आर्किटेक्चर में संज्ञानात्मक और भावात्मक दोनों विशेषताएं शामिल हैं, जो मॉडल को प्रत्येक शैली की पर्याप्त विशेषताओं को सीखने में मदद करती हैं, इसलिए शैलियों की अधिक सटीक भविष्यवाणी करती हैं।


यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।