लेखक:
(1) दिनेश कुमार विश्वकर्मा, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत;
(2) मयंक जिंदल, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत
(3) आयुष मित्तल, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत
(4) आदित्य शर्मा, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत।
इस भाग में, हम विभिन्न तौर-तरीकों और प्रीफीचर फ्यूज्ड मॉडल पर विभिन्न मॉडल आर्किटेक्चर की जांच करेंगे। बाद में, हम अपने काम को मानक LMTD-9 डेटासेट के साथ-साथ हमारे प्रस्तावित डेटासेट पर मान्य करके सत्यापित करते हैं। अंत में, हमारे मॉडल की मजबूती का पता लगाने के लिए एक तुलनात्मक अध्ययन पर चर्चा की गई है। सभी प्रयोग 128 जीबी डीडीआर4 रैम और एनवीडिया टाइटन आरटीएक्स (24 जीबी) जीपीयू कॉन्फ़िगरेशन वाले जीपीयू वर्कस्टेशन पर किए गए हैं।
हमारे ढांचे को सत्यापित करने के लिए, हम अपने प्रस्तावित डेटासेट और मानक LMTD-9 [2] डेटासेट का उपयोग करते हैं। विस्तृत विवरण इस प्रकार उल्लिखित हैं:
EMTD: हमारे प्रस्तावित डेटासेट में 1700 अद्वितीय ट्रेलरों का एक अलग प्रशिक्षण सेट और 300 अद्वितीय ट्रेलरों का एक सत्यापन सेट शामिल है, जो सभी IMDB से लिए गए हैं, जैसा कि अनुभाग 3 में उल्लेख किया गया है।
LMTD [16], [20] एक मल्टी-लेबल बड़े पैमाने का मूवी ट्रेलर डेटासेट है जिसमें ट्रेलर लिंक, ट्रेलर मेटाडेटा, प्लॉट/सारांश, अद्वितीय ट्रेलर आईडी शामिल है जिसमें 22 अलग-अलग लेबल/शैलियों से संबंधित लगभग 9k मूवी ट्रेलर शामिल हैं। सत्यापन उद्देश्यों के लिए, LMTD-9 [2] का एक सत्यापन सेट (उपभाग) उपयोग किया जाता है जिसमें केवल 1980 के बाद रिलीज़ किए गए हॉलीवुड ट्रेलर और हमारी शैली सूची के लिए विशिष्ट ट्रेलर शामिल हैं। डेटासेट में अलग-अलग वीडियो गुणवत्ता और पहलू अनुपात वाले अलग-अलग लंबाई के ट्रेलर शामिल हैं।
इस खंड में, हम अलग-अलग फ्रेमवर्क विविधताओं के साथ अपने प्रयोगों पर चर्चा करेंगे। हमने अलग-अलग तौर-तरीकों और पूर्व-संयुक्त विशेषताओं के आधार पर 3 अलग-अलग फ्रेमवर्क के साथ प्रयोग किया।
एमएस (वीडियो फ्रेम विश्लेषण): वीडियो फ्रेम से केवल स्थिति आधारित विशेषताओं पर विचार करने वाला मॉडल।
एमडी (संवाद-मेटाडेटा विश्लेषण): ऑडियो से संवाद और मेटाडेटा से विवरण को विशेषता के रूप में मानने वाला मॉडल।
एमएसडी (मल्टी-मोडैलिटी विश्लेषण): वीडियो फ्रेम से स्थिति-आधारित विशेषताओं, ऑडियो से संवाद और मेटाडेटा से विवरण को विशेषताओं के रूप में मानने वाला मॉडल।
MSD के लिए सेक्शन 4.2.3 में प्रस्तावित आर्किटेक्चर का उपयोग प्री-फ़्यूज़्ड फ़ीचर के साथ किया जाता है। हालाँकि, इनपुट कॉर्पस को थोड़ा संशोधित किया गया है। सेक्शन 4.4 में परिभाषित कॉर्पस का उपयोग MSD के लिए किया जाता है। LMTD-9 और EMTD पर MSD के लिए परिशुद्धता, रिकॉल और F1-स्कोर तालिका 5 में दर्शाया गया है। हालाँकि, MS और MD के साथ MSD की AU (PRC) तुलना आगामी अनुभाग में चर्चा की गई है।
विभिन्न शैलियों के प्रदर्शन में कुछ भिन्नता देखी जा सकती है। प्रमुख शैलियों से संबंधित अधिकांश ट्रेलरों को सटीक रूप से वर्गीकृत किया जा रहा है (0.84 और उससे अधिक के F1 स्कोर के साथ), जो दर्शाता है कि प्रस्तावित मॉडल अच्छा प्रदर्शन कर रहा है। एक्शन शैली पाँच में से सबसे अच्छा प्रदर्शन करने वाली शैली थी, जिसका F1-स्कोर क्रमशः EMTD और LMTD-9 पर 0.88 और 0.89 था। F1-स्कोर के संदर्भ में रोमांस शैली सभी शैलियों में सबसे कम प्रदर्शन करने वाली शैली देखी गई। यह देखा गया है कि कई रोमांस शैली के ट्रेलरों को कॉमेडी में गलत तरीके से वर्गीकृत किया जा रहा है क्योंकि इन दोनों शैलियों में समान शब्दों जैसे कि खुशी, मुस्कान, हंसी आदि का बोलबाला है।
AU (PRC) यानी, परिशुद्धता-स्मरण वक्र के तहत क्षेत्र, हमारे वर्गीकरण परिणामों की तुलना करने के लिए गणना की जाती है, क्योंकि हम बहु-लेबल वर्गीकरण समस्या से निपट रहे हैं। AU (PRC) उपाय हमारे मॉडल के वास्तविक प्रदर्शन की तुलना करने में मदद करता है, बहु-लेबल डेटासेट में वर्ग असंतुलन के कारण शोर प्रभाव की भरपाई करता है। AU (PRC) वक्र दोनों डेटासेट पर सभी 3 मॉडलों के लिए बनाए गए हैं जैसा कि Fig. 5, Fig. 6, और Fig. 7 में दर्शाया गया है। EMTD के सत्यापन सेट पर, हमने क्रमशः MSD, MD और MS पर लगभग समान AU (PRC) मान 92%, 91%, 88% पाए। हालांकि, हमने पाया कि हमारा MSD LMTD9 डेटासेट पर 82% AU (PRC) मान देता है
हालांकि, हमारे अध्ययन के भीतर हमारे द्वारा प्रयोग किए गए कुछ अन्य मॉडलों के साथ समग्र तुलना के लिए, हम उनके परिणामों का उल्लेख तालिका 6 में करते हैं। सर्वोत्तम आर्किटेक्चर चुनने के लिए, दोनों सत्यापन डेटासेट पर एयू (पीआरसी) के संदर्भ में मॉडल की तुलना की जाती है। फीचर्स मॉडल डेटासेट ईएमटीडी एलएमटीडी-9 डायलॉग (एमडी) ई-बीआई एलएसटीएम 0.87 0.66 ईसीनेट 0.91 0.72 स्थिति (एमएस) ईसीनेट 0.86 0.75 टीएफएनेट 0.88 0.80 फ्यूज्ड फीचर्स (एमएसडी) ईसीनेट 0.92 0.82 सभी उल्लिखित मॉडल हमें फ्यूज्ड फीचर्स के लिए सर्वश्रेष्ठ मॉडल तय करने में मदद करते हैं। हालांकि एमडी में ईएमटीडी पर एमएसडी के साथ तुलनीय एयू (पीआरसी) मूल्य हैं लेकिन एलएमटीडी-9 पर, एमएसडी ने एमडी को बेहतर प्रदर्शन किया। इसलिए, क्रॉस डेटासेट सत्यापन द्वारा MSD अधिक मजबूत साबित होता है। हम निष्कर्ष निकालते हैं कि प्रस्तावित MSD सबसे अच्छा प्रदर्शन करने वाला मॉडल है।
इस खंड में, हम तालिका 7 में दर्शाए अनुसार प्रत्येक शैली के लिए अलग-अलग AU (PRC) मीट्रिक का उपयोग करके मूवी शैली वर्गीकरण के लिए पिछले तरीकों के साथ अत्याधुनिक तुलना करके हमारे प्रस्तावित मॉडल के प्रदर्शन को मान्य करते हैं। तालिका 7 में उल्लिखित सभी परिणाम दो दशमलव स्थानों तक दिखाए गए हैं और फिश एट अल [22] को छोड़कर मानक LMTD-9 डेटासेट पर आधारित हैं, जिनके परिणाम MMX ट्रेलर-20 डेटासेट पर आधारित हैं। यह अपने अध्ययन में रोमांस शैली पर विचार नहीं करता है। हालांकि, अन्य शैलियों के लिए, फिश एट अल [22] और एमएसडी के एयू (पीआरसी) मूल्यों में अंतर ध्यान देने योग्य है। एमएसडी औसतन 20% बेहतर प्रदर्शन करता है। निम्न-स्तरीय दृश्य विशेषताएँ आधारित वर्गीकरण [23] 24 निम्न-स्तरीय दृश्य विशेषता निम्न-स्तरीय फीचर दृष्टिकोणों [23], [24] की तुलना में, MSD औसतन 10% बेहतर प्रदर्शन करता है, और उच्च-स्तरीय सुविधाओं [22], [25] का उपयोग करने वाले दृष्टिकोणों से तुलना करके, यह प्रत्येक शैली के लिए औसतन 8% बेहतर प्रदर्शन करता है। यह भी देखा गया है कि कॉमेडी शैली ने अन्य चार शैलियों की तुलना में अधिकांश कार्यों में अच्छा प्रदर्शन किया है जबकि विज्ञान-कथा में अपेक्षाकृत कम AU (PRC) मान हैं। यह विज्ञान-कथा शैली में उचित अंतर की अनुपलब्धता के कारण हो सकता है, क्योंकि इसकी विशेषताएँ कुछ अन्य समान शैलियों (जैसे एक्शन) के साथ ओवरलैप होती हैं।
तुलनात्मक अध्ययन से पता चलता है कि प्रस्तावित मॉडल मजबूत है क्योंकि यह मौजूदा तरीकों से बेहतर प्रदर्शन करता है और बेहतरीन नतीजे देता है। बेहतर प्रदर्शन इस कारण से है कि प्रस्तावित आर्किटेक्चर में संज्ञानात्मक और भावात्मक दोनों विशेषताएं शामिल हैं, जो मॉडल को प्रत्येक शैली की पर्याप्त विशेषताओं को सीखने में मदद करती हैं, इसलिए शैलियों की अधिक सटीक भविष्यवाणी करती हैं।
यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।