लेखक:  (1) दिनेश कुमार विश्वकर्मा, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत;  (2) मयंक जिंदल, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत  (3) आयुष मित्तल, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत  (4) आदित्य शर्मा, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत।  लिंक की तालिका   सार और परिचय   पृष्ठभूमि और संबंधित कार्य   EMTD डेटासेट   प्रस्तावित कार्यप्रणाली   प्रयोगों   निष्कर्ष और संदर्भ  5. प्रयोग  इस भाग में, हम विभिन्न तौर-तरीकों और प्रीफीचर फ्यूज्ड मॉडल पर विभिन्न मॉडल आर्किटेक्चर की जांच करेंगे। बाद में, हम अपने काम को मानक LMTD-9 डेटासेट के साथ-साथ हमारे प्रस्तावित डेटासेट पर मान्य करके सत्यापित करते हैं। अंत में, हमारे मॉडल की मजबूती का पता लगाने के लिए एक तुलनात्मक अध्ययन पर चर्चा की गई है। सभी प्रयोग 128 जीबी डीडीआर4 रैम और एनवीडिया टाइटन आरटीएक्स (24 जीबी) जीपीयू कॉन्फ़िगरेशन वाले जीपीयू वर्कस्टेशन पर किए गए हैं।  5.1. डेटासेट  हमारे ढांचे को सत्यापित करने के लिए, हम अपने प्रस्तावित डेटासेट और मानक LMTD-9 [2] डेटासेट का उपयोग करते हैं। विस्तृत विवरण इस प्रकार उल्लिखित हैं:  5.1.1. अंग्रेजी मूवी ट्रेलर डेटासेट (EMTD)  EMTD: हमारे प्रस्तावित डेटासेट में 1700 अद्वितीय ट्रेलरों का एक अलग प्रशिक्षण सेट और 300 अद्वितीय ट्रेलरों का एक सत्यापन सेट शामिल है, जो सभी IMDB से लिए गए हैं, जैसा कि अनुभाग 3 में उल्लेख किया गया है।  5.1.2. लेबलयुक्त मूवी ट्रेलर डेटासेट (LMTD-9)  LMTD [16], [20] एक मल्टी-लेबल बड़े पैमाने का मूवी ट्रेलर डेटासेट है जिसमें ट्रेलर लिंक, ट्रेलर मेटाडेटा, प्लॉट/सारांश, अद्वितीय ट्रेलर आईडी शामिल है जिसमें 22 अलग-अलग लेबल/शैलियों से संबंधित लगभग 9k मूवी ट्रेलर शामिल हैं। सत्यापन उद्देश्यों के लिए, LMTD-9 [2] का एक सत्यापन सेट (उपभाग) उपयोग किया जाता है जिसमें केवल 1980 के बाद रिलीज़ किए गए हॉलीवुड ट्रेलर और हमारी शैली सूची के लिए विशिष्ट ट्रेलर शामिल हैं। डेटासेट में अलग-अलग वीडियो गुणवत्ता और पहलू अनुपात वाले अलग-अलग लंबाई के ट्रेलर शामिल हैं।  5.2. विभिन्न मॉडलों पर वर्गीकरण परिणाम  इस खंड में, हम अलग-अलग फ्रेमवर्क विविधताओं के साथ अपने प्रयोगों पर चर्चा करेंगे। हमने अलग-अलग तौर-तरीकों और पूर्व-संयुक्त विशेषताओं के आधार पर 3 अलग-अलग फ्रेमवर्क के साथ प्रयोग किया।    वीडियो फ्रेम से केवल स्थिति आधारित विशेषताओं पर विचार करने वाला मॉडल। एमएस (वीडियो फ्रेम विश्लेषण):    ऑडियो से संवाद और मेटाडेटा से विवरण को विशेषता के रूप में मानने वाला मॉडल। एमडी (संवाद-मेटाडेटा विश्लेषण):    वीडियो फ्रेम से स्थिति-आधारित विशेषताओं, ऑडियो से संवाद और मेटाडेटा से विवरण को विशेषताओं के रूप में मानने वाला मॉडल।  एमएसडी (मल्टी-मोडैलिटी विश्लेषण):  MSD के लिए सेक्शन 4.2.3 में प्रस्तावित आर्किटेक्चर का उपयोग प्री-फ़्यूज़्ड फ़ीचर के साथ किया जाता है। हालाँकि, इनपुट कॉर्पस को थोड़ा संशोधित किया गया है। सेक्शन 4.4 में परिभाषित कॉर्पस का उपयोग MSD के लिए किया जाता है। LMTD-9 और EMTD पर MSD के लिए परिशुद्धता, रिकॉल और F1-स्कोर तालिका 5 में दर्शाया गया है। हालाँकि, MS और MD के साथ MSD की AU (PRC) तुलना आगामी अनुभाग में चर्चा की गई है।  विभिन्न शैलियों के प्रदर्शन में कुछ भिन्नता देखी जा सकती है। प्रमुख शैलियों से संबंधित अधिकांश ट्रेलरों को सटीक रूप से वर्गीकृत किया जा रहा है (0.84 और उससे अधिक के F1 स्कोर के साथ), जो दर्शाता है कि प्रस्तावित मॉडल अच्छा प्रदर्शन कर रहा है। एक्शन शैली पाँच में से सबसे अच्छा प्रदर्शन करने वाली शैली थी, जिसका F1-स्कोर क्रमशः EMTD और LMTD-9 पर 0.88 और 0.89 था। F1-स्कोर के संदर्भ में रोमांस शैली सभी शैलियों में सबसे कम प्रदर्शन करने वाली शैली देखी गई। यह देखा गया है कि कई रोमांस शैली के ट्रेलरों को कॉमेडी में गलत तरीके से वर्गीकृत किया जा रहा है क्योंकि इन दोनों शैलियों में समान शब्दों जैसे कि खुशी, मुस्कान, हंसी आदि का बोलबाला है।   5.3. एयू (पीआरसी) तुलना  AU (PRC) यानी, परिशुद्धता-स्मरण वक्र के तहत क्षेत्र, हमारे वर्गीकरण परिणामों की तुलना करने के लिए गणना की जाती है, क्योंकि हम बहु-लेबल वर्गीकरण समस्या से निपट रहे हैं। AU (PRC) उपाय हमारे मॉडल के वास्तविक प्रदर्शन की तुलना करने में मदद करता है, बहु-लेबल डेटासेट में वर्ग असंतुलन के कारण शोर प्रभाव की भरपाई करता है। AU (PRC) वक्र दोनों डेटासेट पर सभी 3 मॉडलों के लिए बनाए गए हैं जैसा कि Fig. 5, Fig. 6, और Fig. 7 में दर्शाया गया है। EMTD के सत्यापन सेट पर, हमने क्रमशः MSD, MD और MS पर लगभग समान AU (PRC) मान 92%, 91%, 88% पाए। हालांकि, हमने पाया कि हमारा MSD LMTD9 डेटासेट पर 82% AU (PRC) मान देता है   हालांकि, हमारे अध्ययन के भीतर हमारे द्वारा प्रयोग किए गए कुछ अन्य मॉडलों के साथ समग्र तुलना के लिए, हम उनके परिणामों का उल्लेख तालिका 6 में करते हैं। सर्वोत्तम आर्किटेक्चर चुनने के लिए, दोनों सत्यापन डेटासेट पर एयू (पीआरसी) के संदर्भ में मॉडल की तुलना की जाती है। फीचर्स मॉडल डेटासेट ईएमटीडी एलएमटीडी-9 डायलॉग (एमडी) ई-बीआई एलएसटीएम 0.87 0.66 ईसीनेट 0.91 0.72 स्थिति (एमएस) ईसीनेट 0.86 0.75 टीएफएनेट 0.88 0.80 फ्यूज्ड फीचर्स (एमएसडी) ईसीनेट 0.92 0.82 सभी उल्लिखित मॉडल हमें फ्यूज्ड फीचर्स के लिए सर्वश्रेष्ठ मॉडल तय करने में मदद करते हैं। हालांकि एमडी में ईएमटीडी पर एमएसडी के साथ तुलनीय एयू (पीआरसी) मूल्य हैं लेकिन एलएमटीडी-9 पर, एमएसडी ने एमडी को बेहतर प्रदर्शन किया। इसलिए, क्रॉस डेटासेट सत्यापन द्वारा MSD अधिक मजबूत साबित होता है। हम निष्कर्ष निकालते हैं कि प्रस्तावित MSD सबसे अच्छा प्रदर्शन करने वाला मॉडल है।  5.4. आधार रेखा तुलना  इस खंड में, हम तालिका 7 में दर्शाए अनुसार प्रत्येक शैली के लिए अलग-अलग AU (PRC) मीट्रिक का उपयोग करके मूवी शैली वर्गीकरण के लिए पिछले तरीकों के साथ अत्याधुनिक तुलना करके हमारे प्रस्तावित मॉडल के प्रदर्शन को मान्य करते हैं। तालिका 7 में उल्लिखित सभी परिणाम दो दशमलव स्थानों तक दिखाए गए हैं और फिश एट अल [22] को छोड़कर मानक LMTD-9 डेटासेट पर आधारित हैं, जिनके परिणाम MMX ट्रेलर-20 डेटासेट पर आधारित हैं। यह अपने अध्ययन में रोमांस शैली पर विचार नहीं करता है। हालांकि, अन्य शैलियों के लिए, फिश एट अल [22] और एमएसडी के एयू (पीआरसी) मूल्यों में अंतर ध्यान देने योग्य है। एमएसडी औसतन 20% बेहतर प्रदर्शन करता है। निम्न-स्तरीय दृश्य विशेषताएँ आधारित वर्गीकरण [23] 24 निम्न-स्तरीय दृश्य विशेषता निम्न-स्तरीय फीचर दृष्टिकोणों [23], [24] की तुलना में, MSD औसतन 10% बेहतर प्रदर्शन करता है, और उच्च-स्तरीय सुविधाओं [22], [25] का उपयोग करने वाले दृष्टिकोणों से तुलना करके, यह प्रत्येक शैली के लिए औसतन 8% बेहतर प्रदर्शन करता है। यह भी देखा गया है कि कॉमेडी शैली ने अन्य चार शैलियों की तुलना में अधिकांश कार्यों में अच्छा प्रदर्शन किया है जबकि विज्ञान-कथा में अपेक्षाकृत कम AU (PRC) मान हैं। यह विज्ञान-कथा शैली में उचित अंतर की अनुपलब्धता के कारण हो सकता है, क्योंकि इसकी विशेषताएँ कुछ अन्य समान शैलियों (जैसे एक्शन) के साथ ओवरलैप होती हैं।   तुलनात्मक अध्ययन से पता चलता है कि प्रस्तावित मॉडल मजबूत है क्योंकि यह मौजूदा तरीकों से बेहतर प्रदर्शन करता है और बेहतरीन नतीजे देता है। बेहतर प्रदर्शन इस कारण से है कि प्रस्तावित आर्किटेक्चर में संज्ञानात्मक और भावात्मक दोनों विशेषताएं शामिल हैं, जो मॉडल को प्रत्येक शैली की पर्याप्त विशेषताओं को सीखने में मदद करती हैं, इसलिए शैलियों की अधिक सटीक भविष्यवाणी करती हैं।  यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत   है। arxiv पर उपलब्ध

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

स्थिति और संवाद-आधारित गहरे नेटवर्क की बहुस्तरीय प्रोफाइलिंग: प्रयोग

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

AI की शक्ति को उन्मुक्त करना। अत्याधुनिक तकनीकों की एक व्यवस्थित समीक्षा: सार और परिचय

He/Him/Master of Discovery

डिजिटल खानाबदोशों सुनो: थाईलैंड के नए डीटीवी वीज़ा के बारे में आपको क्या जानना चाहिए

जलयात्रा: डेटा झीलों के साथ उत्पादन-ग्रेड आरएजी अनुप्रयोगों का विकास

AI की शक्ति को उन्मुक्त करना। अत्याधुनिक तकनीकों की एक व्यवस्थित समीक्षा: सार और परिचय

He/Him/Master of Discovery

डिजिटल खानाबदोशों सुनो: थाईलैंड के नए डीटीवी वीज़ा के बारे में आपको क्या जानना चाहिए

जलयात्रा: डेटा झीलों के साथ उत्पादन-ग्रेड आरएजी अनुप्रयोगों का विकास

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps