लेखक:
(1) दिनेश कुमार विश्वकर्मा, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत;
(2) मयंक जिंदल, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत
(3) आयुष मित्तल, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत
(4) आदित्य शर्मा, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत।
मूवी का कथानक/विवरण मूवी का वर्णन करने के लिए एक महत्वपूर्ण विशेषता है। ज़्यादातर मामलों में, रिलीज़ होने वाली मूवी के लिए उल्लिखित कथानक या तो बहुत छोटा होता है या कुछ मामलों में इसका उल्लेख नहीं किया जाता है। इसे ध्यान में रखते हुए, हम मूवी ट्रेलर से निकाले गए संवादों के साथ संयोजित विवरण का उपयोग करना चुनते हैं ताकि अंततः मूवी शैली का अनुमान लगाया जा सके, जैसा कि अनुभाग 4.2 में विस्तार से चर्चा की गई है। विवरण IMDB वेबसाइट से मेटाडेटा के रूप में प्राप्त किए जाते हैं जैसा कि अनुभाग 3 में पहले ही उल्लेख किया गया है।
इस खंड में, हम ट्रेलर के ऑडियो (संवादों से जुड़े विवरण/कथानक) से संवादों की सूची को संसाधित करने के लिए एक आर्किटेक्चर का प्रस्ताव करते हैं ताकि मूवी शैलियों की भविष्यवाणी की जा सके। इस स्ट्रीम के लिए महत्वपूर्ण चरणों में शामिल हैं: (1) मूवी ट्रेलर से भाषण (संवाद) निकालना और (2) भाषण और मेटाडेटा के आधार पर शैलियों की भविष्यवाणी करने के लिए एक मॉडल डिज़ाइन करना।
(.wav) प्रारूप में ऑडियो फ़ाइलें (.mp4) वीडियो ट्रेलरों से निकाली गई हैं। इसके बाद, ऑडियो फ़ाइल को छोटे ऑडियो क्लिप में विभाजित किया गया है और [17] में प्रस्तावित अनुसार संवादों में परिवर्तित किया गया है। इनपुट कॉर्पस बनाने के लिए सभी पाठ एकत्र किए गए हैं। विवरण/कथानक (यदि मेटाडेटा में उपलब्ध है) को भी इस कॉर्पस में विलय कर दिया गया है। हमारा अध्ययन केवल अंग्रेजी भाषा के ट्रेलरों के लिए लक्षित है। मूवी प्लॉट की तरह, ट्रेलरों से निकाला गया भाषण हमारे टेक्स्ट कॉर्पस के पूरक के रूप में काम कर सकता है, जो टेक्स्ट संदर्भ और मूवी की शैली के बीच के संबंध को बेहतर ढंग से समझने में मदद कर सकता है। हमारे प्रशिक्षण/परीक्षण चरण में प्रत्येक ट्रेलर के लिए एक एकल रिकॉर्ड से युक्त कॉर्पस उत्पन्न करने के बाद निम्नलिखित पूर्व-प्रसंस्करण चरण आयोजित किए गए: सभी पाठ को लोअरकेस में परिवर्तित करना
संज्ञानात्मक-आधारित शैली पहचान वास्तुकला का निर्माण करने के लिए, पाठ कॉर्पस के रूप में ट्रेलर की महत्वपूर्ण विशेषताओं को एक मॉडल द्वारा सीखा जाना चाहिए। यह एम्बेडिंग और CNN (कन्वोल्यूशन न्यूरल नेटवर्क) परतों के संयोजन का उपयोग करके प्राप्त किया जा सकता है। मल्टी-लेबल वर्गीकरण नेटवर्क की परतों को तालिका 3 में दर्शाया गया है। एम्बेडिंग एनएलपी समस्याओं में शब्दों को संख्यात्मक वैक्टर के रूप में गणितीय प्रतिनिधित्व में बदलने के लिए उपयोग की जाने वाली लोकप्रिय तकनीकों में से एक है।
आर्किटेक्चर को इनपुट भेजने से पहले, शब्दावली को डिज़ाइन करने की आवश्यकता होती है और प्रत्येक डेटा बिंदु के लिए कॉर्पस का आकार तय करने की आवश्यकता होती है। 10,395 शब्दों के आकार की शब्दावली डिज़ाइन की गई है और प्रत्येक कॉर्पस में शब्दों की अधिकतम लंबाई हमारे प्रशिक्षण कॉर्पस में सबसे लंबे वाक्य की लंबाई के रूप में सेट की गई है, जो हमारे मामले में 330 है। यदि कॉर्पस में शब्दों की संख्या अधिकतम लंबाई से कम है, तो कॉर्पस को 0 से पैड किया जाता है। 2-3 मिनट के मूवी ट्रेलर के लिए, 330 शब्द पर्याप्त पाए जाते हैं क्योंकि ट्रेलर के कुछ हिस्सों में कोई भाषण नहीं हो सकता है (केवल स्वर मौजूद हो सकते हैं)।
अब इनपुट डेटा में प्रत्येक कॉर्पस के लिए, हमारे पास (330,) आकार का इनपुट है (330 प्रत्येक डेटा बिंदु में शब्दों की संख्या है), जिसे चित्र 2 के अनुसार हमारी वास्तुकला की पहली परत, यानी एम्बेडिंग परत में फीड किया जाता है। एम्बेडिंग परत आयाम (330, 64,) का आउटपुट देती है क्योंकि हमारे प्रस्तावित आर्किटेक्चर में प्रत्येक शब्द के लिए एम्बेडिंग की लंबाई 64 मानी जाती है।
एम्बेडिंग लेयर के बाद, 1-डी कन्वोल्यूशन लेयर को एम्बेडिंग लेयर के आउटपुट के साथ फीड किया जाता है। फिर से, कन्वोल्यूशन लेयर (330, 64,) का आउटपुट आकार देता है। समान आउटपुट प्राप्त करने के लिए, हम कन्वोल्यूशन लेयर के इनपुट पर समान रूप से पैडिंग लागू करते हैं। इसके बाद, डेटा के आयाम को (330, 64,) से (165, 64,) तक कम करने के लिए मैक्स-पूलिंग लेयर का उपयोग किया जाता है। आर्किटेक्चर के बाद दो-आयामी डेटा को एक-आयामी डेटा में बदलने के लिए एक फ़्लैटन लेयर होती है, ताकि आउटपुट को आगे एक सघन लेयर में भेजा जा सके।
जैसा कि तालिका 3 में दर्शाया गया है, समतल परत आकार (10560,) का आउटपुट देती है जिसे इनपुट के रूप में सघन परत में फीड किया जाता है और (32,) का आउटपुट आकार देता है। अंत में, अंतिम सघन परत को आर्किटेक्चर पर लागू किया जाता है जो हमारे पांच शैलियों को दर्शाते हुए (5,) का आउटपुट आकार लौटाता है। हमारे आर्किटेक्चर की अंतिम सघन परत में, हम अपने मल्टी-लेबल वर्गीकरण समस्या के लिए सबसे उपयुक्त सक्रियण फ़ंक्शन के रूप में "सिग्मॉइड" का उपयोग करते हैं।
इस खंड में मूवी ट्रेलरों से दृश्य विशेषताओं पर हमारे द्वारा प्रस्तावित कार्य शामिल हैं। इस स्ट्रीम के लिए प्राथमिक चरणों में शामिल हैं: (1) ट्रेलर से वीडियो फ़्रेम प्राप्त करना, (2) फ़्रेम से परिस्थितियाँ निकालना और (3) ट्रेलरों को अंततः शैलियों में वर्गीकृत करने के लिए आर्किटेक्चर बनाना।
दृश्य विशेषताओं के लिए वीडियो से निकाले गए प्रत्येक फ्रेम के आधार पर स्थितियों और घटनाओं को निकालकर एक नया स्थिति-आधारित वीडियो विश्लेषण मॉडल प्रस्तावित किया गया है। इस प्रकार, उन्हें एक साथ इकट्ठा करके मॉडल को प्रशिक्षित/परीक्षण करने के लिए एक कॉर्पस बनाया जाता है।
जहाँ तक हमारी जानकारी है, हम शैली वर्गीकरण के लिए स्थिति, घटना और संवाद विश्लेषण को मिलाकर एक नया ढाँचा प्रस्तावित कर रहे हैं। ढाँचे के बारे में अधिक जानकारी नीचे दिए गए अनुभागों में वर्णित है।
मूवी ट्रेलरों के कुछ उपसमूह का उपयोग करके विभिन्न प्रयोगों के बाद, यह पाया गया कि हर 10𝑡ℎ फ्रेम लेना फ्रेम में अतिरेक से बचने के लिए फायदेमंद है (वीडियो से लगातार फ्रेम समान प्रतीत होते हैं)। इसलिए, अनावश्यक फ्रेम को त्यागने के बाद, अंतिम वीडियो फ्रेम को समीकरण (9) के रूप में व्यक्त किया जा सकता है:
अगले अनुभागों में, हम प्रत्येक ट्रेलर के लिए इन फ़्रेमों पर विचार करेंगे।
और संभावना है कि स्थिति S छवि I से संबंधित है जिसे समीकरण (11) के रूप में दर्शाया जा सकता है।
𝛼 हमारे तंत्रिका नेटवर्क के लिए पैरामीटर को दर्शाता है। अब, हम एक छवि में अर्थपूर्ण भूमिकाओं को एक विशेष क्रम में परिभाषित कर सकते हैं। इस प्रकार, समीकरण (12) को समीकरण (13) में घटाया जा सकता है।
समीकरण (13) को समीकरण (14) के रूप में और सरल किया जा सकता है।
किसी विशेष छवि/फ़्रेम के लिए, समीकरण (14) में परिभाषित अधिकतम मान संभावना वाली स्थिति को उस छवि के लिए माना जाएगा।
अब कार्य को टेक्स्ट वर्गीकरण कार्य में बदल दिया जाता है जिसके लिए हम मॉडल आर्किटेक्चर का प्रस्ताव करते हैं जैसा कि आगामी अनुभागों में चर्चा की गई है। अगले चरण पर आगे बढ़ने से पहले, टेक्स्ट प्रीप्रोसेसिंग की जाती है: सभी टेक्स्ट को लोअरकेस में बदलना, अंकों, विराम चिह्नों और स्टॉप-वर्ड को हटाना, जैसा कि अनुभाग 4.2.1 में बताया गया है। मूवी ट्रेलर शैली की भविष्यवाणी करने के लिए परीक्षण प्रक्रिया में भी यही चरण किए जाते हैं।
दृश्य विशेषताओं को निकालने के बाद, ट्रेलरों के लिए अंतिम शैलियों को वर्गीकृत करने के लिए एक मजबूत वास्तुकला की आवश्यकता होती है। यह मॉडल उस मॉडल से अलग है जिसे हमने संवाद स्ट्रीम में प्रस्तावित किया था। यहाँ, TFAnet (टर्म फ़्रीक्वेंसी आर्टिफिशियल न्यूरल नेटवर्क) का प्रस्ताव है जिसमें घने और ड्रॉपआउट परतों का एक गहरा नेटवर्क शामिल है जैसा कि चित्र 4 में दर्शाया गया है।
प्रस्तावित आर्किटेक्चर पर आने से पहले, हम [19] में TF-IDF का उपयोग करके टेक्स्ट प्रतिनिधित्व पर चर्चा करेंगे। इस आर्किटेक्चर के लिए, प्रत्येक डेटा बिंदु के कॉर्पस में शब्द गणना का उपयोग करने का प्रस्ताव है। इसलिए, हम मूवी ट्रेलर शैलियों को वर्गीकृत करने के लिए कॉर्पस से शब्द गणना का उपयोग सुविधाओं के रूप में करते हैं। हमारे शब्दावली सेट में सुविधाओं के रूप में बड़ी संख्या में शब्दों को शामिल करने के लिए, मॉडल को प्रशिक्षित करते समय हमारे पास उपलब्ध एक विशाल कॉर्पस प्राप्त करने के लिए हमारे EMTD में रिलीज़ की गई तारीखों की एक बड़ी रेंज के ट्रेलरों का उपयोग किया जाता है। हमारे कॉर्पस से यूनिग्राम, बिग्राम और ट्रिग्राम के संयोजन का उपयोग सुविधाओं के रूप में किया जाता है और TF-IDF (टर्म फ़्रीक्वेंसी-इनवर्स डॉक्यूमेंट फ़्रीक्वेंसी) एल्गोरिदम हमारे टेक्स्ट को संख्यात्मक रूप में दर्शाता है। लिए गए कुल n-ग्राम फ़ीचर लगभग 34,684 हैं
TFAnet (टर्म फ़्रीक्वेंसी आर्टिफ़िशियल न्यूरल नेटवर्क) की वास्तुकला तालिका 4 में दर्शाई गई है। इनपुट आकार, जैसा कि ऊपर चर्चा की गई है, (34684,) है। यह इनपुट एक सघन परत को दिया जाता है, जो आकार (64,) का आउटपुट देता है। फिर 0.4 की दर से ओवरफ़िटिंग को कम करने के लिए एक ड्रॉपआउट परत लागू की जाती है। फिर से, एक सघन परत लागू की जाती है, और हमें आकार (32,) का आउटपुट मिलता है, उसके बाद 0.2 की दर से एक ड्रॉपआउट परत मिलती है। अंत में, एक सघन परत लागू की जाती है, जो अंत में पाँच शैलियों की भविष्यवाणी करने के लिए आकार (5,) का आउटपुट देती है, जिसमें सिग्मॉइड एक सक्रियण फ़ंक्शन के रूप में होता है।
एमएसडी मॉडल के प्रशिक्षण चरण का एल्गोरिथ्म एल्गोरिथ्म 1 के रूप में लिखा गया है।
यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।