paint-brush
स्थिति और संवाद-आधारित गहरे नेटवर्क की बहुस्तरीय प्रोफाइलिंग: प्रस्तावित कार्यप्रणालीद्वारा@kinetograph
125 रीडिंग

स्थिति और संवाद-आधारित गहरे नेटवर्क की बहुस्तरीय प्रोफाइलिंग: प्रस्तावित कार्यप्रणाली

बहुत लंबा; पढ़ने के लिए

इस पत्र में, शोधकर्ताओं ने स्थिति, संवाद और मेटाडेटा विशेषताओं का उपयोग करते हुए फिल्म शैली वर्गीकरण के लिए एक बहु-रूपता ढांचे का प्रस्ताव दिया है।
featured image - स्थिति और संवाद-आधारित गहरे नेटवर्क की बहुस्तरीय प्रोफाइलिंग: प्रस्तावित कार्यप्रणाली
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

लेखक:

(1) दिनेश कुमार विश्वकर्मा, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत;

(2) मयंक जिंदल, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत

(3) आयुष मित्तल, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत

(4) आदित्य शर्मा, बायोमेट्रिक अनुसंधान प्रयोगशाला, सूचना प्रौद्योगिकी विभाग, दिल्ली प्रौद्योगिकी विश्वविद्यालय, दिल्ली, भारत।

लिंक की तालिका

4. प्रस्तावित कार्यप्रणाली

4.1. विवरण

मूवी का कथानक/विवरण मूवी का वर्णन करने के लिए एक महत्वपूर्ण विशेषता है। ज़्यादातर मामलों में, रिलीज़ होने वाली मूवी के लिए उल्लिखित कथानक या तो बहुत छोटा होता है या कुछ मामलों में इसका उल्लेख नहीं किया जाता है। इसे ध्यान में रखते हुए, हम मूवी ट्रेलर से निकाले गए संवादों के साथ संयोजित विवरण का उपयोग करना चुनते हैं ताकि अंततः मूवी शैली का अनुमान लगाया जा सके, जैसा कि अनुभाग 4.2 में विस्तार से चर्चा की गई है। विवरण IMDB वेबसाइट से मेटाडेटा के रूप में प्राप्त किए जाते हैं जैसा कि अनुभाग 3 में पहले ही उल्लेख किया गया है।


चित्र 1: ढांचे की पाइपलाइन

4.2. संवाद

इस खंड में, हम ट्रेलर के ऑडियो (संवादों से जुड़े विवरण/कथानक) से संवादों की सूची को संसाधित करने के लिए एक आर्किटेक्चर का प्रस्ताव करते हैं ताकि मूवी शैलियों की भविष्यवाणी की जा सके। इस स्ट्रीम के लिए महत्वपूर्ण चरणों में शामिल हैं: (1) मूवी ट्रेलर से भाषण (संवाद) निकालना और (2) भाषण और मेटाडेटा के आधार पर शैलियों की भविष्यवाणी करने के लिए एक मॉडल डिज़ाइन करना।

4.2.1. डेटा प्री-प्रोसेसिंग

(.wav) प्रारूप में ऑडियो फ़ाइलें (.mp4) वीडियो ट्रेलरों से निकाली गई हैं। इसके बाद, ऑडियो फ़ाइल को छोटे ऑडियो क्लिप में विभाजित किया गया है और [17] में प्रस्तावित अनुसार संवादों में परिवर्तित किया गया है। इनपुट कॉर्पस बनाने के लिए सभी पाठ एकत्र किए गए हैं। विवरण/कथानक (यदि मेटाडेटा में उपलब्ध है) को भी इस कॉर्पस में विलय कर दिया गया है। हमारा अध्ययन केवल अंग्रेजी भाषा के ट्रेलरों के लिए लक्षित है। मूवी प्लॉट की तरह, ट्रेलरों से निकाला गया भाषण हमारे टेक्स्ट कॉर्पस के पूरक के रूप में काम कर सकता है, जो टेक्स्ट संदर्भ और मूवी की शैली के बीच के संबंध को बेहतर ढंग से समझने में मदद कर सकता है। हमारे प्रशिक्षण/परीक्षण चरण में प्रत्येक ट्रेलर के लिए एक एकल रिकॉर्ड से युक्त कॉर्पस उत्पन्न करने के बाद निम्नलिखित पूर्व-प्रसंस्करण चरण आयोजित किए गए: सभी पाठ को लोअरकेस में परिवर्तित करना


तालिका 2: संक्षिप्तीकरण और उनके अर्थ

4.2.2. फ़ीचर एक्सट्रैक्शन (संवाद)


4.2.3. ईसीनेट (एम्बेडिंग - कन्वोल्यूशन नेटवर्क)

संज्ञानात्मक-आधारित शैली पहचान वास्तुकला का निर्माण करने के लिए, पाठ कॉर्पस के रूप में ट्रेलर की महत्वपूर्ण विशेषताओं को एक मॉडल द्वारा सीखा जाना चाहिए। यह एम्बेडिंग और CNN (कन्वोल्यूशन न्यूरल नेटवर्क) परतों के संयोजन का उपयोग करके प्राप्त किया जा सकता है। मल्टी-लेबल वर्गीकरण नेटवर्क की परतों को तालिका 3 में दर्शाया गया है। एम्बेडिंग एनएलपी समस्याओं में शब्दों को संख्यात्मक वैक्टर के रूप में गणितीय प्रतिनिधित्व में बदलने के लिए उपयोग की जाने वाली लोकप्रिय तकनीकों में से एक है।


चित्र 2: ECnet आर्किटेक्चर


आर्किटेक्चर को इनपुट भेजने से पहले, शब्दावली को डिज़ाइन करने की आवश्यकता होती है और प्रत्येक डेटा बिंदु के लिए कॉर्पस का आकार तय करने की आवश्यकता होती है। 10,395 शब्दों के आकार की शब्दावली डिज़ाइन की गई है और प्रत्येक कॉर्पस में शब्दों की अधिकतम लंबाई हमारे प्रशिक्षण कॉर्पस में सबसे लंबे वाक्य की लंबाई के रूप में सेट की गई है, जो हमारे मामले में 330 है। यदि कॉर्पस में शब्दों की संख्या अधिकतम लंबाई से कम है, तो कॉर्पस को 0 से पैड किया जाता है। 2-3 मिनट के मूवी ट्रेलर के लिए, 330 शब्द पर्याप्त पाए जाते हैं क्योंकि ट्रेलर के कुछ हिस्सों में कोई भाषण नहीं हो सकता है (केवल स्वर मौजूद हो सकते हैं)।


अब इनपुट डेटा में प्रत्येक कॉर्पस के लिए, हमारे पास (330,) आकार का इनपुट है (330 प्रत्येक डेटा बिंदु में शब्दों की संख्या है), जिसे चित्र 2 के अनुसार हमारी वास्तुकला की पहली परत, यानी एम्बेडिंग परत में फीड किया जाता है। एम्बेडिंग परत आयाम (330, 64,) का आउटपुट देती है क्योंकि हमारे प्रस्तावित आर्किटेक्चर में प्रत्येक शब्द के लिए एम्बेडिंग की लंबाई 64 मानी जाती है।


तालिका 3: ECnet आर्किटेक्चर के पैरामीटर


एम्बेडिंग लेयर के बाद, 1-डी कन्वोल्यूशन लेयर को एम्बेडिंग लेयर के आउटपुट के साथ फीड किया जाता है। फिर से, कन्वोल्यूशन लेयर (330, 64,) का आउटपुट आकार देता है। समान आउटपुट प्राप्त करने के लिए, हम कन्वोल्यूशन लेयर के इनपुट पर समान रूप से पैडिंग लागू करते हैं। इसके बाद, डेटा के आयाम को (330, 64,) से (165, 64,) तक कम करने के लिए मैक्स-पूलिंग लेयर का उपयोग किया जाता है। आर्किटेक्चर के बाद दो-आयामी डेटा को एक-आयामी डेटा में बदलने के लिए एक फ़्लैटन लेयर होती है, ताकि आउटपुट को आगे एक सघन लेयर में भेजा जा सके।


जैसा कि तालिका 3 में दर्शाया गया है, समतल परत आकार (10560,) का आउटपुट देती है जिसे इनपुट के रूप में सघन परत में फीड किया जाता है और (32,) का आउटपुट आकार देता है। अंत में, अंतिम सघन परत को आर्किटेक्चर पर लागू किया जाता है जो हमारे पांच शैलियों को दर्शाते हुए (5,) का आउटपुट आकार लौटाता है। हमारे आर्किटेक्चर की अंतिम सघन परत में, हम अपने मल्टी-लेबल वर्गीकरण समस्या के लिए सबसे उपयुक्त सक्रियण फ़ंक्शन के रूप में "सिग्मॉइड" का उपयोग करते हैं।

4.3. स्थिति

इस खंड में मूवी ट्रेलरों से दृश्य विशेषताओं पर हमारे द्वारा प्रस्तावित कार्य शामिल हैं। इस स्ट्रीम के लिए प्राथमिक चरणों में शामिल हैं: (1) ट्रेलर से वीडियो फ़्रेम प्राप्त करना, (2) फ़्रेम से परिस्थितियाँ निकालना और (3) ट्रेलरों को अंततः शैलियों में वर्गीकृत करने के लिए आर्किटेक्चर बनाना।


दृश्य विशेषताओं के लिए वीडियो से निकाले गए प्रत्येक फ्रेम के आधार पर स्थितियों और घटनाओं को निकालकर एक नया स्थिति-आधारित वीडियो विश्लेषण मॉडल प्रस्तावित किया गया है। इस प्रकार, उन्हें एक साथ इकट्ठा करके मॉडल को प्रशिक्षित/परीक्षण करने के लिए एक कॉर्पस बनाया जाता है।


जहाँ तक हमारी जानकारी है, हम शैली वर्गीकरण के लिए स्थिति, घटना और संवाद विश्लेषण को मिलाकर एक नया ढाँचा प्रस्तावित कर रहे हैं। ढाँचे के बारे में अधिक जानकारी नीचे दिए गए अनुभागों में वर्णित है।

4.3.1. वीडियो से फ़्रेम निकालना


मूवी ट्रेलरों के कुछ उपसमूह का उपयोग करके विभिन्न प्रयोगों के बाद, यह पाया गया कि हर 10𝑡ℎ फ्रेम लेना फ्रेम में अतिरेक से बचने के लिए फायदेमंद है (वीडियो से लगातार फ्रेम समान प्रतीत होते हैं)। इसलिए, अनावश्यक फ्रेम को त्यागने के बाद, अंतिम वीडियो फ्रेम को समीकरण (9) के रूप में व्यक्त किया जा सकता है:



अगले अनुभागों में, हम प्रत्येक ट्रेलर के लिए इन फ़्रेमों पर विचार करेंगे।

4.3.2. फ़ीचर निष्कर्षण (स्थिति)


चित्र 3: उपरोक्त फ़्रेमों के लिए स्थितियाँ: (क) सैनिक खुले में मार्च कर रहे हैं। (ख) खून से लथपथ प्रेतबाधित महिला पेड़ के पास खड़ी है। (ग) लोग एक कमरे में जन्मदिन मना रहे हैं। (घ) एक आदमी रेसट्रैक पर दौड़ रहा है।



और संभावना है कि स्थिति S छवि I से संबंधित है जिसे समीकरण (11) के रूप में दर्शाया जा सकता है।




𝛼 हमारे तंत्रिका नेटवर्क के लिए पैरामीटर को दर्शाता है। अब, हम एक छवि में अर्थपूर्ण भूमिकाओं को एक विशेष क्रम में परिभाषित कर सकते हैं। इस प्रकार, समीकरण (12) को समीकरण (13) में घटाया जा सकता है।



समीकरण (13) को समीकरण (14) के रूप में और सरल किया जा सकता है।



किसी विशेष छवि/फ़्रेम के लिए, समीकरण (14) में परिभाषित अधिकतम मान संभावना वाली स्थिति को उस छवि के लिए माना जाएगा।



अब कार्य को टेक्स्ट वर्गीकरण कार्य में बदल दिया जाता है जिसके लिए हम मॉडल आर्किटेक्चर का प्रस्ताव करते हैं जैसा कि आगामी अनुभागों में चर्चा की गई है। अगले चरण पर आगे बढ़ने से पहले, टेक्स्ट प्रीप्रोसेसिंग की जाती है: सभी टेक्स्ट को लोअरकेस में बदलना, अंकों, विराम चिह्नों और स्टॉप-वर्ड को हटाना, जैसा कि अनुभाग 4.2.1 में बताया गया है। मूवी ट्रेलर शैली की भविष्यवाणी करने के लिए परीक्षण प्रक्रिया में भी यही चरण किए जाते हैं।

4.3.3. टी.एफ.ए.नेट (टर्म फ्रीक्वेंसी आर्टिफिशियल न्यूरल नेटवर्क)

दृश्य विशेषताओं को निकालने के बाद, ट्रेलरों के लिए अंतिम शैलियों को वर्गीकृत करने के लिए एक मजबूत वास्तुकला की आवश्यकता होती है। यह मॉडल उस मॉडल से अलग है जिसे हमने संवाद स्ट्रीम में प्रस्तावित किया था। यहाँ, TFAnet (टर्म फ़्रीक्वेंसी आर्टिफिशियल न्यूरल नेटवर्क) का प्रस्ताव है जिसमें घने और ड्रॉपआउट परतों का एक गहरा नेटवर्क शामिल है जैसा कि चित्र 4 में दर्शाया गया है।


प्रस्तावित आर्किटेक्चर पर आने से पहले, हम [19] में TF-IDF का उपयोग करके टेक्स्ट प्रतिनिधित्व पर चर्चा करेंगे। इस आर्किटेक्चर के लिए, प्रत्येक डेटा बिंदु के कॉर्पस में शब्द गणना का उपयोग करने का प्रस्ताव है। इसलिए, हम मूवी ट्रेलर शैलियों को वर्गीकृत करने के लिए कॉर्पस से शब्द गणना का उपयोग सुविधाओं के रूप में करते हैं। हमारे शब्दावली सेट में सुविधाओं के रूप में बड़ी संख्या में शब्दों को शामिल करने के लिए, मॉडल को प्रशिक्षित करते समय हमारे पास उपलब्ध एक विशाल कॉर्पस प्राप्त करने के लिए हमारे EMTD में रिलीज़ की गई तारीखों की एक बड़ी रेंज के ट्रेलरों का उपयोग किया जाता है। हमारे कॉर्पस से यूनिग्राम, बिग्राम और ट्रिग्राम के संयोजन का उपयोग सुविधाओं के रूप में किया जाता है और TF-IDF (टर्म फ़्रीक्वेंसी-इनवर्स डॉक्यूमेंट फ़्रीक्वेंसी) एल्गोरिदम हमारे टेक्स्ट को संख्यात्मक रूप में दर्शाता है। लिए गए कुल n-ग्राम फ़ीचर लगभग 34,684 हैं


तालिका 4: TFAnet के पैरामीटर


TFAnet (टर्म फ़्रीक्वेंसी आर्टिफ़िशियल न्यूरल नेटवर्क) की वास्तुकला तालिका 4 में दर्शाई गई है। इनपुट आकार, जैसा कि ऊपर चर्चा की गई है, (34684,) है। यह इनपुट एक सघन परत को दिया जाता है, जो आकार (64,) का आउटपुट देता है। फिर 0.4 की दर से ओवरफ़िटिंग को कम करने के लिए एक ड्रॉपआउट परत लागू की जाती है। फिर से, एक सघन परत लागू की जाती है, और हमें आकार (32,) का आउटपुट मिलता है, उसके बाद 0.2 की दर से एक ड्रॉपआउट परत मिलती है। अंत में, एक सघन परत लागू की जाती है, जो अंत में पाँच शैलियों की भविष्यवाणी करने के लिए आकार (5,) का आउटपुट देती है, जिसमें सिग्मॉइड एक सक्रियण फ़ंक्शन के रूप में होता है।


चित्र 4: TFAnet आर्किटेक्चर


एमएसडी मॉडल के प्रशिक्षण चरण का एल्गोरिथ्म एल्गोरिथ्म 1 के रूप में लिखा गया है।


परीक्षण चरण की प्रक्रिया को एल्गोरिथम 2 से समझा जा सकता है।






यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।