paint-brush
वीडियो में हिंसा का पता लगाना: प्रस्तावित दृष्टिकोणद्वारा@kinetograph
144 रीडिंग

वीडियो में हिंसा का पता लगाना: प्रस्तावित दृष्टिकोण

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में शोधकर्ताओं ने वीडियो में हिंसा का स्वतः पता लगाने के लिए एक प्रणाली का प्रस्ताव दिया है, जिसमें वर्गीकरण के लिए श्रव्य और दृश्य संकेतों का उपयोग किया जाता है।
featured image - वीडियो में हिंसा का पता लगाना: प्रस्तावित दृष्टिकोण
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


लेखक:

(1) प्रवीण तिरुपत्तूर, सेंट्रल फ्लोरिडा विश्वविद्यालय।

लिंक की तालिका

3. प्रस्तावित दृष्टिकोण

यह अध्याय इस कार्य में अपनाए गए दृष्टिकोण का विस्तृत विवरण प्रदान करता है। प्रस्तावित दृष्टिकोण में दो मुख्य चरण शामिल हैं: प्रशिक्षण और परीक्षण। प्रशिक्षण चरण के दौरान, सिस्टम प्रशिक्षण डेटासेट से निकाले गए दृश्य और श्रव्य विशेषताओं के साथ क्लासिफायर को प्रशिक्षित करके वीडियो में मौजूद हिंसा की श्रेणी का पता लगाना सीखता है। परीक्षण चरण में, किसी दिए गए वीडियो के लिए हिंसा का पता लगाने में सिस्टम की सटीकता की गणना करके सिस्टम का मूल्यांकन किया जाता है। इनमें से प्रत्येक चरण को निम्नलिखित अनुभागों में विस्तार से समझाया गया है। प्रस्तावित दृष्टिकोण के अवलोकन के लिए कृपया चित्र 3.1 देखें। अंत में, सिस्टम के मूल्यांकन के लिए उपयोग किए जाने वाले मीट्रिक का वर्णन करने वाला एक अनुभाग प्रस्तुत किया गया है।

3.1. प्रशिक्षण

इस खंड में, प्रशिक्षण चरण में शामिल चरणों के विवरण पर चर्चा की गई है। प्रस्तावित प्रशिक्षण दृष्टिकोण के तीन मुख्य चरण हैं: फ़ीचर निष्कर्षण, फ़ीचर वर्गीकरण और फ़ीचर फ़्यूज़न। इन तीनों चरणों में से प्रत्येक को निम्नलिखित खंडों में विस्तार से समझाया गया है। इस चरण के पहले दो चरणों में, हिंसा वाले और बिना हिंसा वाले वीडियो खंडों से ऑडियो और विज़ुअल फ़ीचर निकाले जाते हैं और उनका उपयोग दो-श्रेणी के SVM क्लासिफायर को प्रशिक्षित करने के लिए किया जाता है। फिर फ़ीचर फ़्यूज़न चरण में, सिस्टम द्वारा लक्षित प्रत्येक हिंसा प्रकार के लिए फ़ीचर वज़न की गणना की जाती है। ये फ़ीचर वज़न वज़न के संभावित संयोजन पर ग्रिड खोज करके और सबसे अच्छा संयोजन ढूंढकर प्राप्त किए जाते हैं जो सत्यापन सेट पर सिस्टम के प्रदर्शन को अनुकूलित करता है। यहाँ अनुकूलन मानदंड सिस्टम के EER (समान त्रुटि दर) को न्यूनतम करना है। इन वज़न को खोजने के लिए, प्रशिक्षण सेट से अलग एक डेटासेट का उपयोग किया जाता है, जिसमें सभी लक्षित श्रेणियों के हिंसक वीडियो होते हैं। लक्षित श्रेणियों के विवरण के लिए कृपया अध्याय 1 देखें।


चित्र 3.1: सिस्टम का अवलोकन दिखाने वाला चित्र। चार अलग-अलग SVM क्लासिफायर प्रशिक्षित किए गए हैं, जिनमें से प्रत्येक ऑडियो, रक्त, गति और सेंटीबैंक सुविधाओं के लिए है। वीडियो फ़्रेम में रक्त का पता लगाने के लिए रक्त मॉडल विकसित करने के लिए वेब से छवियों का उपयोग किया जाता है। सभी सुविधाओं के लिए क्लासिफायर को प्रशिक्षित करने के लिए, VSD2104 डेटासेट से डेटा का उपयोग किया जाता है। इनमें से प्रत्येक क्लासिफायर व्यक्तिगत रूप से हिंसा वाले वीडियो सेगमेंट की संभावना देता है। इन व्यक्तिगत संभावनाओं को फिर लेट फ़्यूज़न तकनीक का उपयोग करके जोड़ा जाता है और अंतिम आउटपुट संभावना, जो व्यक्तिगत संभावनाओं का भारित योग है, सिस्टम द्वारा आउटपुट के रूप में प्रस्तुत की जाती है। सिस्टम को इनपुट के रूप में प्रदान किया गया वीडियो एक-सेकंड सेगमेंट में विभाजित होता है और हिंसा वाले प्रत्येक सेगमेंट की संभावना आउटपुट के रूप में प्राप्त होती है।

3.1.1. फ़ीचर निष्कर्षण

कई शोधकर्ताओं ने अलग-अलग ऑडियो और विज़ुअल फ़ीचर का उपयोग करके हिंसा का पता लगाने की समस्या को हल करने की कोशिश की है। हिंसा का पता लगाने से संबंधित शोध पर विस्तृत जानकारी अध्याय 2 में प्रस्तुत की गई है। पिछले कार्यों में, हिंसा का पता लगाने के लिए इस्तेमाल की जाने वाली सबसे आम विज़ुअल फ़ीचर गति और रक्त हैं और सबसे आम ऑडियो फ़ीचर MFCC है। इन तीन सामान्य निम्न-स्तरीय फ़ीचर के साथ, इस प्रस्तावित दृष्टिकोण में सेंटीबैंक (बोर्थ एट अल। [4]) भी शामिल है, जो छवियों में भावनाओं का प्रतिनिधित्व करने वाला एक विज़ुअल फ़ीचर है। प्रत्येक फ़ीचर का विवरण और हिंसा का पता लगाने में इसका महत्व और उपयोग की जाने वाली निष्कर्षण विधियाँ निम्नलिखित अनुभागों में वर्णित हैं।

3.1.1.1. एमएफसीसी-विशेषताएं

ऑडियो फीचर गोलीबारी, विस्फोट आदि जैसी घटनाओं का पता लगाने में बहुत महत्वपूर्ण भूमिका निभाते हैं, जो हिंसक दृश्यों में बहुत आम हैं। कई शोधकर्ताओं ने हिंसा का पता लगाने के लिए ऑडियो फीचर का इस्तेमाल किया है और अच्छे नतीजे दिए हैं। हालाँकि पहले के कुछ कामों में ऑडियो सिग्नल में ऊर्जा एन्ट्रॉपी [नाम एट अल। [41]] को देखा गया था, लेकिन उनमें से अधिकांश ने वीडियो में ऑडियो सामग्री का वर्णन करने के लिए MFCC फीचर का इस्तेमाल किया। ये MFCC फीचर आमतौर पर आवाज और ऑडियो पहचान में इस्तेमाल किए जाते हैं।


इस कार्य में, VSD2014 डेटासेट में प्रदान की गई MFCC सुविधाओं का उपयोग सिस्टम विकसित करते समय SVM क्लासिफायर को प्रशिक्षित करने के लिए किया जाता है। मूल्यांकन के दौरान, इनपुट वीडियो की ऑडियो स्ट्रीम से MFCC सुविधाएँ निकाली जाती हैं, जिसमें विंडो का आकार ऑडियो स्ट्रीम में प्रति फ़्रेम ऑडियो सैंपल की संख्या पर सेट किया जाता है। इसकी गणना वीडियो के fps (फ़्रेम प्रति सेकंड) मान के साथ ऑडियो सैंपलिंग दर को विभाजित करके की जाती है। उदाहरण के लिए, यदि ऑडियो सैंपलिंग दर 44,100 हर्ट्ज है और वीडियो 25 fps के साथ एन्कोड किया गया है, तो प्रत्येक विंडो में 1,764 ऑडियो सैंपल होंगे। विंडो ओवरलैप क्षेत्र शून्य पर सेट किया गया है और प्रत्येक विंडो के लिए 22 MFCC की गणना की गई है। इस सेटअप के साथ, प्रत्येक वीडियो फ़्रेम के लिए 22-आयामी MFCC फ़ीचर वेक्टर प्राप्त किया जाता है।

3.1.1.2. रक्त-विशेषताएँ

अत्यधिक हिंसा वाले दृश्यों में रक्त सबसे आम दिखाई देने वाला तत्व है। उदाहरण के लिए, पिटाई, छुरा घोंपना, गोलीबारी और विस्फोट वाले दृश्य। हिंसा का पता लगाने पर कई पहले के कार्यों में, रक्त का प्रतिनिधित्व करने वाले पिक्सेल का पता लगाने का उपयोग किया जाता है क्योंकि यह हिंसा का एक महत्वपूर्ण संकेतक है। फ्रेम में रक्त का पता लगाने के लिए, पहले के अधिकांश कार्यों में एक पूर्व-निर्धारित रंग तालिका का उपयोग किया जाता है, उदाहरण के लिए, नाम एट अल। [41] और लिन और वांग [38]। रक्त का पता लगाने के अन्य तरीके, जैसे कि कोहोनेन के सेल्फ-ऑर्गनाइजिंग मैप (एसओएम) (क्लेरिन एट अल। [12]) का उपयोग, कुछ पहले के कार्यों में भी उपयोग किया जाता है।


इस कार्य में, रक्त को दर्शाने वाले पिक्सल का पता लगाने के लिए एक रंग मॉडल का उपयोग किया जाता है। इसे पिक्सेल के लाल, हरे और नीले मानों के लिए एक-एक आयाम वाले त्रि-आयामी हिस्टोग्राम का उपयोग करके दर्शाया जाता है। प्रत्येक आयाम में, 32 डिब्बे होते हैं जिनमें से प्रत्येक डिब्बे की चौड़ाई 8 (32 × 8 = 256) होती है। यह रक्त मॉडल दो चरणों में तैयार किया जाता है। पहले चरण में, रक्त वाले पिक्सल के RGB (लाल, हरा, नीला) मानों का उपयोग करके रक्त मॉडल को बूटस्ट्रैप किया जाता है। 3 आयामी बिन हिस्टोग्राम रक्त वाले इन पिक्सल के RGB मानों से भरा जाता है। जिस डिब्बे में रक्त पिक्सेल होता है, उसका मान मॉडल में हर बार एक नया रक्त पिक्सेल जोड़ने पर 1 से बढ़ जाता है। हिस्टोग्राम को भरने के लिए पर्याप्त संख्या में खूनी पिक्सेल का उपयोग करने के बाद, डिब्बे में मान सभी मानों के योग से सामान्यीकृत हो जाते हैं। अब प्रत्येक डिब्बे में मान RGB मान दिए जाने पर पिक्सेल में रक्त दिखने की संभावना को दर्शाते हैं। रक्त मॉडल को भरने के लिए, रक्त युक्त पिक्सेल को Google से डाउनलोड की गई रक्त युक्त विभिन्न छवियों से क्रॉप किया जाता है। केवल रक्त पिक्सेल वाले क्षेत्रों की क्रॉपिंग मैन्युअल रूप से की जाती है। क्रॉप किए गए क्षेत्रों के नमूनों के लिए कृपया चित्र 3.2 देखें, जिनमें से प्रत्येक का आकार 20 पिक्सेल × 20 पिक्सेल है।


चित्र 3.2: रक्त युक्त 20 × 20 आकार के नमूना कटे हुए क्षेत्रों को दर्शाता चित्र।


एक बार मॉडल बूटस्ट्रैप हो जाने के बाद, इसका उपयोग Google से डाउनलोड की गई छवियों में रक्त का पता लगाने के लिए किया जाता है। बूटस्ट्रैप किए गए मॉडल को आगे बढ़ाने के लिए केवल उन पिक्सेल का उपयोग किया जाता है जिनमें रक्त का प्रतिनिधित्व करने की उच्च संभावना होती है। छवियों को डाउनलोड करना और रक्त मॉडल का विस्तार करना स्वचालित रूप से किया जाता है। Google से ऐसी छवियाँ डाउनलोड करने के लिए जिनमें रक्त होता है, “खूनी छवियाँ”, “खूनी दृश्य”, “खून बहना”, “वास्तविक रक्त छींटे”, “रक्त टपकना” जैसे खोज शब्दों का उपयोग किया जाता है। डाउनलोड की गई छवियों के कुछ नमूने चित्र 3.3 में देखे जा सकते हैं। उच्च रक्त संभावना वाले पिक्सेल मान रक्त मॉडल में तब तक जोड़े जाते हैं जब तक कि इसमें कम से कम एक मिलियन पिक्सेल मान न हो जाएँ।


रक्त का सटीक पता लगाने के लिए अकेले यह रक्त मॉडल पर्याप्त नहीं है। इस रक्त मॉडल के साथ-साथ एक गैर-रक्त मॉडल की भी आवश्यकता है। इसे बनाने के लिए, पहले के तरीके की तरह ही, Google से ऐसी छवियाँ डाउनलोड की जाती हैं जिनमें रक्त नहीं होता है और इन छवियों से RGB पिक्सेल मानों का उपयोग गैर-रक्त मॉडल बनाने के लिए किया जाता है। इस गैर-रक्त मॉडल को बनाने के लिए उपयोग की गई कुछ नमूना छवियाँ चित्र 3.3 में दिखाई गई हैं। अब इन रक्त और गैर-रक्त मॉडलों का उपयोग करके, रक्त का प्रतिनिधित्व करने वाले पिक्सेल की संभावना की गणना इस प्रकार की जाती है



चित्र 3.3: रक्त और गैर-रक्त मॉडल बनाने के लिए गूगल से डाउनलोड किए गए नमूना चित्र दिखाता चित्र।


इस सूत्र का प्रयोग करते हुए, किसी दी गई छवि के लिए, रक्त का प्रतिनिधित्व करने वाले प्रत्येक पिक्सेल की प्रायिकता की गणना की जाती है और रक्त संभाव्यता मानचित्र (BPM) तैयार किया जाता है। यह मानचित्र इनपुट छवि के समान आकार का होता है और इसमें प्रत्येक पिक्सेल के लिए रक्त की संभाव्यता मान होते हैं। अंतिम बाइनरीकृत BPM तैयार करने के लिए इस BPM को थ्रेशोल्ड मान का उपयोग करके बाइनरीकृत किया जाता है। BPM को बाइनरीकृत करने के लिए उपयोग की जाने वाली थ्रेशोल्ड का अनुमान लगाया जाता है (जोन्स और रेग [35])। इस बाइनरीकृत BPM से, लंबाई 14 का एक 1-आयामी फीचर वेक्टर तैयार किया जाता है जिसमें रक्त अनुपात, रक्त संभाव्यता अनुपात, सबसे बड़े जुड़े घटक का आकार, माध्य, विचरण आदि जैसे मान होते हैं। यह फीचर वेक्टर वीडियो में प्रत्येक फ्रेम के लिए निकाला जाता है और SVM क्लासिफायर को प्रशिक्षित करने के लिए उपयोग किया जाता है।


चित्र 3.4: रक्त का पता लगाने में उत्पन्न रक्त मॉडल के प्रदर्शन को दर्शाता चित्र। पहले कॉलम में इनपुट छवियाँ हैं, दूसरे कॉलम में रक्त संभाव्यता मानचित्र हैं और अंतिम कॉलम में बाइनरीकृत रक्त संभाव्यता मानचित्र हैं।

3.1.1.3. मोशन-फीचर्स

हिंसा का पता लगाने के लिए गति एक और व्यापक रूप से इस्तेमाल की जाने वाली दृश्य विशेषता है। डेनिज़ एट अल। [21], निएवास एट अल। [42] और हस्नर एट अल। [28] का काम कुछ ऐसे उदाहरण हैं जिनमें हिंसा का पता लगाने के लिए गति को मुख्य विशेषता के रूप में उपयोग किया जाता है। यहाँ, गति एक वीडियो में दो लगातार फ़्रेमों के बीच स्थानिक-लौकिक भिन्नता की मात्रा को संदर्भित करती है। गति को हिंसा का एक अच्छा संकेतक माना जाता है क्योंकि हिंसा वाले दृश्यों में पर्याप्त मात्रा में हिंसा की उम्मीद की जाती है। उदाहरण के लिए, जिन दृश्यों में व्यक्ति-पर-व्यक्ति की लड़ाई होती है, उनमें पैर और हाथ जैसे मानव शरीर के अंगों की तेज़ गति होती है और जिन दृश्यों में विस्फोट होते हैं, उनमें विस्फोट के कारण अलग-अलग उड़ रहे अंगों से बहुत अधिक हलचल होती है।


गतिविधि का पता लगाने के लिए गति की जानकारी का उपयोग करने का विचार मनोविज्ञान से आया है। मानवीय धारणा पर शोध से पता चला है कि गति का गतिज पैटर्न क्रियाओं की धारणा के लिए पर्याप्त है (ब्लेक और शिफ़रार [2])। कंप्यूटर विज़न में शोध अध्ययनों (सेरबेक और बार्टनेक [50], क्लार्क एट अल। [13], और हिडाका [29]) ने यह भी दिखाया है कि अपेक्षाकृत सरल गतिशील विशेषताएँ जैसे वेग और त्वरण मनुष्य द्वारा अनुभव की जाने वाली भावनाओं से संबंधित हैं।


इस कार्य में, वीडियो खंड में गति की मात्रा की गणना करने के लिए, दो अलग-अलग तरीकों का मूल्यांकन किया गया है। पहला तरीका वीडियो कोडेक के अंदर एम्बेडेड गति जानकारी का उपयोग करना है और दूसरा तरीका गति का पता लगाने के लिए ऑप्टिकल प्रवाह का उपयोग करना है। ये तरीके आगे प्रस्तुत किए गए हैं।


3.1.1.3.1.कोडेक का उपयोग करना

इस विधि में, वीडियो कोडेक से गति की जानकारी निकाली जाती है। प्रत्येक फ्रेम में प्रत्येक पिक्सेल पर गति की मात्रा जिसे मोशन वेक्टर कहा जाता है, कोडेक से प्राप्त की जाती है। यह मोशन वेक्टर एक द्वि-आयामी वेक्टर है और इसका आकार वीडियो अनुक्रम के एक फ्रेम के समान है। इस मोशन वेक्टर से, एक मोशन फीचर जो फ्रेम में गति की मात्रा को दर्शाता है, उत्पन्न होता है। इस मोशन फीचर को उत्पन्न करने के लिए, सबसे पहले मोशन वेक्टर को x और y-अक्ष के साथ क्रमशः तीन और चार क्षेत्रों में विभाजित करके समान आकार के बारह उप-क्षेत्रों में विभाजित किया जाता है। इन उप-क्षेत्रों में से प्रत्येक से प्रत्येक पिक्सेल पर x और y-अक्ष के साथ गति की मात्रा को एकत्रित किया जाता है और इन योगों का उपयोग प्रत्येक फ्रेम के लिए एक द्वि-आयामी गति हिस्टोग्राम उत्पन्न करने के लिए किया जाता है। यह हिस्टोग्राम एक फ्रेम के लिए मोशन वेक्टर को दर्शाता है। नमूना वीडियो से एक फ्रेम के लिए एकत्रित गति वैक्टर के विज़ुअलाइज़ेशन को देखने के लिए चित्र 3.5 में बाईं ओर की छवि देखें। इस विज़ुअलाइज़ेशन में, मोशन वैक्टर को 16 × 16 पिक्सेल के आकार के उप-क्षेत्रों के लिए एकत्रित किया जाता है। इन क्षेत्रों में गति के परिमाण और दिशा को हरे रंग की धराशायी रेखाओं की लंबाई और अभिविन्यास का उपयोग करके दर्शाया गया है, जो छवि पर अंकित हैं।

3.1.1.3.2. ऑप्टिकल फ्लो का उपयोग करना

गति का पता लगाने के लिए अगला तरीका ऑप्टिकल फ्लो (विकिपीडिया [57]) का उपयोग करता है। यहां, एक फ्रेम में प्रत्येक पिक्सेल पर गति को घने ऑप्टिकल फ्लो का उपयोग करके गणना की जाती है। इसके लिए, ओपनसीवी (ब्रैडस्की [5]) द्वारा प्रदान किए गए गनर फ़ार्नेबैक के एल्गोरिथ्म (फ़ार्नबैक [24]) के कार्यान्वयन का उपयोग किया जाता है। कार्यान्वयन ओपनसीवी में एक फ़ंक्शन के रूप में प्रदान किया गया है और फ़ंक्शन और मापदंडों के बारे में अधिक जानकारी के लिए, कृपया ओपनसीवी (ऑप्टिकलफ़्लो [43]) द्वारा प्रदान किए गए दस्तावेज़न को देखें। मान 0.5, 3, 15, 3, 5, 1.2 और 0 क्रमशः फ़ंक्शन मापदंडों पाइर स्केल, लेवल, विन-साइज़, पुनरावृत्तियों, पॉली एन, पॉली सिग्मा और फ़्लैग्स को पास किए जाते हैं। एक बार जब प्रत्येक पिक्सेल पर गति वैक्टर की गणना ऑप्टिकल फ्लो का उपयोग करके की जाती है, फ़्रेम से निकाले गए समेकित मोशन वेक्टर की छाप पाने के लिए चित्र 3.5 में दाईं ओर की छवि देखें। कोडेक सूचना और ऑप्टिकल प्रवाह का उपयोग करके निकाले गए फ़ीचर के बीच बेहतर तुलना प्रदान करने के लिए पिछले दृष्टिकोण की तरह मोशन वेक्टर को 16×16 पिक्सेल आकार के उप-क्षेत्रों के लिए समेकित किया जाता है।


वीडियो से गति की जानकारी निकालने के लिए इन दोनों तरीकों के मूल्यांकन के बाद, निम्नलिखित अवलोकन किए गए हैं। सबसे पहले, कोडेक्स से गति निकालना ऑप्टिकल फ्लो का उपयोग करने की तुलना में बहुत तेज़ है क्योंकि गति वेक्टर पहले से गणना किए जाते हैं और वीडियो कोडेक्स में संग्रहीत होते हैं। दूसरा, ऑप्टिकल फ्लो का उपयोग करके गति निकालना बहुत कुशल नहीं है जब फ्रेम में धुंधले क्षेत्र होते हैं। यह धुंधलापन आमतौर पर किसी दृश्य में अचानक गति के कारण होता है, जो हिंसा वाले दृश्यों में बहुत आम है। इसलिए, हिंसा का पता लगाने के लिए गति की जानकारी निकालने के लिए ऑप्टिकल फ्लो का उपयोग एक आशाजनक दृष्टिकोण नहीं है। इसलिए, इस काम में वीडियो कोडेक्स में संग्रहीत जानकारी का उपयोग गति सुविधाओं को निकालने के लिए किया जाता है। गति सुविधाओं को वीडियो में प्रत्येक फ्रेम से निकाला जाता है और एक SVM क्लासिफायर को प्रशिक्षित करने के लिए उपयोग किया जाता है।


चित्र 3.5: कोडेक बनाम ऑप्टिकल फ्लो का उपयोग करके निकाले गए फ़्रेमों से गति की जानकारी।

3.1.1.4. सेंटीबैंक-विशेषताएं

उपर्युक्त निम्न-स्तरीय विशेषताओं के अलावा, बोर्थ एट अल [4] द्वारा प्रस्तुत सेंटीबैंक विशेषता भी लागू की गई है। सेंटीबैंक बड़े पैमाने पर विज़ुअल सेंटिमेंट ऑन्टोलॉजी (वीएसओ) [1] पर आधारित दृश्य सामग्री का एक मध्य-स्तरीय प्रतिनिधित्व है। सेंटीबैंक में 1,200 शब्दार्थ अवधारणाएँ और संबंधित स्वचालित वर्गीकरणकर्ता शामिल हैं, जिनमें से प्रत्येक को एक विशेषण संज्ञा जोड़ी (एएनपी) के रूप में परिभाषित किया गया है। ऐसे एएनपी संज्ञाओं से जुड़ने के लिए मजबूत भावनात्मक विशेषणों को जोड़ते हैं, जो वस्तुओं या दृश्यों (जैसे "सुंदर आकाश", "घृणित बग" या "प्यारा बच्चा") के अनुरूप होते हैं। इसके अलावा, प्रत्येक एएनपी (1) एक मजबूत भावना को दर्शाता है, (2) एक भावना से जुड़ा होता है, (3) फ़्लिकर या यूट्यूब जैसे प्लेटफार्मों पर अक्सर उपयोग किया जाता है और (4) में उचित पहचान सटीकता होती है। क्योंकि सेंटिबैंक ने भावना के विश्लेषण पर निम्न-स्तरीय दृश्य विशेषताओं की तुलना में अपने बेहतर प्रदर्शन का प्रदर्शन किया है बोर्थ एट अल। [4], इसका उपयोग अब पहली बार वीडियो फ़्रेम से हिंसा जैसी जटिल भावना का पता लगाने के लिए किया जाता है।


सेंटीबैंक में 1,200 SVM होते हैं, जिनमें से प्रत्येक को किसी छवि से 1,200 अर्थ संबंधी अवधारणाओं में से किसी एक का पता लगाने के लिए प्रशिक्षित किया जाता है। प्रत्येक SVM एक बाइनरी क्लासिफायर है जो छवि में कोई विशिष्ट भावना है या नहीं, इस पर निर्भर करते हुए बाइनरी आउटपुट 0/1 देता है। किसी वीडियो में दिए गए फ़्रेम के लिए, सभी 1,200 SVM के आउटपुट वाले वेक्टर को सेंटीबैंक फ़ीचर माना जाता है। इस फ़ीचर को निकालने के लिए, एक पायथन-आधारित कार्यान्वयन का उपयोग किया जाता है। SVM क्लासिफायर को प्रशिक्षित करने के लिए, प्रशिक्षण वीडियो में प्रत्येक फ़्रेम से निकाले गए सेंटीबैंक फ़ीचर का उपयोग किया जाता है। सेंटीबैंक फ़ीचर निष्कर्षण में कुछ सेकंड लगते हैं क्योंकि इसमें 1,200 पूर्व-प्रशिक्षित SVM से आउटपुट एकत्र करना शामिल है। फ़ीचर निष्कर्षण के लिए लगने वाले समय को कम करने के लिए, मल्टीप्रोसेसिंग का उपयोग करके समानांतर रूप से प्रत्येक फ़्रेम के लिए सेंटीबैंक फ़ीचर निकाला जाता है।

3.1.2. विशेषता वर्गीकरण

फ़ीचर एक्सट्रैक्शन के बाद पाइपलाइन में अगला चरण फ़ीचर वर्गीकरण है और यह अनुभाग इस चरण का विवरण प्रदान करता है। क्लासिफायर का चयन और उपयोग की जाने वाली प्रशिक्षण तकनीकें अच्छे वर्गीकरण परिणाम प्राप्त करने में बहुत महत्वपूर्ण भूमिका निभाती हैं। इस कार्य में, वर्गीकरण के लिए SVM का उपयोग किया जाता है। इस विकल्प के पीछे मुख्य कारण यह तथ्य है कि हिंसा का पता लगाने पर पहले के कार्यों में ऑडियो और विज़ुअल सुविधाओं को वर्गीकृत करने के लिए SVM का उपयोग किया गया है और अच्छे परिणाम मिले हैं। अध्याय 2 में उल्लिखित लगभग सभी कार्यों में वर्गीकरण के लिए SVM का उपयोग किया जाता है, भले ही वे उपयोग किए जाने वाले कर्नेल फ़ंक्शन में भिन्न हों।


प्रशिक्षण सेट में उपलब्ध सभी वीडियो से, अनुभाग 3.1.1 में वर्णित प्रक्रिया का उपयोग करके ऑडियो और विज़ुअल सुविधाएँ निकाली जाती हैं। फिर इन सुविधाओं को दो सेटों में विभाजित किया जाता है, एक क्लासिफायर को प्रशिक्षित करने के लिए और दूसरा प्रशिक्षित क्लासिफायर की वर्गीकरण सटीकता का परीक्षण करने के लिए। चूंकि यहां उपयोग किए गए क्लासिफायर SVM हैं, इसलिए यह चुनना होगा कि किस कर्नेल का उपयोग करना है और कौन से कर्नेल पैरामीटर सेट करने हैं। सबसे अच्छा कर्नेल प्रकार और कर्नेल पैरामीटर खोजने के लिए, एक ग्रिड खोज तकनीक का उपयोग किया जाता है। इस ग्रिड खोज में, रैखिक, RBF (रेडियल बेसिस फंक्शन), और ची-स्क्वायर कर्नेल के साथ-साथ उनके मापदंडों के लिए मान की एक सीमा का परीक्षण किया जाता है, ताकि सबसे अच्छा संयोजन मिल सके जो सबसे अच्छा वर्गीकरण परिणाम देता है। इस दृष्टिकोण का उपयोग करके, चार अलग-अलग क्लासिफायर प्रशिक्षित किए जाते हैं

3.1.3. फ़ीचर फ़्यूज़न

फीचर फ़्यूज़न चरण में, प्रत्येक फ़ीचर क्लासिफ़ायर से आउटपुट संभावनाओं को वीडियो सेगमेंट में हिंसा के अंतिम स्कोर को प्राप्त करने के लिए फ़्यूज़ किया जाता है, साथ ही इसमें मौजूद हिंसा की श्रेणी भी। यह फ़्यूज़न प्रत्येक फ़ीचर क्लासिफ़ायर से संभावनाओं के भारित योग की गणना करके किया जाता है। किसी वीडियो से संबंधित हिंसा की श्रेणी का पता लगाने के लिए, प्रक्रिया इस प्रकार है। सबसे पहले, लक्षित हिंसा वर्गों में से प्रत्येक से संबंधित वीडियो से ऑडियो और विज़ुअल फ़ीचर निकाले जाते हैं। फिर इन फ़ीचर को प्रशिक्षित बाइनरी SVM क्लासिफ़ायर में भेजा जाता है ताकि हिंसा वाले प्रत्येक वीडियो की संभावनाएँ प्राप्त की जा सकें। अब, प्रत्येक फ़ीचर क्लासिफ़ायर से इन आउटपुट संभावनाओं को प्रत्येक फ़ीचर क्लासिफ़ायर को हिंसा के प्रत्येक वर्ग के लिए एक भार देकर और भारित योग की गणना करके फ़्यूज़ किया जाता है। प्रत्येक फ़ीचर क्लासिफ़ायर को दिए गए भार हिंसा के एक विशिष्ट वर्ग का पता लगाने में एक फ़ीचर के महत्व को दर्शाते हैं। सिस्टम द्वारा हिंसा के सही वर्ग का पता लगाने के लिए इन फ़ीचर भारों को प्रत्येक हिंसा वर्ग के लिए उचित रूप से समायोजित किया जाना चाहिए।


भार ज्ञात करने के दो तरीके हैं। पहला तरीका प्रत्येक हिंसा प्रकार के लिए एक विशेषता वर्गीकरणकर्ता के भार को मैन्युअल रूप से समायोजित करना है। इस दृष्टिकोण को हिंसा के एक वर्ग का पता लगाने में एक विशेषता के महत्व के बारे में बहुत अधिक अंतर्ज्ञान की आवश्यकता होती है और यह बहुत त्रुटिपूर्ण है। दूसरा तरीका ग्रिड-सर्च तंत्र का उपयोग करके भार ज्ञात करना है, जहाँ भार का एक सेट संभावित भार की सीमा से नमूना लिया जाता है। इस मामले में, प्रत्येक विशेषता वर्गीकरणकर्ता के लिए संभावित भार की सीमा [0,1] है, इस शर्त के अधीन कि सभी विशेषता वर्गीकरणकर्ताओं के भार का योग 1 के बराबर है। इस कार्य में, बाद वाले दृष्टिकोण का उपयोग किया जाता है और सभी भार संयोजनों को गिना जाता है जो 1 के बराबर होते हैं। इनमें से प्रत्येक भार संयोजन का उपयोग हिंसा के एक वर्ग के लिए वर्गीकरणकर्ता संभावनाओं के भारित योग की गणना करने के लिए किया जाता है और भार संयोजन से भार जो सबसे अधिक योग उत्पन्न करता है, हिंसा के संबंधित वर्ग के लिए प्रत्येक वर्गीकरणकर्ता को सौंपा जाता है। इन भारों की गणना करने के लिए, प्रशिक्षण सेट से अलग एक डेटासेट का उपयोग किया जाता है, ताकि प्रशिक्षण सेट में भार के ओवर-फिटिंग से बचा जा सके। वजन की गणना के लिए इस्तेमाल किए गए डेटासेट में इस काम में लक्षित सभी प्रकार की हिंसा के वीडियो हैं। यह ध्यान रखना महत्वपूर्ण है कि, भले ही प्रशिक्षित SVM क्लासिफायर में से प्रत्येक बाइनरी प्रकृति का हो, लेकिन इन क्लासिफायर से आउटपुट मानों को भारित योग का उपयोग करके जोड़ा जा सकता है ताकि हिंसा के विशिष्ट वर्ग का पता लगाया जा सके जिससे कोई वीडियो संबंधित है।

3.2. परीक्षण

इस चरण में, किसी दिए गए इनपुट वीडियो के लिए, हिंसा वाले प्रत्येक खंड का पता लगाया जाता है, साथ ही उसमें मौजूद हिंसा की श्रेणी का भी पता लगाया जाता है। किसी दिए गए वीडियो के लिए, हिंसा वाले खंडों और उसमें हिंसा की श्रेणी का पता लगाने के लिए निम्नलिखित दृष्टिकोण का उपयोग किया जाता है। सबसे पहले, प्रत्येक फ्रेम से सुविधाएँ निकालने के बजाय, वीडियो के पहले फ्रेम से शुरू करके हर 1 सेकंड में एक फ्रेम से दृश्य और ऑडियो सुविधाएँ निकाली जाती हैं। ये फ्रेम जिनसे सुविधाएँ निकाली जाती हैं, वीडियो के 1 सेकंड के खंड का प्रतिनिधित्व करते हैं। इन 1 सेकंड के वीडियो खंडों की सुविधाएँ फिर प्रशिक्षित बाइनरी SVM क्लासिफायर को भेजी जाती हैं ताकि प्रत्येक वीडियो खंड के हिंसक या अहिंसक होने के स्कोर प्राप्त किए जा सकें। फिर, फ़्यूज़न चरण के दौरान पाए गए संगत भारों का उपयोग करके प्रत्येक हिंसा श्रेणी के लिए व्यक्तिगत क्लासिफायर से आउटपुट मानों के भारित योग की गणना की जाती है। इसलिए, 'X' सेकंड की लंबाई वाले किसी दिए गए वीडियो के लिए, सिस्टम 'X' लंबाई का एक वेक्टर आउटपुट करता है। इस वेक्टर में प्रत्येक तत्व एक शब्दकोश है जो प्रत्येक हिंसा वर्ग को स्कोर मान के साथ मैप करता है। इस दृष्टिकोण का उपयोग करने के दो कारण हैं, पहला, वीडियो में हिंसा होने के समय अंतराल का पता लगाना और हिंसा का पता लगाने में सिस्टम की गति को बढ़ाना। फीचर एक्सट्रैक्शन, विशेष रूप से सेंटीबैंक फीचर को एक्सट्रैक्शन करना, समय लेने वाला है और इसे हर फ्रेम के लिए करने से सिस्टम धीमा हो जाएगा। लेकिन इस दृष्टिकोण का सिस्टम की सटीकता पर नकारात्मक प्रभाव पड़ता है क्योंकि यह हर फ्रेम के लिए नहीं बल्कि हर सेकंड के लिए हिंसा का पता लगाता है।

3.3. मूल्यांकन मेट्रिक्स

ऐसे कई मेट्रिक्स हैं जिनका उपयोग वर्गीकरण प्रणाली के प्रदर्शन को मापने के लिए किया जा सकता है। बाइनरी वर्गीकरण के लिए उपयोग किए जाने वाले कुछ उपाय सटीकता, परिशुद्धता, रिकॉल (संवेदनशीलता), विशिष्टता, एफ-स्कोर, समान त्रुटि दर (ईईआर), और वक्र के नीचे का क्षेत्र (एयूसी) हैं। औसत परिशुद्धता (एपी) और औसत औसत परिशुद्धता (एमएपी) जैसे कुछ अन्य उपाय उन प्रणालियों के लिए उपयोग किए जाते हैं जो किसी क्वेरी के परिणामस्वरूप रैंक की गई सूची लौटाते हैं। इनमें से अधिकांश उपाय जो मशीन लर्निंग और डेटा माइनिंग अनुसंधान में तेजी से उपयोग किए जा रहे हैं, उन्हें अन्य विषयों जैसे सूचना पुनर्प्राप्ति (रिज्सबर्गेन [49]) और बायोमेट्रिक्स से उधार लिया गया है। इन उपायों पर विस्तृत चर्चा के लिए, पार्कर [44] और सोकोलोवा और लापाल्मे [53] के कार्यों का संदर्भ लें।


इस कार्य में, ROC वक्रों का उपयोग निम्न के लिए किया जाता है: (i) व्यक्तिगत क्लासिफायर के प्रदर्शन की तुलना करना। (ii) मल्टी-क्लास वर्गीकरण कार्य में हिंसा के विभिन्न वर्गों का पता लगाने में सिस्टम के प्रदर्शन की तुलना करना। (iii) बाइनरी वर्गीकरण कार्य में यूट्यूब और हॉलीवुड-टेस्ट डेटासेट पर सिस्टम के प्रदर्शन की तुलना करना। यहाँ उपयोग किए जाने वाले अन्य मेट्रिक्स हैं, प्रेसिजन, रिकॉल और ईईआर। इन उपायों का उपयोग इसलिए किया जाता है क्योंकि हिंसा का पता लगाने पर पिछले कार्यों में ये सबसे अधिक उपयोग किए जाने वाले उपाय हैं। इस प्रणाली में, EER को कम करने के लिए मापदंडों (फ्यूजन वेट) को समायोजित किया जाता है।

3.4. सारांश

इस अध्याय में, हिंसा का पता लगाने के लिए इस कार्य में अपनाए गए दृष्टिकोण का विस्तृत विवरण प्रस्तुत किया गया है। पहला खंड प्रशिक्षण चरण से संबंधित है और दूसरा खंड परीक्षण चरण से संबंधित है। पहले खंड में, प्रशिक्षण चरण में शामिल विभिन्न चरणों को विस्तार से समझाया गया है। सबसे पहले ऑडियो और विज़ुअल विशेषताओं के निष्कर्षण पर चर्चा की गई है और यह बताया गया है कि किन विशेषताओं का उपयोग किया जाता है और उन्हें कैसे निकाला जाता है। इसके बाद, निकाले गए विशेषताओं को वर्गीकृत करने के लिए उपयोग की जाने वाली वर्गीकरण तकनीकों पर चर्चा की गई है। अंत में, फीचर फ़्यूज़न के लिए फ़ीचर वज़न की गणना करने के लिए उपयोग की जाने वाली प्रक्रिया पर चर्चा की गई है। दूसरे खंड में, हिंसा वाले वीडियो खंडों को निकालने और इन खंडों में हिंसा के वर्ग का पता लगाने के लिए परीक्षण चरण के दौरान उपयोग की जाने वाली प्रक्रिया पर चर्चा की गई है।


संक्षेप में, इस दृष्टिकोण में अपनाए जाने वाले चरण हैं फ़ीचर निष्कर्षण, फ़ीचर वर्गीकरण, फ़ीचर फ़्यूज़न और परीक्षण। पहले तीन चरण प्रशिक्षण चरण का गठन करते हैं और अंतिम चरण परीक्षण चरण है। प्रशिक्षण चरण में, वीडियो से ऑडियो और विज़ुअल फ़ीचर निकाले जाते हैं और उनका उपयोग बाइनरी SVM क्लासिफ़ायर को प्रशिक्षित करने के लिए किया जाता है, प्रत्येक फ़ीचर के लिए एक। फिर, एक अलग डेटासेट का उपयोग फ़ीचर वज़न खोजने के लिए किया जाता है जो सत्यापन डेटासेट पर सिस्टम के EER को कम करता है। अंतिम परीक्षण चरण में, पहले इनपुट परीक्षण वीडियो के 1-सेकंड के वीडियो सेगमेंट में से एक-एक करके विज़ुअल और ऑडियो फ़ीचर निकाले जाते हैं। फिर, इन फ़ीचर को प्रशिक्षित SVM क्लासिफ़ायर को भेजा जाता है ताकि हिंसा का प्रतिनिधित्व करने वाली इन फ़ीचर की संभावनाएँ प्राप्त की जा सकें। फ़ीचर फ़्यूज़न चरण में प्राप्त वज़न का उपयोग करके प्रत्येक हिंसा प्रकार के लिए इन आउटपुट संभावनाओं का भारित योग गणना किया जाता है। हिंसा का वह प्रकार जिसके लिए भारित योग अधिकतम है, उसे संबंधित 1-सेकंड के वीडियो सेगमेंट में लेबल के रूप में असाइन किया जाता है। इन लेबल का उपयोग करके हिंसा वाले सेगमेंट और उनमें निहित हिंसा के वर्ग को सिस्टम द्वारा आउटपुट के रूप में प्रस्तुत किया जाता है। इस प्रणाली की प्रयोगात्मक स्थापना और मूल्यांकन अगले अध्याय में प्रस्तुत किया गया है।



यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


[1] http://visual-sentiment-ontology.appspot.com