लेखक:
(1) प्रवीण तिरुपत्तूर, सेंट्रल फ्लोरिडा विश्वविद्यालय।
इस अध्याय में, वीडियो में हिंसक सामग्री का पता लगाने में सिस्टम के प्रदर्शन का मूल्यांकन करने के लिए किए गए प्रयोगों का विवरण प्रस्तुत किया गया है। पहला खंड इस कार्य के लिए उपयोग किए गए डेटासेट से संबंधित है, अगला खंड प्रयोगात्मक सेटअप का वर्णन करता है और अंत में अंतिम खंड में किए गए प्रयोगों के परिणाम प्रस्तुत किए गए हैं।
इस कार्य में, ऑडियो और विज़ुअल विशेषताओं को निकालने, क्लासिफायर को प्रशिक्षित करने और सिस्टम के प्रदर्शन का परीक्षण करने के लिए एक से अधिक स्रोतों से डेटा का उपयोग किया गया है। यहाँ इस्तेमाल किए गए दो मुख्य डेटासेट हिंसक दृश्य डेटासेट (वीएसडी) और हॉकी फाइट्स डेटासेट हैं। इन दो डेटासेट के अलावा, Google Images[1] जैसी वेबसाइटों से छवियों का भी उपयोग किया जाता है। इनमें से प्रत्येक डेटासेट और इस कार्य में उनके उपयोग को निम्नलिखित अनुभागों में विस्तार से वर्णित किया गया है।
हिंसक दृश्य डेटासेट (वीएसडी) वेब से हॉलीवुड फिल्मों और वीडियो में हिंसक दृश्यों का पता लगाने के लिए एक एनोटेट डेटासेट है। यह सार्वजनिक रूप से उपलब्ध डेटासेट है जिसे विशेष रूप से यूट्यूब [2] जैसी वेबसाइटों से फिल्मों और वीडियो में शारीरिक हिंसा को लक्षित करने वाली सामग्री-आधारित पहचान तकनीकों के विकास के लिए डिज़ाइन किया गया है। वीएसडी डेटासेट को शुरुआत में डेमार्टी एट अल [15] द्वारा मीडियाएवल बेंचमार्क पहल के ढांचे में पेश किया गया था, जो डेटासेट के लिए एक सत्यापन ढांचे के रूप में कार्य करता है और हिंसा का पता लगाने के कार्य के लिए अत्याधुनिक आधार रेखा स्थापित करता है। डेटासेट का नवीनतम संस्करण वीएसडी2014 कई मामलों में अपने पिछले संस्करणों (डेमार्टी एट अल [19], डेमार्टी एट अल [18] और डेमार्टी एट अल [17]) का काफी विस्तार है। दूसरा, डेटासेट में 31 हॉलीवुड फिल्मों का एक बड़ा सेट है। तीसरा, VSD2014 में 86 वेब वीडियो क्लिप और उनका मेटा-डेटा शामिल है, जो हिंसा का पता लगाने के लिए विकसित सिस्टम की सामान्यीकरण क्षमताओं का परीक्षण करने के लिए YouTube से प्राप्त किया गया है। चौथा, इसमें अत्याधुनिक ऑडियो-विजुअल कंटेंट डिस्क्रिप्टर शामिल हैं। डेटासेट (i) हॉलीवुड फिल्मों और (ii) वेब पर साझा किए गए उपयोगकर्ता-जनित वीडियो के संग्रह के लिए हिंसक दृश्यों और हिंसा से संबंधित अवधारणाओं के एनोटेशन प्रदान करता है। एनोटेशन के अलावा, पूर्व-संगणित ऑडियो और विज़ुअल सुविधाएँ और विभिन्न मेटा-डेटा प्रदान किए जाते हैं।
VSD2014 डेटासेट को तीन अलग-अलग उप-समूहों में विभाजित किया गया है, जिन्हें हॉलीवुड: विकास, हॉलीवुड: परीक्षण और YouTube: सामान्यीकरण कहा जाता है। तीन उप-समूहों और बुनियादी आँकड़ों के अवलोकन के लिए कृपया तालिका 4.1 देखें, जिसमें अवधि, हिंसक दृश्यों का अंश (प्रति-फ़्रेम-आधार पर प्रतिशत के रूप में) और हिंसक दृश्य की औसत लंबाई शामिल है। VSD2014 डेटासेट की सामग्री को तीन प्रकारों में वर्गीकृत किया गया है: मूवी/वीडियो, फ़ीचर और एनोटेशन।
डेटासेट में शामिल हॉलीवुड फ़िल्में इस तरह से चुनी गई हैं कि वे अलग-अलग शैलियों की हों और उनमें हिंसा के प्रकारों में विविधता हो। इस डेटासेट को बनाने के लिए अत्यधिक हिंसक से लेकर लगभग कोई हिंसक सामग्री वाली फ़िल्में चुनी जाती हैं। चुनी गई फ़िल्मों में हिंसा के कई प्रकार भी शामिल हैं। उदाहरण के लिए, सेविंग प्राइवेट रयान जैसी युद्ध फ़िल्मों में बहुत से लोगों को शामिल करते हुए विशेष गोलीबारी और युद्ध के दृश्य होते हैं, जिसमें कई विशेष प्रभावों वाली तेज़ और सघन ऑडियो स्ट्रीम होती है। बॉर्न आइडेंटिटी जैसी एक्शन फ़िल्मों में केवल कुछ प्रतिभागियों की लड़ाई के दृश्य होते हैं, संभवतः हाथ से हाथ। आर्मगेडन जैसी आपदा फ़िल्में पूरे शहरों के विनाश को दिखाती हैं और उनमें बड़े विस्फोट होते हैं। इनके साथ, ऐसी सामग्री पर एल्गोरिदम के व्यवहार का अध्ययन करने के लिए कुछ पूरी तरह से अहिंसक फ़िल्में भी डेटासेट में जोड़ी जाती हैं। चूंकि कॉपीराइट मुद्दों के कारण वास्तविक फ़िल्में डेटासेट में उपलब्ध नहीं कराई जा सकती हैं, इसलिए 31 फ़िल्मों के लिए एनोटेशन दिए गए हैं, जिनमें से 24 हॉलीवुड: डेवलपमेंट और 7 हॉलीवुड: टेस्ट सेट में हैं। YouTube: सामान्यीकरण सेट में क्रिएटिव कॉमन्स लाइसेंस के तहत YouTube पर साझा किए गए वीडियो क्लिप शामिल हैं। डेटासेट में MP4 प्रारूप में कुल 86 क्लिप शामिल हैं। वीडियो मेटा-डेटा के साथ-साथ वीडियो पहचानकर्ता, प्रकाशन तिथि, श्रेणी, शीर्षक, लेखक, पहलू अनुपात, अवधि आदि XML फ़ाइलों के रूप में प्रदान किए जाते हैं।
इस डेटासेट में, ऑडियो और विज़ुअल डिस्क्रिप्टर का एक सामान्य सेट प्रदान किया गया है। ऑडियो सुविधाएँ जैसे कि आयाम लिफ़ाफ़ा (AE), मूल-माध्य-वर्ग ऊर्जा (RMS), शून्य-क्रॉसिंग दर (ZCR), बैंड ऊर्जा अनुपात (BER), स्पेक्ट्रल सेंट्रोइड (SC), आवृत्ति बैंडविड्थ (BW), स्पेक्ट्रल फ़्लक्स (SF), और मेल-फ़्रीक्वेंसी सेप्स्ट्रल गुणांक (MFCC) प्रति-वीडियो-फ़्रेम-आधार पर प्रदान किए जाते हैं। चूँकि ऑडियो की सैंपलिंग दर 44,100 Hz है और वीडियो 25 fps के साथ एन्कोड किए गए हैं, इसलिए इन सुविधाओं की गणना करने के लिए 1,764 ऑडियो सैंपल की लंबाई वाली एक विंडो पर विचार किया जाता है और प्रत्येक विंडो के लिए 22 MFCC की गणना की जाती है जबकि अन्य सभी सुविधाएँ 1-आयामी होती हैं। डेटासेट में प्रदान की गई वीडियो सुविधाओं में कलर नेमिंग हिस्टोग्राम (CNH), कलर मोमेंट (CM), लोकल बाइनरी पैटर्न (LBP), और ओरिएंटेड ग्रेडिएंट्स (HOG) के हिस्टोग्राम शामिल हैं। मैटलैब संस्करण 7.3 MAT फ़ाइलों में ऑडियो और विज़ुअल सुविधाएँ प्रदान की गई हैं, जो HDF5 प्रारूप के अनुरूप हैं।
VSD2014 डेटासेट में सभी हिंसक दृश्यों के बाइनरी एनोटेशन शामिल हैं, जहाँ किसी दृश्य की पहचान उसके आरंभ और अंत फ़्रेम से की जाती है। हॉलीवुड फ़िल्मों और YouTube वीडियो के लिए ये एनोटेशन कई मानव मूल्यांकनकर्ताओं द्वारा बनाए जाते हैं और बाद में एक निश्चित स्तर की स्थिरता सुनिश्चित करने के लिए उनकी समीक्षा की जाती है और उन्हें मर्ज किया जाता है। प्रत्येक एनोटेटेड हिंसक खंड में केवल एक ही क्रिया होती है, जब भी यह संभव हो। ऐसे मामलों में जहाँ अलग-अलग क्रियाएँ ओवरलैप हो रही हैं, खंडों को मर्ज किया जाता है। इसे एनोटेशन फ़ाइलों में "एकाधिक क्रिया दृश्य" टैग जोड़कर दर्शाया जाता है। शारीरिक हिंसा वाले खंडों के बाइनरी एनोटेशन के अलावा, एनोटेशन में हॉलीवुड: डेवलपमेंट सेट में 17 फ़िल्मों के लिए उच्च-स्तरीय अवधारणाएँ भी शामिल हैं। विशेष रूप से, 7 दृश्य अवधारणाएँ और 3 ऑडियो अवधारणाएँ एनोटेट की गई हैं, जो हिंसक/अहिंसक एनोटेशन के लिए उपयोग किए जाने वाले समान एनोटेशन प्रोटोकॉल का उपयोग करती हैं। अवधारणाएँ हैं रक्त की उपस्थिति, लड़ाई, आग की उपस्थिति, बंदूकों की उपस्थिति, ठंडे हथियारों की उपस्थिति, कार का पीछा करना और खूनी दृश्य, दृश्य तौर-तरीकों के लिए; गोलियों की उपस्थिति, विस्फोट और चीखें ऑडियो तौर-तरीकों के लिए।
इस डेटासेट का अधिक विस्तृत विवरण शेडल एट अल [51] द्वारा प्रदान किया गया है और प्रत्येक हिंसा वर्ग के विवरण के लिए, कृपया डेमार्टी एट अल [19] देखें।
यह डेटासेट निएवास एट अल [४२] द्वारा प्रस्तुत किया गया है और इसे विशेष रूप से फाइट डिटेक्शन सिस्टम के मूल्यांकन के लिए बनाया गया है। इस डेटासेट में दो भाग होते हैं, पहला भाग ("हॉकी") में ७२० × ५७६ पिक्सल के रिज़ॉल्यूशन पर १,००० क्लिप होते हैं, जिन्हें दो समूहों में विभाजित किया जाता है, ५०० फाइट्स, और ५०० नॉन-फाइट्स, जो नेशनल हॉकी लीग (एनएचएल) के हॉकी खेलों से निकाले गए हैं। प्रत्येक क्लिप ५० फ्रेम तक सीमित है और रिज़ॉल्यूशन को ३२० × २४० तक कम किया गया है। दूसरे भाग ("मूवीज़") में २०० वीडियो क्लिप, १०० फाइट्स, और १०० नॉन-फाइट्स होते हैं, जिसमें फाइट्स को एक्शन मूवीज़ से निकाला जाता है और नॉन-फाइट वीडियो को पब्लिक एक्शन रिकग्निशन डेटासेट से निकाला जाता है। हॉकी डेटासेट के विपरीत, दो डेटासेट में वीडियो से लड़ाई दिखाने वाले कुछ फ़्रेम के लिए चित्र 4.1 देखें। यह डेटासेट डाउनलोड के लिए ऑनलाइन उपलब्ध है[3]।
Google से प्राप्त छवियों का उपयोग रक्त और गैर-रक्त वर्गों के लिए रंग मॉडल (अनुभाग 3.1.1.2) विकसित करने में किया जाता है, जिसका उपयोग वीडियो में प्रत्येक फ़्रेम के लिए रक्त विशेषता विवरण निकालने में किया जाता है। रक्त युक्त छवियों को Google Images 1 से “खूनी छवियां”, “खूनी दृश्य”, “रक्तस्राव”, “वास्तविक रक्त छींटे” आदि जैसे क्वेरी शब्दों का उपयोग करके डाउनलोड किया जाता है। इसी तरह, बिना रक्त वाली छवियों को “प्रकृति”, “वसंत”, “त्वचा”, “कार” आदि जैसे खोज शब्दों का उपयोग करके डाउनलोड किया जाता है।
गूगल से इमेज डाउनलोड करने की सुविधा, किसी सर्च वर्ड के आधार पर, लाइब्रेरी ब्यूटीफुल सूप (रिचर्डसन [48]) का उपयोग करके पायथन में विकसित की गई थी। प्रत्येक क्वेरी के लिए, प्रतिक्रिया में लगभग 100 इमेज शामिल थीं, जिनमें से केवल पहले 50 को डाउनलोड के लिए चुना गया था और स्थानीय फ़ाइल निर्देशिका में सहेजा गया था। रक्त और गैर-रक्त दोनों वर्गों को मिलाकर कुल मिलाकर लगभग 1,000 इमेज डाउनलोड की गईं। डाउनलोड की गई इमेज का औसत आयाम 260 × 193 पिक्सेल है और फ़ाइल का आकार लगभग 10 किलोबाइट है। इस कार्य में उपयोग की गई कुछ नमूना छवियों के लिए चित्र 3.3 देखें।
इस खंड में, प्रायोगिक सेटअप और सिस्टम के प्रदर्शन का मूल्यांकन करने के लिए उपयोग किए जाने वाले तरीकों का विवरण प्रस्तुत किया गया है। अगले पैराग्राफ में, डेटासेट के विभाजन पर चर्चा की गई है और बाद के पैराग्राफ में मूल्यांकन तकनीकों की व्याख्या की गई है।
जैसा कि पहले खंड 4.1 में बताया गया है, इस सिस्टम में कई स्रोतों से डेटा का इस्तेमाल किया जाता है। सबसे महत्वपूर्ण स्रोत VSD2014 डेटासेट है। यह सार्वजनिक रूप से उपलब्ध एकमात्र डेटासेट है जो हिंसा की विभिन्न श्रेणियों के साथ एनोटेट वीडियो डेटा प्रदान करता है और इस सिस्टम को विकसित करने में इस डेटासेट का उपयोग करने का यह मुख्य कारण है। जैसा कि पिछले खंड 4.1.1 में बताया गया है, इस डेटासेट में तीन उपसमूह हैं, हॉलीवुड: विकास, हॉलीवुड: परीक्षण और यूट्यूब: सामान्यीकरण। इस कार्य में तीनों उपसमूहों का इस्तेमाल किया गया है। हॉलीवुड: विकास उपसमूह एकमात्र डेटासेट है जो विभिन्न हिंसा वर्गों के साथ एनोटेट है। 24 हॉलीवुड फिल्मों से युक्त इस उपसमूह को 3 भागों में विभाजित किया गया है। दूसरे भाग में 7 फिल्में (सेविंग प्राइवेट रयान, द बॉर्न आइडेंटिटी, द गॉड फादर, द पियानोवादक, द सिक्स्थ सेंस, द विकर मैन, द विजार्ड ऑफ ओज) शामिल हैं, जिसका उपयोग प्रशिक्षित क्लासिफायर का परीक्षण करने और प्रत्येक हिंसा प्रकार के लिए भार की गणना करने के लिए किया जाता है। अंतिम भाग में 3 फिल्में (आर्मगेडन, बिली इलियट और डेड पोएट्स सोसाइटी) शामिल हैं, जिसका उपयोग मूल्यांकन के लिए किया जाता है। हॉलीवुड: टेस्ट और यूट्यूब: सामान्यीकरण उपसमूह का उपयोग भी मूल्यांकन के लिए किया जाता है, लेकिन एक अलग कार्य के लिए। निम्नलिखित पैराग्राफ उपयोग किए गए मूल्यांकन दृष्टिकोणों का विवरण प्रदान करते हैं।
सिस्टम के प्रदर्शन का मूल्यांकन करने के लिए, दो अलग-अलग वर्गीकरण कार्य परिभाषित किए गए हैं। पहले कार्य में, सिस्टम को वीडियो सेगमेंट में मौजूद हिंसा की विशिष्ट श्रेणी का पता लगाना होता है। दूसरा कार्य अधिक सामान्य है जहाँ सिस्टम को केवल हिंसा की उपस्थिति का पता लगाना होता है। इन दोनों कार्यों के लिए, मूल्यांकन के लिए अलग-अलग डेटासेट का उपयोग किया जाता है। पहला कार्य जो एक बहु-वर्ग वर्गीकरण कार्य है, उसमें 3 हॉलीवुड फिल्मों (आर्मगेडन, बिली इलियट और डेड पोएट्स सोसाइटी) से युक्त सत्यापन सेट का उपयोग किया जाता है। इस उपसमूह में, हिंसा वाले प्रत्येक फ़्रेम अंतराल को मौजूद हिंसा के वर्ग के साथ एनोटेट किया जाता है। इसलिए, इस कार्य के लिए इस डेटासेट का उपयोग किया जाता है। इन 3 फिल्मों का उपयोग न तो प्रशिक्षण, क्लासिफायर के परीक्षण और न ही भार गणना के लिए किया गया था ताकि सिस्टम का मूल्यांकन पूरी तरह से नए डेटा पर किया जा सके। चित्र 3.1 में दर्शाई गई प्रक्रिया का उपयोग वीडियो सेगमेंट के हिंसा के विशिष्ट वर्ग से संबंधित होने की संभावना की गणना के लिए किया जाता है। सिस्टम से आउटपुट संभावनाओं और ग्राउंड ट्रुथ जानकारी का उपयोग ROC (रिसीवर ऑपरेटिंग कैरेक्टरिस्टिक) वक्र बनाने और सिस्टम के प्रदर्शन का आकलन करने के लिए किया जाता है।
दूसरे कार्य में, जो एक बाइनरी वर्गीकरण कार्य है, VSD2104 डेटासेट के हॉलीवुड: टेस्ट और YouTube: सामान्यीकरण उपसमूह का उपयोग किया जाता है। हॉलीवुड: टेस्ट उपसमूह में 8 हॉलीवुड फिल्में और YouTube: सामान्यीकरण उपसमूह में YouTube के 86 वीडियो शामिल हैं। इन दोनों उपसमूहों में हिंसा वाले फ़्रेम अंतराल को एनोटेशन के रूप में प्रदान किया गया है और हिंसा के वर्ग के बारे में कोई जानकारी नहीं दी गई है। इसलिए, इस कार्य के लिए इन उपसमूहों का उपयोग किया जाता है। इस कार्य में, पिछले एक के समान, चित्र 3.1 में चित्रित प्रक्रिया का उपयोग वीडियो सेगमेंट की हिंसा के एक विशिष्ट वर्ग से संबंधित होने की संभावना की गणना के लिए किया जाता है। प्रत्येक वीडियो सेगमेंट के लिए, हिंसा के किसी भी वर्ग के लिए प्राप्त अधिकतम संभावना को इसके हिंसक होने की संभावना माना जाता है। उपरोक्त कार्य के समान, इन संभाव्यता मूल्यों और डेटासेट से जमीनी सच्चाई से ROC वक्र उत्पन्न होते हैं।
इन दोनों कार्यों में, सबसे पहले प्रशिक्षण और परीक्षण डेटासेट से सभी सुविधाएँ निकाली जाती हैं। इसके बाद, सकारात्मक और नकारात्मक नमूनों की समान मात्रा प्राप्त करने के लिए प्रशिक्षण और परीक्षण डेटासेट को यादृच्छिक रूप से नमूना लिया जाता है। प्रशिक्षण के लिए 2,000 फ़ीचर नमूने चुने जाते हैं और परीक्षण के लिए 3,000 चुने जाते हैं। जैसा कि ऊपर उल्लेख किया गया है, प्रशिक्षण डेटा पर परीक्षण से बचने के लिए असंयुक्त प्रशिक्षण और परीक्षण सेट का उपयोग किया जाता है। दोनों कार्यों में, रैखिक, रेडियल बेसिस फ़ंक्शन और ची-स्क्वायर कर्नेल वाले SVM क्लासिफायर को प्रत्येक फ़ीचर प्रकार के लिए प्रशिक्षित किया जाता है और परीक्षण सेट पर अच्छे वर्गीकरण स्कोर वाले क्लासिफायर को फ़्यूज़न चरण के लिए चुना जाता है। फ़्यूज़न चरण में, प्रत्येक हिंसा प्रकार के लिए भार की गणना ग्रिड-खोज द्वारा संभावित संयोजनों की गणना करके की जाती है जो क्लासिफायर के प्रदर्शन को अधिकतम करते हैं। EER (समान त्रुटि दर) माप का उपयोग प्रदर्शन माप के रूप में किया जाता है।
इस खंड में, प्रयोग और उनके परिणाम प्रस्तुत किए गए हैं। सबसे पहले, बहु-वर्ग वर्गीकरण कार्य के परिणाम प्रस्तुत किए गए हैं, उसके बाद बाइनरी वर्गीकरण कार्य के परिणाम प्रस्तुत किए गए हैं।
इस कार्य में, सिस्टम को एक वीडियो में मौजूद हिंसा की श्रेणी का पता लगाना होता है। इस प्रणाली में लक्षित हिंसा श्रेणियां हैं रक्त, ठंडे हथियार, विस्फोट, झगड़े, आग, आग्नेयास्त्र, गोलियां, चीखें। जैसा कि अध्याय 1 में बताया गया है, ये हिंसा की श्रेणियों का उपसमूह हैं जिन्हें VSD2014 में परिभाषित किया गया है। इन आठ श्रेणियों के अलावा, कार का पीछा करना और व्यक्तिपरक हिंसा को भी VSD2014 में परिभाषित किया गया है, जिनका उपयोग इस कार्य में नहीं किया गया है क्योंकि डेटासेट में इन श्रेणियों के साथ टैग किए गए पर्याप्त वीडियो सेगमेंट नहीं थे। यह कार्य बहुत कठिन है क्योंकि हिंसा की उप-श्रेणियों का पता लगाना हिंसा का पता लगाने की जटिल समस्या को और जटिल बना देता है। इस प्रणाली द्वारा हिंसा की बारीक अवधारणाओं का पता लगाने का प्रयास नया है और ऐसा कोई मौजूदा सिस्टम नहीं है जो यह कार्य कर सके।
जैसा कि अध्याय 3 में बताया गया है, यह प्रणाली हिंसा की कई श्रेणियों का पता लगाने के लिए भारित निर्णय संलयन दृष्टिकोण का उपयोग करती है, जहाँ प्रत्येक हिंसा श्रेणी के लिए भार ग्रिड-खोज तकनीक का उपयोग करके सीखा जाता है। इस दृष्टिकोण के बारे में अधिक जानकारी के लिए कृपया अनुभाग 3.1.3 देखें। तालिका 4.2 में, इस ग्रिड-खोज तकनीक का उपयोग करके पाई जाने वाली प्रत्येक हिंसा श्रेणी के लिए भार प्रस्तुत किए गए हैं।
इन भारों का उपयोग प्रत्येक हिंसा श्रेणी के लिए बाइनरी फ़ीचर क्लासिफायर के आउटपुट मानों का भारित योग प्राप्त करने के लिए किया जाता है। सबसे अधिक योग वाली श्रेणी उस वीडियो सेगमेंट में मौजूद हिंसा की श्रेणी है। यदि आउटपुट योग 0.5 से कम है तो वीडियो सेगमेंट को गैर-हिंसक के रूप में वर्गीकृत किया जाता है। सत्यापन सेट में वीडियो सेगमेंट को इस दृष्टिकोण का उपयोग करके वर्गीकृत किया जाता है और परिणाम चित्र 4.2 में प्रस्तुत किए जाते हैं। चित्र में, प्रत्येक वक्र प्रत्येक हिंसा श्रेणी के लिए ROC वक्र का प्रतिनिधित्व करता है।
तालिका 4.2: ग्रिड-सर्च तकनीक का उपयोग करके प्रत्येक हिंसा वर्ग के लिए प्राप्त क्लासिफायर भार। यहाँ हिंसा वर्ग के लिए भार चुनने का मानदंड उस हिंसा वर्ग के लिए EER को न्यूनतम करने वाले भार को ढूँढना था।
चित्र 4.2: बहु-वर्ग वर्गीकरण कार्य में सिस्टम का प्रदर्शन।
इस बाइनरी वर्गीकरण कार्य में, सिस्टम से श्रेणी का पता लगाए बिना हिंसा की उपस्थिति का पता लगाने की अपेक्षा की जाती है। पिछले कार्य के समान, बाइनरी फ़ीचर क्लासिफायर की आउटपुट संभावनाओं को भारित योग दृष्टिकोण का उपयोग करके संयोजित किया जाता है और वीडियो सेगमेंट के प्रत्येक हिंसा वर्ग से संबंधित होने की आउटपुट संभावनाओं की गणना की जाती है। यदि किसी भी वर्ग के लिए अधिकतम संभावना 0.5 से अधिक है तो वीडियो सेगमेंट को हिंसा के रूप में वर्गीकृत किया जाता है या अन्यथा इसे अहिंसा के रूप में वर्गीकृत किया जाता है। जैसा कि अनुभाग 4.2 में बताया गया है, यह कार्य YouTube-सामान्यीकरण और हॉलीवुड-परीक्षण डेटासेट पर किया जाता है। चित्र 4.3 दोनों डेटासेट पर इस कार्य के परिणाम प्रदान करता है। सिस्टम के प्रदर्शन का प्रतिनिधित्व करने के लिए प्रत्येक डेटासेट के लिए दो ROC वक्रों का उपयोग किया जाता है। वीडियो सेगमेंट में हिंसा है या नहीं, इसका निर्णय लेने के लिए 0.5 को सीमा के रूप में उपयोग करते हुए, परिशुद्धता, स्मरण और सटीकता मानों की गणना की जाती है। प्राप्त परिणामों के लिए कृपया तालिका 4.3 देखें।
इस अनुभाग में, अनुभाग 4.3 में प्रस्तुत परिणामों पर चर्चा की गई है। मल्टी-क्लास और बाइनरी वर्गीकरण कार्यों के परिणामों पर चर्चा करने से पहले, व्यक्तिगत क्लासिफायर के प्रदर्शन पर चर्चा की गई है।
धारा 4.3 में चर्चा किए गए दोनों वर्गीकरण कार्यों में, अंतिम परिणाम प्राप्त करने के लिए क्लासिफायर स्कोर का संलयन किया जाता है। इसलिए, सिस्टम का प्रदर्शन मुख्य रूप से प्रत्येक क्लासिफायर के व्यक्तिगत प्रदर्शन पर और आंशिक रूप से प्रत्येक क्लासिफायर को सौंपे गए भार पर निर्भर करता है। अंतिम वर्गीकरण परिणाम अच्छे होने के लिए, यह महत्वपूर्ण है कि प्रत्येक क्लासिफायर का व्यक्तिगत प्रदर्शन अच्छा हो। सर्वश्रेष्ठ प्रदर्शन करने वाले क्लासिफायर प्राप्त करने के लिए, SVM को तीन अलग-अलग कर्नेल फ़ंक्शन (लीनियर, RBF और ची-स्क्वायर) का उपयोग करके प्रशिक्षित किया जाता है और परीक्षण सेट पर इष्टतम प्रदर्शन वाले क्लासिफायर का चयन किया जाता है। इस दृष्टिकोण का पालन करते हुए, प्रत्येक फ़ीचर प्रकार के लिए सर्वश्रेष्ठ प्रदर्शन करने वाले क्लासिफायर का चयन किया जाता है। परीक्षण डेटासेट पर इन चयनित क्लासिफायर का प्रदर्शन चित्र 4.4 में प्रस्तुत किया गया है। यह देखा जा सकता है कि सेंटीबैंक और ऑडियो दो फ़ीचर क्लासिफायर हैं जो परीक्षण सेट पर उचित प्रदर्शन दिखाते हैं। मोशन फ़ीचर क्लासिफायर का प्रदर्शन चांस से थोड़ा बेहतर है और ब्लड का प्रदर्शन चांस के बराबर है। इनमें से प्रत्येक क्लासिफायर के प्रदर्शन पर उनके प्रदर्शन के बढ़ते क्रम में विस्तृत चर्चा आगे प्रस्तुत की गई है।
जैसा कि चित्र 4.4 से स्पष्ट है, परीक्षण सेट पर मोशन फ़ीचर क्लासिफायर का प्रदर्शन संयोग से थोड़ा ही बेहतर है। इसके पीछे का कारण समझने के लिए, उपलब्ध डेटासेट पर विभिन्न SVM कर्नेल के साथ प्रशिक्षित सभी मोशन फ़ीचर क्लासिफायर के प्रदर्शन की तुलना की गई है। तुलना के लिए चित्र 4.5 देखें। चित्र में, बायाँ प्लॉट हॉकी डेटासेट से परीक्षण सेट पर क्लासिफायर के प्रदर्शन को दर्शाता है और दायाँ प्लॉट हॉलीवुड-टेस्ट डेटासेट पर तुलना को दर्शाता है। दोनों ग्राफ़ में, लाल वक्र हॉकी डेटासेट पर प्रशिक्षित क्लासिफायर से मेल खाता है और शेष तीन वक्र हॉलीवुड-डेव डेटासेट पर प्रशिक्षित क्लासिफायर से मेल खाते हैं।
इन दोनों प्लॉट से, यह देखा जा सकता है कि एक ही डेटासेट पर प्रशिक्षित और परीक्षण किए गए क्लासिफायर का प्रदर्शन उन क्लासिफायर की तुलना में काफी अच्छा है, जिन्हें एक डेटासेट पर प्रशिक्षित किया जाता है और दूसरे पर परीक्षण किया जाता है। बाईं ओर के प्लॉट में (टेस्टसेट: हॉकी डेटासेट), हॉकी डेटासेट पर प्रशिक्षित क्लासिफायर का प्रदर्शन बेहतर है। इसी तरह, दाईं ओर के प्लॉट में (टेस्टसेट: हॉलीवुड-टेस्ट), हॉलीवुड-डेव डेटासेट पर प्रशिक्षित क्लासिफायर का प्रदर्शन बेहतर है। उनके अवलोकन से, यह अनुमान लगाया जा सकता है कि एक डेटासेट से सीखे गए मोशन फीचर प्रतिनिधित्व को दूसरे डेटासेट में स्थानांतरित नहीं किया जा सकता है। इसका कारण डेटासेट के बीच वीडियो रिज़ॉल्यूशन और वीडियो फ़ॉर्मेट में असमानता हो सकती है। हॉकी डेटासेट और हॉलीवुड-टेस्ट डेटासेट के वीडियो के फ़ॉर्मेट अलग-अलग हैं, और साथ ही, हॉलीवुड-डेवलपमेंट और हॉलीवुड-टेस्ट के सभी वीडियो का फ़ॉर्मेट एक जैसा नहीं है। वीडियो फ़ॉर्मेट एक महत्वपूर्ण भूमिका निभाता है क्योंकि मोशन फीचर निकालने के लिए इस्तेमाल की जाने वाली प्रक्रिया (अनुभाग 3.1.1.3.1 में बताई गई) वीडियो कोडेक्स से मोशन जानकारी का उपयोग करती है। वीडियो की लंबाई और रिज़ॉल्यूशन का भी कुछ प्रभाव पड़ेगा, भले ही यहां इस्तेमाल की गई प्रक्रिया वीडियो सेगमेंट की लंबाई के साथ निकाले गए फीचर्स को सामान्य करके और फ्रेम के उप-क्षेत्रों की एक पूर्व-निर्धारित संख्या में पिक्सेल गति को एकत्रित करके इसे कम करने की कोशिश करती है। हॉकी डेटासेट के वीडियो एक सेकंड के बहुत छोटे सेगमेंट होते हैं और उनमें छोटे फ्रेम आकार और कम गुणवत्ता होती है। जबकि, हॉलीवुड डेटासेट के वीडियो सेगमेंट लंबे होते हैं और बेहतर गुणवत्ता के साथ बड़े फ्रेम आकार होते हैं। इस समस्या का एक समाधान सभी वीडियो को एक ही प्रारूप में परिवर्तित करना हो सकता है, लेकिन तब भी अनुचित वीडियो एन्कोडिंग के कारण समस्या हो सकती है। दूसरा समाधान गति सुविधाओं को निकालने के लिए ऑप्टिकल फ्लो आधारित दृष्टिकोण का उपयोग करना हो सकता है (धारा 3.1.1.3.2 में समझाया गया है)।
परीक्षण सेट पर रक्त विशेषता वर्गीकारक का प्रदर्शन उतना ही अच्छा है जितना कि संभावना है। परिणामों के लिए चित्र 4.4 देखें। यहाँ समस्या विशेषता निष्कर्षण के साथ नहीं है क्योंकि रक्त विशेषता निष्कर्षण के लिए उपयोग किए जाने वाले रक्त डिटेक्टर ने एक छवि में रक्त वाले क्षेत्रों का पता लगाने में बहुत अच्छे परिणाम दिखाए हैं। वेब से छवियों पर रक्त डिटेक्टर के प्रदर्शन के लिए कृपया चित्र 3.4 देखें और हॉलीवुड डेटासेट से नमूना फ़्रेम पर इसके प्रदर्शन के लिए चित्र 4.6 देखें। इससे यह स्पष्ट है कि रक्त विशेषता निष्कर्षक बहुत अच्छा काम कर रहा है और यह विशेषता निष्कर्षण के साथ समस्या नहीं है। इसलिए, यह निष्कर्ष निकाला जा सकता है कि समस्या वर्गीकारक प्रशिक्षण के साथ है और यह प्रशिक्षण डेटा की सीमित उपलब्धता के कारण है।
प्रशिक्षण के लिए उपयोग किए जाने वाले VSD2014 डेटासेट में, रक्त युक्त वीडियो खंडों को इन खंडों में निहित रक्त की मात्रा का प्रतिनिधित्व करने वाले लेबल ("अनदेखा", "कम", "मध्यम" और "उच्च") के साथ एनोटेट किया गया है। इस डेटासेट में बहुत कम खंड हैं जिन्हें "उच्च" लेबल के साथ एनोटेट किया गया है, जिसके परिणामस्वरूप, SVM क्लासिफायर प्रभावी रूप से रक्त युक्त फ़्रेमों के फ़ीचर प्रतिनिधित्व को सीखने में असमर्थ हैं। इस फ़ीचर क्लासिफायर के प्रदर्शन को उच्च मात्रा में रक्त युक्त फ़्रेमों के कई उदाहरणों के साथ एक बड़े डेटासेट के साथ प्रशिक्षित करके बेहतर बनाया जा सकता है। वैकल्पिक रूप से Google से छवियों का उपयोग इस क्लासिफायर को प्रशिक्षित करने के लिए भी किया जा सकता है।
ऑडियो फ़ीचर क्लासिफायर टेस्ट सेट पर दूसरा सबसे अच्छा प्रदर्शन करने वाला क्लासिफायर है (चित्र 4.4 देखें) और यह हिंसा का पता लगाने में ऑडियो के महत्व को दर्शाता है। हालाँकि विज़ुअल फ़ीचर हिंसक सामग्री के अच्छे संकेतक हैं, लेकिन कुछ ऐसे दृश्य हैं जिनमें ऑडियो अधिक महत्वपूर्ण भूमिका निभाता है। उदाहरण के लिए, झगड़े, गोलियों और विस्फोटों वाले दृश्य। इन दृश्यों में विशिष्ट ध्वनियाँ होती हैं और MFCC और एनर्जी-एंट्रॉपी जैसी ऑडियो सुविधाएँ इन हिंसक दृश्यों से जुड़े ध्वनि पैटर्न का पता लगाने के लिए इस्तेमाल की जा सकती हैं। इस काम में, MFCC सुविधाओं का उपयोग ऑडियो सामग्री का वर्णन करने के लिए किया जाता है (अनुभाग 3.1.1.1 देखें) क्योंकि हिंसा का पता लगाने पर पिछले कई काम (Acar एट अल। [1], जियांग एट अल। [33], लैम एट अल। [36], आदि) ने हिंसक दृश्यों से जुड़े ऑडियो हस्ताक्षरों का पता लगाने में MFCC सुविधाओं की प्रभावशीलता को दिखाया है। लेकिन यह ध्यान रखना महत्वपूर्ण है कि, हिंसा का पता लगाने के लिए अकेले ऑडियो पर्याप्त नहीं है और यह केवल कुछ हिंसा वर्गों जैसे कि गोली और विस्फोटों का पता लगाने में महत्वपूर्ण भूमिका निभाता है, जिनके ऑडियो हस्ताक्षर अद्वितीय होते हैं।
सेंटीबैंक फीचर क्लासिफायर ने सभी फीचर क्लासिफायर में सबसे अच्छा प्रदर्शन किया है (चित्र 4.4 देखें) और सिस्टम के समग्र प्रदर्शन में मजबूत योगदान दिया है। यह हिंसा जैसे जटिल दृश्य भावनाओं का पता लगाने में सेंटीबैंक की शक्ति को प्रदर्शित करता है। चित्र 4.7 हिंसा वाले और हिंसा रहित फ्रेम के लिए शीर्ष 50 एएनपी के औसत स्कोर दिखाता है। जैसा कि देखा जा सकता है कि हिंसा और हिंसा रहित वर्ग के लिए उच्चतम औसत स्कोर वाले एएनपी की सूची बहुत अलग है और हिंसा रहित वर्ग से हिंसा रहित वर्ग को अलग करने में सेंटीबैंक के बहुत अच्छे प्रदर्शन के पीछे यही कारण है। ध्यान दें कि हिंसा वर्ग के लिए एएनपी सूची में सभी विशेषण हिंसा का वर्णन नहीं करते हैं। यह कई अलग-अलग कारणों से हो सकता है, जिनमें से एक यह तथ्य हो सकता है कि सेंटीबैंक कृपया चित्र 4.8 देखें जो प्लूटचिक के भावना चक्र और VSO में भावना की प्रत्येक श्रेणी के लिए ANPs के वितरण को दर्शाता है।
जैसा कि पहले उल्लेख किया गया है (अनुभाग 3.1.3), अंतिम वर्गीकरण स्कोर की गणना भारित योग दृष्टिकोण का उपयोग करके व्यक्तिगत क्लासिफायर स्कोर के लेट फ्यूजन द्वारा की जाती है। यहाँ उपयोग किए गए भारों की गणना ग्रिड-सर्च दृष्टिकोण का उपयोग करके की जाती है, जिसका लक्ष्य समान त्रुटि दर (ईईआर) को न्यूनतम करना है। इसलिए, सिस्टम के समग्र वर्गीकरण प्रदर्शन को निर्धारित करने में भार एक महत्वपूर्ण भूमिका निभाते हैं। ध्यान दें कि इन सभी भारों की गणना परीक्षण सेट पर की जाती है। तालिका 4.2 में, ग्रिड-सर्च तकनीक का उपयोग करके प्राप्त आठ हिंसा वर्गों में से प्रत्येक के लिए क्लासिफायर के भार प्रस्तुत किए गए हैं। प्राप्त भारों से, भार वितरण के बारे में निम्नलिखित अवलोकन किए जा सकते हैं, (i) अधिकांश हिंसा वर्गों के लिए, सबसे अधिक भार सेंटीबैंक को दिया जाता है क्योंकि यह सबसे अधिक विभेदक विशेषता है। (ii) ऑडियो को हिंसा वर्गों जैसे कि गनशॉट, विस्फोट और झगड़े के लिए सबसे अधिक भार मिला है जहाँ ऑडियो बहुत महत्वपूर्ण भूमिका निभाता है। (iii) रक्त को हिंसा वर्गों जैसे कि चीख, गनशॉट और आग्नेयास्त्रों के लिए उच्च भार मिला है। यह दिलचस्प है क्योंकि इनमें से किसी भी हिंसा वर्ग से संबंधित वीडियो सेगमेंट में खून भी हो सकता है। (iv) अधिकांश हिंसा वर्गों में गति को सबसे कम महत्व दिया गया है क्योंकि यह सबसे कम प्रदर्शन करने वाला फीचर है। लेकिन, यह भी देखा जा सकता है कि लड़ाई वर्ग के लिए इसका महत्व अधिक है जहाँ बहुत अधिक गति की उम्मीद की जा सकती है।
यदि प्रत्येक हिंसा वर्ग को दिए गए भार का विश्लेषण किया जाए तो निम्नलिखित अवलोकन किए जा सकते हैं, (i) बंदूक की गोली वर्ग के लिए, उच्चतम वितरण भार ऑडियो (0.5) और रक्त (0.45) के बीच है। यह अपेक्षित है क्योंकि ऑडियो विशेषताएँ बंदूक की गोली का पता लगाने में महत्वपूर्ण भूमिका निभाती हैं और बंदूक की गोली वाले दृश्यों में बहुत अधिक रक्त होने की भी उम्मीद है। (ii) ऑडियो (0.4), और दृश्य विशेषताएँ (गति - 0.25 और सेंटीबैंक - 0.30) को लड़ाई वर्ग के लिए लगभग बराबर मात्रा में भार मिला है। यह अपेक्षित है क्योंकि लड़ाई वाले दृश्यों का पता लगाने में ऑडियो और दृश्य दोनों विशेषताएँ महत्वपूर्ण हैं। (iii) विस्फोट वर्ग के लिए, ऑडियो (0.9) को सबसे अधिक भार दिया गया है जो अपेक्षित है, क्योंकि विस्फोटों का पता लगाने में ऑडियो विशेषताएँ महत्वपूर्ण हैं। (iv) आग एक हिंसा वर्ग है जहाँ दृश्य विशेषताओं के उच्च भार होने की उम्मीद है और जैसा कि अपेक्षित था, सबसे अच्छा प्रदर्शन करने वाली दृश्य विशेषता, सेंटीबैंक (0.85), को सबसे अधिक भार दिया गया है। (v) हिंसा वर्ग शीत
हथियारों में ऐसे दृश्य होते हैं जिनमें कोई ठंडा हथियार (जैसे, चाकू, तलवार, तीर, हलबर्ड, आदि) मौजूद होता है। इस वर्ग के लिए, दृश्य विशेषताओं का उच्च भार होने की उम्मीद है। और जैसा कि अपेक्षित था, इस वर्ग के लिए सेंटीबैंक (0.95) का भार सबसे अधिक है। (vi) "आग्नेयास्त्र" हिंसा वर्ग है जिसमें दृश्यों में बंदूकें और आग्नेयास्त्र होते हैं। उपरोक्त वर्ग के समान, दृश्य विशेषताओं का उच्च भार होने की उम्मीद है। इस वर्ग के लिए, सेंटीबैंक (0.6) और रक्त (0.3) को भार का उच्चतम वितरण प्राप्त हुआ है। रक्त को अधिक भार दिए जाने का कारण यह हो सकता है कि बंदूक वाले अधिकांश दृश्यों में रक्तपात भी होगा। (vii) रक्त वर्ग के लिए, रक्त विशेषता का सबसे अधिक भार होने की उम्मीद है। लेकिन रक्त विशेषता (0.05) को केवल एक छोटा भार मिला और सेंटीबैंक (0.95) को सबसे अधिक भार मिला। यह अपेक्षित परिणाम नहीं है और यह परीक्षण सेट पर रक्त विशेषता वर्गीकरण के खराब प्रदर्शन के कारण हो सकता है। (viii) ऑडियो से यह अपेक्षा करना सहज है कि क्लास “चीख” के लिए उसका भार अधिक होगा क्योंकि चीखों का पता लगाने में ऑडियो विशेषताएँ महत्वपूर्ण भूमिका निभाती हैं। लेकिन, यहाँ प्राप्त भार इस सहज ज्ञान के विरुद्ध हैं। ऑडियो को बहुत कम भार मिला है जबकि सेंटीबैंक को सबसे अधिक भार मिला है। कुल मिलाकर, ग्रिड-सर्च से प्राप्त भार अधिकांश वर्गों के लिए कमोबेश अपेक्षित हैं। यदि परीक्षण पर व्यक्तिगत क्लासिफायर के प्रदर्शन में सुधार किया जाता है तो बेहतर भार वितरण प्राप्त किया जा सकता है।
इस खंड में, बहु-वर्ग वर्गीकरण कार्य में प्राप्त परिणामों पर चर्चा की गई है। इस कार्य में प्राप्त परिणामों के लिए कृपया चित्र 4.2 देखें। चित्र से, निम्नलिखित अवलोकन निकाले जा सकते हैं (i) सिस्टम गनशॉट का पता लगाने में अच्छा प्रदर्शन (लगभग 30% का EER) दिखाता है। (ii) हिंसा वर्गों, ठंडे हथियार, खून और विस्फोटों के लिए, सिस्टम मध्यम प्रदर्शन (लगभग 40% का EER) दिखाता है। (iii) शेष हिंसा वर्गों (झगड़े, चीखें, आग, आग्नेयास्त्र) के लिए प्रदर्शन एक मौका जितना अच्छा है (45% से अधिक का EER)। ये परिणाम बताते हैं कि सुधार की बहुत गुंजाइश है, लेकिन, यह याद रखना महत्वपूर्ण है कि हिंसा का पता लगाना कोई मामूली काम नहीं है और हिंसा के विभिन्न वर्गों के बीच अंतर करना और भी मुश्किल है। अब तक प्रस्तावित सभी दृष्टिकोणों ने केवल हिंसा की उपस्थिति या अनुपस्थिति का पता लगाने पर ध्यान केंद्रित किया है, लेकिन हिंसा की श्रेणी का पता लगाने पर नहीं। इस कार्य में प्रस्तावित नया दृष्टिकोण इस दिशा में पहला है और प्रदर्शन की तुलना करने के लिए कोई आधारभूत प्रणाली नहीं है। इस कार्य से प्राप्त परिणाम इस क्षेत्र में भविष्य के कार्यों के लिए आधार रेखा के रूप में काम करेंगे।
इस सिस्टम में, लेट फ़्यूज़न दृष्टिकोण का पालन किया जाता है जिसने वयस्क सामग्री का पता लगाने के समान मल्टीमीडिया अवधारणा पहचान कार्य (शुल्ज़ एट अल. [52]) में अच्छे परिणाम दिखाए हैं। इसलिए, सिस्टम के खराब प्रदर्शन को अपनाए गए दृष्टिकोण के लिए जिम्मेदार नहीं ठहराया जा सकता है। सिस्टम का प्रदर्शन व्यक्तिगत क्लासिफायर के प्रदर्शन और प्रत्येक हिंसा वर्ग के लिए उन्हें सौंपे गए फ़्यूज़न भार पर निर्भर करता है। चूंकि ग्रिड-सर्च तकनीक का उपयोग करके ईईआर को कम करने के लिए फ़्यूज़न भार को समायोजित किया जाता है, इसलिए सिस्टम का समग्र प्रदर्शन पूरी तरह से व्यक्तिगत क्लासिफायर के प्रदर्शन पर निर्भर करता है। इसलिए, इस कार्य में सिस्टम के प्रदर्शन को बेहतर बनाने के लिए, हिंसा का पता लगाने में व्यक्तिगत क्लासिफायर के प्रदर्शन को बेहतर बनाना आवश्यक है।
बाइनरी वर्गीकरण कार्य के परिणाम चित्र 4.3 में प्रस्तुत किए गए हैं। यह कार्य बहु-वर्ग वर्गीकरण कार्य का विस्तार है। जैसा कि पहले बताया गया है, इस कार्य में, यदि हिंसा वर्गों में से किसी एक के लिए आउटपुट संभावना 0.5 की सीमा से अधिक है, तो वीडियो खंड को "हिंसा" के रूप में वर्गीकृत किया जाता है। इस कार्य में सिस्टम के प्रदर्शन का मूल्यांकन दो डेटासेट, हॉलीवुड-टेस्ट और यूट्यूब-जनरलाइजेशन पर किया जाता है। यह देखा जा सकता है कि इन डेटासेट पर सिस्टम का प्रदर्शन संभावना से थोड़ा बेहतर है। यह भी देखा जा सकता है कि यूट्यूब-जनरलाइजेशन डेटासेट की तुलना में हॉलीवुड-टेस्ट डेटासेट पर प्रदर्शन बेहतर है। यह अपेक्षित है क्योंकि सभी क्लासिफायर हॉलीवुड-डेवलपमेंट डेटासेट के डेटा पर प्रशिक्षित होते हैं, जिसमें हॉलीवुड-टेस्ट डेटासेट के समान वीडियो सामग्री होती है। इस कार्य के लिए सिस्टम द्वारा प्राप्त की गई सटीकता, रिकॉल और सटीकता मान तालिका 4.3 में प्रस्तुत किए गए हैं। MediaEval-2014 से इस कार्य में सर्वश्रेष्ठ प्रदर्शन करने वाली टीम द्वारा प्राप्त परिणाम तालिका 4.4 में दिए गए हैं।
इन परिणामों की सीधे तुलना नहीं की जा सकती, भले ही समान डेटासेट का उपयोग किया गया हो, क्योंकि मूल्यांकन के लिए उपयोग की जाने वाली प्रक्रिया समान नहीं है। MediaEval-2014 में, सिस्टम से हिंसा वाले वीडियो सेगमेंट के लिए प्रारंभ और अंत फ़्रेम को आउटपुट करने की अपेक्षा की जाती है और यदि ग्राउंड ट्रुथ और आउटपुट फ़्रेम अंतराल के बीच ओवरलैप 50% से अधिक है तो इसे हिट माना जाता है। MediaEval-2014 में अपनाई गई प्रक्रिया के बारे में अधिक जानकारी के लिए कृपया Schedl et al. [51] का संदर्भ लें। प्रस्तावित दृष्टिकोण में, सिस्टम इनपुट वीडियो के प्रत्येक 1-सेकंड सेगमेंट को "हिंसा" या "कोई हिंसा नहीं" श्रेणी का वर्गीकृत करता है और ग्राउंड ट्रुथ के साथ इसकी तुलना करके सिस्टम के प्रदर्शन की गणना की जाती है। MediaEval-2014 में उपयोग किए गए की तुलना में यहां उपयोग किया गया यह मूल्यांकन मानदंड बहुत अधिक कठोर और अधिक बारीक है। मीडियाइवल में सर्वोत्तम प्रदर्शन करने वाली प्रणाली का चयन करने के लिए MAP मीट्रिक का उपयोग किया जाता है, जबकि प्रस्तावित प्रणाली में, प्रणाली का EER अनुकूलित किया जाता है।
हालाँकि इस सिस्टम से प्राप्त परिणामों की तुलना सीधे मीडियाइवल के परिणामों से नहीं की जा सकती है, लेकिन यह देखा जा सकता है कि इस सिस्टम का प्रदर्शन मीडियाइवल-2014 से सबसे अच्छा प्रदर्शन करने वाले सिस्टम से बेहतर है, भले ही सख्त मूल्यांकन मानदंडों का उपयोग किया गया हो। ये परिणाम बताते हैं कि प्रस्तावित नए दृष्टिकोण का उपयोग करके विकसित की गई प्रणाली हिंसा का पता लगाने के इस क्षेत्र में मौजूदा अत्याधुनिक प्रणालियों से बेहतर है।
इस अध्याय में, विकसित प्रणाली के मूल्यांकन पर विस्तृत चर्चा प्रस्तुत की गई है। अनुभाग 4.1 में, इस कार्य में उपयोग किए गए डेटासेट का विवरण समझाया गया है और अगले अनुभाग अनुभाग 4.2 में, प्रयोगात्मक सेटअप पर चर्चा की गई है। अनुभाग 4.3 में प्रयोग और उनके परिणाम प्रस्तुत किए गए हैं, इसके बाद अनुभाग 4.4 में प्राप्त परिणामों पर विस्तृत चर्चा की गई है।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
[1] http://www.images.google.com
[2] http://www.youtube.com
[3] http://visilab.etsii.uclm.es/personas/oscar/FightDetection/index.html