लेखक:
(1) प्रवीण तिरुपत्तूर, सेंट्रल फ्लोरिडा विश्वविद्यालय।
सोशल नेटवर्किंग वेबसाइटों पर अपलोड की जाने वाली मल्टीमीडिया सामग्री की मात्रा और बच्चों द्वारा इन तक आसानी से पहुँच उन अभिभावकों के लिए एक समस्या बन रही है जो अपने बच्चों को वेब पर हिंसक और वयस्क सामग्री के संपर्क में आने से बचाना चाहते हैं। यूट्यूब और फेसबुक जैसी वेबसाइटों पर वीडियो अपलोड की संख्या बढ़ रही है। पिछले एक साल में फेसबुक (ब्लॉग-एफबी [3]) पर वीडियो पोस्ट की संख्या में 75% की वृद्धि हुई है और हर दिन 120,000 से अधिक वीडियो यूट्यूब पर अपलोड किए जाते हैं (वेस्च [56], गिल एट अल। [26])। यह अनुमान लगाया गया है कि इन वेबसाइटों पर अपलोड किए गए 20% वीडियो में हिंसक या वयस्क सामग्री होती है (स्पार्क्स [54])। इससे बच्चों के लिए इन असुरक्षित सामग्रियों तक पहुंचना या गलती से उनके संपर्क में आना आसान हो जाता है। बच्चों पर हिंसक सामग्री देखने के प्रभावों का मनोविज्ञान में अच्छी तरह से अध्ययन किया गया है (टॉमकिन्स [55], स्पार्क्स [54], बुशमैन और ह्यूसमैन [6], और ह्यूसमैन और टेलर [32]) और इन अध्ययनों के परिणाम बताते हैं कि हिंसक सामग्री देखने से बच्चों की भावनाओं पर काफी प्रभाव पड़ता है। प्रमुख प्रभाव आक्रामक या भयभीत व्यवहार की संभावना में वृद्धि और दूसरों के दर्द और पीड़ा के प्रति कम संवेदनशील होना है। ह्यूसमैन और एरॉन [31] ने प्राथमिक विद्यालय के बच्चों को शामिल करते हुए एक अध्ययन किया, जिन्होंने टेलीविजन पर कई घंटों तक हिंसा देखी। वयस्कता में इन बच्चों का अवलोकन करके, उन्होंने पाया कि जो लोग 8 साल की उम्र में बहुत अधिक टेलीविजन हिंसा देखते थे, उन्हें वयस्क होने पर आपराधिक कृत्यों के लिए गिरफ्तार किए जाने और मुकदमा चलाने की अधिक संभावना थी।
वयस्क सामग्री का पता लगाने (चान एट अल. [८], शुल्ज़ एट अल. [५२], पोगरेबनीक एट अल. [४७]) का अच्छी तरह से अध्ययन किया गया है और बहुत प्रगति हुई है। दूसरी ओर, हिंसा का पता लगाने का कम अध्ययन किया गया है और इसने हाल के दिनों में ही रुचि प्राप्त की है। अतीत में हिंसा का पता लगाने के लिए कुछ दृष्टिकोण प्रस्तावित किए गए थे और इनमें से प्रत्येक दृष्टिकोण ने विभिन्न दृश्य और श्रवण सुविधाओं का उपयोग करके हिंसा का पता लगाने की कोशिश की थी। उदाहरण के लिए, नाम एट अल. [४१] ने हिंसक दृश्यों की पहचान करने के लिए कई ऑडियो-विजुअल सुविधाओं को मिलाया। उनके काम में, पूर्वनिर्धारित रंग तालिकाओं का उपयोग करके लपटों और खून का पता लगाया गया और विभिन्न प्रतिनिधि ऑडियो प्रभावों (बंदूक की गोली, विस्फोट आदि) का भी फायदा उठाया गया। दत्ता एट अल. [१४]
हिंसा का पता लगाने के लिए प्रस्तावित अधिक तरीकों पर अध्याय 2 में चर्चा की गई है। ये सभी तरीके मुख्य रूप से हॉलीवुड फिल्मों में हिंसा का पता लगाने पर केंद्रित थे, लेकिन वीडियो शेयरिंग और यूट्यूब या फेसबुक जैसी सोशल मीडिया वेबसाइटों के वीडियो में नहीं। हॉलीवुड फिल्मों में हिंसा का पता लगाना अपेक्षाकृत आसान है क्योंकि ये फिल्में कुछ मूवीमेकिंग नियमों का पालन करती हैं। उदाहरण के लिए, रोमांचक एक्शन दृश्यों को प्रदर्शित करने के लिए, उच्च गति वाले दृश्य आंदोलन और तेज़ गति वाली ध्वनि के माध्यम से तेज़ गति का माहौल बनाया जाता है। लेकिन वीडियो-शेयरिंग वेबसाइट जैसे कि यूट्यूब और फेसबुक के वीडियो इन मूवीमेकिंग नियमों का पालन नहीं करते हैं और अक्सर उनकी ऑडियो और वीडियो गुणवत्ता खराब होती है। उपयोगकर्ता द्वारा बनाए गए वीडियो की ये विशेषताएँ उनमें हिंसा का पता लगाना बहुत कठिन बनाती हैं।
हिंसा का पता लगाने के तरीके पर चर्चा करने से पहले, "हिंसा" शब्द की परिभाषा देना महत्वपूर्ण है। हिंसा का पता लगाने के पिछले सभी तरीकों ने हिंसा की एक ही परिभाषा का पालन नहीं किया है और विभिन्न विशेषताओं और विभिन्न डेटासेट का उपयोग किया है। यह विभिन्न तरीकों की तुलना को बहुत कठिन बना देता है। इस समस्या को दूर करने और इस क्षेत्र में अनुसंधान को बढ़ावा देने के लिए, डेमार्टी एट अल [15] द्वारा 2011 में हिंसक दृश्य पहचान (वीएसडी) नामक एक डेटासेट पेश किया गया था और इस डेटासेट का हालिया संस्करण वीएसडी2014 है। इस नवीनतम डेटासेट के अनुसार, वीडियो में "हिंसा" का अर्थ है, "कोई भी दृश्य जिसे कोई 8 साल के बच्चे को नहीं देखने देगा क्योंकि उसमें शारीरिक हिंसा होती है" शेडल एट अल [51]। माना जाता है कि यह परिभाषा मनोविज्ञान के शोध निष्कर्षों के आधार पर तैयार की गई है, जिनका उल्लेख ऊपर किया गया है। इस परिभाषा से, यह देखा जा सकता है कि हिंसा एक भौतिक इकाई नहीं है, बल्कि एक अवधारणा है जो बहुत सामान्य, अमूर्त और बहुत व्यक्तिपरक है। इसलिए, हिंसा का पता लगाना कोई मामूली काम नहीं है।
इस कार्य का उद्देश्य एक ऐसी प्रणाली बनाना है जो न केवल हॉलीवुड फिल्मों में बल्कि YouTube और Facebook जैसी वीडियो-शेयरिंग वेबसाइटों के वीडियो में भी स्वचालित रूप से हिंसा का पता लगा सके। इस कार्य में, वीडियो में हिंसा की श्रेणी का पता लगाने का भी प्रयास किया गया है, जिसे पहले के तरीकों से संबोधित नहीं किया गया था। इस कार्य में लक्षित हिंसा की श्रेणियाँ हैं रक्त की उपस्थिति, ठंडे हथियारों की उपस्थिति, विस्फोट, झगड़े, चीखें, आग की उपस्थिति, आग्नेयास्त्र और गोलियों की उपस्थिति। ये वीडियो खंडों को एनोटेट करने के लिए VSD2014 में परिभाषित और उपयोग की गई अवधारणाओं के सबसेट का प्रतिनिधित्व करते हैं। VSD2014 से “खूनी दृश्य” और “कार का पीछा” श्रेणियों का चयन नहीं किया गया क्योंकि VSD2014 में इन अवधारणाओं के साथ एनोटेट किए गए बहुत से वीडियो खंड नहीं थे। ऐसी ही एक और श्रेणी है “व्यक्तिपरक हिंसा”। इसे इसलिए नहीं चुना गया क्योंकि इस श्रेणी से संबंधित दृश्यों में कोई दृश्यमान हिंसा नहीं है और इसलिए उनका पता लगाना बहुत कठिन है। इस कार्य में, हिंसा का पता लगाने के लिए ऑडियो और विज़ुअल दोनों विशेषताओं का उपयोग किया जाता है क्योंकि ऑडियो और विज़ुअल दोनों सूचनाओं को मिलाने से वर्गीकरण में अधिक विश्वसनीय परिणाम मिलते हैं।
इस तरह की प्रणाली विकसित करने के कई फायदे हैं, जो मल्टीमीडिया सामग्री में हिंसा का स्वतः पता लगा सकती है। इसका उपयोग हिंसा की मात्रा के आधार पर फिल्मों को रेट करने के लिए किया जा सकता है। इसका उपयोग सोशल नेटवर्किंग साइट्स द्वारा अपने प्लेटफॉर्म पर हिंसक वीडियो के अपलोड का पता लगाने और ब्लॉक करने के लिए किया जा सकता है। साथ ही, इसका उपयोग सीन कैरेक्टराइजेशन और शैली वर्गीकरण के लिए किया जा सकता है जो फिल्मों को खोजने और ब्राउज़ करने में मदद करता है। रियल-टाइम कैमरा सिस्टम से वीडियो स्ट्रीम में हिंसा की पहचान हवाई अड्डों, अस्पतालों, शॉपिंग मॉल, सार्वजनिक स्थानों, जेलों, मनोरोग वार्डों, स्कूल के खेल के मैदानों आदि जैसे स्थानों पर वीडियो निगरानी के लिए बहुत मददगार होगी। हालाँकि, हिंसा का वास्तविक समय पर पता लगाना बहुत अधिक कठिन है और इस काम में इससे निपटने का कोई प्रयास नहीं किया गया है।
संबंधित कार्य का अवलोकन, प्रस्तावित दृष्टिकोण का विस्तृत विवरण और मूल्यांकन आगे प्रस्तुत किया गया है। निम्नलिखित अध्याय इस प्रकार व्यवस्थित हैं। अध्याय 2 में हिंसा का पता लगाने के क्षेत्र में पिछले कुछ कार्यों को विस्तार से समझाया गया है। अध्याय 3 में, फीचर क्लासिफायर के प्रशिक्षण और परीक्षण के लिए उपयोग किए जाने वाले दृष्टिकोण का विवरण प्रस्तुत किया गया है। इसमें फीचर एक्सट्रैक्शन और क्लासिफायर प्रशिक्षण का विवरण भी शामिल है। अध्याय 4 में उपयोग किए गए डेटासेट, प्रायोगिक सेटअप और प्रयोगों से प्राप्त परिणामों का विवरण दिया गया है। अंत में, अध्याय 5 में निष्कर्ष दिए गए हैं और उसके बाद संभावित भविष्य के कार्य दिए गए हैं।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।