113 रीडिंग

वीडियो में हिंसा का पता लगाना: निष्कर्ष और भविष्य का कार्य

द्वारा Kinetograph: The Video Editing Technology Publication4m2024/06/01

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में शोधकर्ताओं ने वीडियो में हिंसा का स्वतः पता लगाने के लिए एक प्रणाली का प्रस्ताव दिया है, जिसमें वर्गीकरण के लिए श्रव्य और दृश्य संकेतों का उपयोग किया जाता है।

featured image - वीडियो में हिंसा का पता लगाना: निष्कर्ष और भविष्य का कार्य

लेखक:

(1) प्रवीण तिरुपत्तूर, सेंट्रल फ्लोरिडा विश्वविद्यालय।

लिंक की तालिका

5. निष्कर्ष और भावी कार्य

इस अध्याय में, निष्कर्षों और उन दिशाओं पर चर्चा की गई है जिनमें मौजूदा कार्य को आगे बढ़ाया जा सकता है, क्रमशः अनुभाग 5.1 और अनुभाग 5.2 में।

5.1. निष्कर्ष

इस कार्य में, दृश्य और श्रव्य दोनों विशेषताओं का उपयोग करके वीडियो में हिंसक सामग्री का पता लगाने के लिए एक प्रणाली विकसित करने का प्रयास किया गया है। भले ही इस कार्य में उपयोग किया गया दृष्टिकोण इस क्षेत्र में पहले के कार्यों से प्रेरित है, लेकिन इसके निम्नलिखित अद्वितीय पहलू हैं: (i) हिंसा के विभिन्न वर्गों का पता लगाना, (ii) वीडियो की दृश्य सामग्री का वर्णन करने के लिए सेंटीबैंक सुविधा का उपयोग, (iii) वेब से छवियों का उपयोग करके विकसित रक्त डिटेक्टर और रक्त मॉडल, और (iv) गति विशेषताओं को उत्पन्न करने के लिए वीडियो कोडेक से जानकारी का उपयोग करना। इस प्रणाली को विकसित करने के लिए उपयोग की जाने वाली प्रक्रिया का संक्षिप्त अवलोकन यहाँ दिया गया है।

चूंकि हिंसा कोई भौतिक इकाई नहीं है, इसलिए वीडियो में इसका पता लगाना कोई आसान काम नहीं है। हिंसा एक दृश्य अवधारणा है और इसका पता लगाने के लिए कई विशेषताओं का उपयोग करने की आवश्यकता है। इस कार्य में, ऑडियो सामग्री का वर्णन करने के लिए MFCC सुविधाओं का उपयोग किया गया और दृश्य सामग्री का वर्णन करने के लिए रक्त, गति और सेंटीबैंक सुविधाओं का उपयोग किया गया। प्रत्येक चयनित विशेषता के लिए SVM क्लासिफायर को प्रशिक्षित किया गया और प्रत्येक हिंसा वर्ग के लिए अंतिम वर्गीकरण स्कोर प्राप्त करने के लिए व्यक्तिगत क्लासिफायर स्कोर को भारित योग द्वारा संयोजित किया गया। प्रत्येक वर्ग के लिए भार ग्रिड-खोज दृष्टिकोण का उपयोग करके पाया जाता है, जिसमें अनुकूलन मानदंड न्यूनतम EER होता है। इस कार्य में विभिन्न डेटासेट का उपयोग किया जाता है, लेकिन सबसे महत्वपूर्ण VSD डेटासेट है, जिसका उपयोग क्लासिफायर को प्रशिक्षित करने, क्लासिफायर भार की गणना करने और सिस्टम का परीक्षण करने के लिए किया जाता है।

सिस्टम के प्रदर्शन का मूल्यांकन दो अलग-अलग वर्गीकरण कार्यों, मल्टीक्लास और बाइनरी वर्गीकरण पर किया जाता है। मल्टी-क्लास वर्गीकरण कार्य में, सिस्टम को वीडियो सेगमेंट में मौजूद हिंसा के वर्ग का पता लगाना होता है। यह हिंसा की मौजूदगी का पता लगाने से कहीं ज़्यादा मुश्किल काम है और यहाँ प्रस्तुत सिस्टम इस समस्या से निपटने वाले पहले सिस्टम में से एक है। बाइनरी वर्गीकरण कार्य वह है जहाँ सिस्टम को हिंसा के वर्ग का पता लगाए बिना सिर्फ़ हिंसा की मौजूदगी का पता लगाना होता है। इस कार्य में, यदि किसी भी हिंसा वर्ग के लिए मल्टी-क्लास वर्गीकरण कार्य से अंतिम वर्गीकरण स्कोर 0.5 से ज़्यादा है, तो वीडियो सेगमेंट को "हिंसा" के रूप में वर्गीकृत किया जाता है, अन्यथा इसे "कोई हिंसा नहीं" के रूप में वर्गीकृत किया जाता है। मल्टी-क्लास वर्गीकरण कार्य के परिणाम बिल्कुल भी सही नहीं हैं और इसमें सुधार की गुंजाइश है, जबकि बाइनरी वर्गीकरण कार्यों के परिणाम मीडियाएवल-2014 के मौजूदा बेंचमार्क परिणामों से बेहतर हैं। हालाँकि, ये परिणाम निश्चित रूप से उत्साहजनक हैं। अनुभाग 5.2 में, उन संभावित दिशाओं पर विस्तृत चर्चा प्रस्तुत की गई है जिनमें मौजूदा कार्य को आगे बढ़ाया जा सकता है।

5.2. भावी कार्य

वर्तमान कार्य को कई संभावित दिशाओं में बढ़ाया जा सकता है। एक दिशा मौजूदा सिस्टम के प्रदर्शन को बेहतर बनाना होगा। इसके लिए, अलग-अलग क्लासिफायर के प्रदर्शन को बेहतर बनाना होगा। मोशन और ब्लड दो ऐसे फीचर हैं जिनके क्लासिफायर के प्रदर्शन में उचित सुधार की आवश्यकता है। जैसा कि सेक्शन 4.4 में बताया गया है, मोशन क्लासिफायर के प्रदर्शन को बेहतर बनाने के लिए मोशन फीचर को निकालने के लिए इस्तेमाल किए जाने वाले दृष्टिकोण को बदलना होगा। ब्लड के लिए, समस्या क्लासिफायर को प्रशिक्षित करने के लिए इस्तेमाल किए जाने वाले डेटासेट के साथ है, फीचर एक्सट्रैक्टर के साथ नहीं। प्रशिक्षण के लिए ब्लड वाले फ्रेम की उचित मात्रा वाले एक उपयुक्त डेटासेट का उपयोग किया जाना चाहिए। इन सुधारों को करना एक बेहतर सिस्टम बनाने की दिशा में पहला कदम होना चाहिए। भविष्य के काम के लिए एक और दिशा इस सिस्टम को अनुकूलित करना और विभिन्न अनुप्रयोगों के लिए अलग-अलग टूल विकसित करना होगा। उदाहरण के लिए, (i) एक ऐसा टूल विकसित किया जा सकता है जो किसी दिए गए इनपुट वीडियो से हिंसा वाले वीडियो सेगमेंट को निकाल सकता है। यह वीडियो टैगिंग में मददगार हो सकता है। (ii) पैरेंटल कंट्रोल के लिए एक समान टूल विकसित किया जा सकता है, जहां सिस्टम का उपयोग मूवी में हिंसक सामग्री की मात्रा के आधार पर मूवी को रेट करने के लिए किया जा सकता है। भविष्य में काम करने के लिए एक और संभावित दिशा है, सिस्टम की गति में सुधार करना ताकि इसका इस्तेमाल सुरक्षा कैमरों के वीडियो फ़ीड से हिंसा का वास्तविक समय में पता लगाने में किया जा सके। ऐसी प्रणाली विकसित करने के लिए आवश्यक सुधार तुच्छ नहीं होंगे।