लेखक:
(1) प्रवीण तिरुपत्तूर, सेंट्रल फ्लोरिडा विश्वविद्यालय।
हिंसा का पता लगाना गतिविधि पहचान का एक उप-कार्य है, जहाँ वीडियो से हिंसक गतिविधियों का पता लगाया जाता है। इसे मल्टीमीडिया इवेंट डिटेक्शन के रूप में भी माना जा सकता है। इस समस्या को हल करने के लिए कुछ दृष्टिकोण पहले ही प्रस्तावित किए जा चुके हैं। इन प्रस्तावित दृष्टिकोणों को तीन श्रेणियों में वर्गीकृत किया जा सकता है: (i) दृष्टिकोण जिसमें केवल दृश्य विशेषताओं का उपयोग किया जाता है। (ii) दृष्टिकोण जिसमें केवल ऑडियो विशेषताओं का उपयोग किया जाता है। (iii) दृष्टिकोण जिसमें ऑडियो और विज़ुअल दोनों विशेषताओं का उपयोग किया जाता है। यहाँ रुचि की श्रेणी तीसरी है, जहाँ वीडियो और ऑडियो दोनों का उपयोग किया जाता है। यह अध्याय इनमें से प्रत्येक श्रेणी से संबंधित कुछ पिछले दृष्टिकोणों का अवलोकन प्रदान करता है।
ऑडियो और विज़ुअल संकेतों का उपयोग करके हिंसा का पता लगाने का प्रारंभिक प्रयास नाम एट अल [41] द्वारा किया गया है। उनके काम में, हिंसक दृश्यों का पता लगाने और वीडियो की सामग्री-आधारित खोज की अनुमति देने के लिए इंडेक्स बनाने के लिए ऑडियो और विज़ुअल दोनों सुविधाओं का उपयोग किया जाता है। यहाँ, प्रत्येक शॉट के लिए स्थानिक-लौकिक गतिशील गतिविधि हस्ताक्षर निकाला जाता है ताकि इसे हिंसक या अहिंसक के रूप में वर्गीकृत किया जा सके। यह स्थानिक-लौकिक गतिशील गतिविधि विशेषता शॉट में मौजूद गतिशील गति की मात्रा पर आधारित है।
शॉट में फ़्रेम के बीच जितनी ज़्यादा स्थानिक गति होती है, फ़ीचर उतना ही महत्वपूर्ण होता है। इस दृष्टिकोण के पीछे तर्क यह है कि ज़्यादातर एक्शन दृश्यों में लोगों या वस्तुओं की तेज़ और महत्वपूर्ण मात्रा में गति शामिल होती है। किसी शॉट के लिए स्थानिक-कालिक गतिविधि फ़ीचर की गणना करने के लिए, शॉट से गति अनुक्रम प्राप्त किए जाते हैं और शॉट की लंबाई के अनुसार सामान्यीकृत किए जाते हैं ताकि यह सुनिश्चित किया जा सके कि केवल कम लंबाई वाले और फ़्रेम के बीच उच्च स्थानिक गति वाले शॉट्स में ही गतिविधि फ़ीचर का उच्च मूल्य हो।
इसके अलावा, गोलियों या विस्फोटों से आग की लपटों का पता लगाने के लिए, फ़्रेम के बीच पिक्सेल के तीव्रता मूल्यों में अचानक बदलाव की जाँच की जाती है। कैमरे की फ्लैशलाइट के कारण तीव्रता में बदलाव जैसे झूठे सकारात्मक परिणामों को खत्म करने के लिए, पीले, नारंगी और लाल जैसे लौ के रंगों के करीब रंग मूल्यों वाली एक पूर्व-निर्धारित रंग तालिका का उपयोग किया जाता है। इसी तरह खून का पता लगाने के लिए, जो कि अधिकांश हिंसक दृश्यों में आम है, एक फ्रेम के भीतर पिक्सेल रंगों का मिलान खून जैसे रंगों वाली एक पूर्व-निर्धारित रंग तालिका से किया जाता है। हिंसा का प्रभावी ढंग से पता लगाने के लिए ये दृश्य विशेषताएँ अपने आप में पर्याप्त नहीं हैं। इसलिए, ऑडियो विशेषताओं पर भी विचार किया जाता है।
ऑडियो सिग्नल के ऊर्जा स्तर में अचानक परिवर्तन को ऑडियो संकेत के रूप में उपयोग किया जाता है। प्रत्येक फ्रेम के लिए ऊर्जा एन्ट्रॉपी की गणना की जाती है और इस मूल्य में अचानक परिवर्तन का उपयोग विस्फोट या बंदूक की गोली जैसी हिंसक घटनाओं की पहचान करने के लिए किया जाता है। उच्च सटीकता के साथ हिंसा वाले शॉट्स प्राप्त करने के लिए ऑडियो और विज़ुअल संकेतों को समय के साथ सिंक्रनाइज़ किया जाता है। इस पेपर का एक मुख्य योगदान हिंसा का पता लगाने के लिए ऑडियो और विज़ुअल दोनों संकेतों की आवश्यकता को उजागर करना है।
गोंग एट अल [27] ने भी फिल्मों में हिंसा का पता लगाने के लिए दृश्य और श्रव्य दोनों संकेतों का इस्तेमाल किया। हिंसा का पता लगाने के लिए तीन चरण का दृष्टिकोण वर्णित किया गया है। पहले चरण में, वीडियो में प्रत्येक शॉट के लिए निम्न-स्तरीय दृश्य और श्रवण विशेषताएं निकाली जाती हैं। इन विशेषताओं का उपयोग संभावित हिंसक सामग्री वाले उम्मीदवार शॉट्स का पता लगाने के लिए एक क्लासिफायर को प्रशिक्षित करने के लिए किया जाता है। अगले चरण में, उम्मीदवार शॉट्स का पता लगाने के लिए उच्च-स्तरीय ऑडियो प्रभावों का उपयोग किया जाता है। इस चरण में, उच्च-स्तरीय ऑडियो प्रभावों का पता लगाने के लिए, SVM क्लासिफायर को ऑडियो प्रभाव की प्रत्येक श्रेणी के लिए पावर स्पेक्ट्रम, पिच, MFCC (मेल-फ़्रीक्वेंसी सेप्स्ट्रल गुणांक) और हार्मोनिकिटी प्रमुखता (कै एट अल [7]) जैसी निम्न-स्तरीय ऑडियो विशेषताओं का उपयोग करके प्रशिक्षित किया जाता है। अंतिम चरण में, पहले दो चरणों के संभाव्य आउटपुट को बूस्टिंग का उपयोग करके संयोजित किया जाता है और एक शॉट के लिए अंतिम हिंसा स्कोर की गणना पहले दो चरणों के स्कोर के भारित योग के रूप में की जाती है।
इन भारों की गणना एक सत्यापन डेटासेट का उपयोग करके की जाती है और इनसे औसत परिशुद्धता को अधिकतम करने की उम्मीद की जाती है। गोंग एट अल। [२७] का काम केवल उन फिल्मों में हिंसा का पता लगाने पर केंद्रित है जहां सार्वभौमिक फिल्म निर्माण नियमों का पालन किया जाता है। उदाहरण के लिए, एक्शन दृश्यों के दौरान तेज गति की आवाज। हिंसक सामग्री की पहचान विस्फोटों और गोलियों जैसी हिंसा से जुड़े तेज गति वाले दृश्यों और ऑडियो घटनाओं का पता लगाकर की जाती है। इस्तेमाल किए गए प्रशिक्षण और परीक्षण के आंकड़े चार हॉलीवुड एक्शन फिल्मों के संग्रह से हैं जिनमें कई हिंसक दृश्य हैं। भले ही इस दृष्टिकोण ने अच्छे परिणाम दिए हों, लेकिन यह ध्यान दिया जाना चाहिए कि यह केवल उन फिल्मों में हिंसा का पता लगाने के लिए अनुकूलित है जो कुछ फिल्म निर्माण नियमों का पालन करती हैं और यह उन वीडियो के साथ काम नहीं करेगा जो उपयोगकर्ताओं द्वारा फेसबुक, यूट्यूब आदि जैसी वेबसाइटों पर अपलोड किए जाते हैं।
लिन और वांग [38] के काम में, एक वीडियो अनुक्रम शॉट्स में विभाजित किया गया है और प्रत्येक शॉट के लिए इसमें ऑडियो और वीडियो दोनों विशेषताओं को हिंसक या अहिंसक के रूप में वर्गीकृत किया गया है और आउटपुट को सह-प्रशिक्षण का उपयोग करके संयोजित किया गया है। ऑडियो सेगमेंट से हिंसा का पता लगाने के लिए एक संशोधित पीएलएसए एल्गोरिदम (हॉफमैन [30]) का उपयोग किया जाता है। ऑडियो सेगमेंट को एक-एक सेकंड के ऑडियो क्लिप में विभाजित किया गया है और इसे एक फीचर वेक्टर द्वारा दर्शाया गया है जिसमें पावर स्पेक्ट्रम, एमएफसीसी, पिच, जीरो क्रॉस रेट (जेडसीआर) अनुपात और हार्मोनिकिटी प्रमुखता (कैई एट अल। [7]) जैसी निम्न-स्तरीय विशेषताएं शामिल हैं। इन वैक्टरों को क्लस्टर केंद्र प्राप्त करने के लिए क्लस्टर किया जाता है जो एक ऑडियो शब्दावली को दर्शाते हैं। फिर, प्रत्येक ऑडियो सेगमेंट को इस शब्दावली का उपयोग करके ऑडियो दस्तावेज़ के रूप में दर्शाया जाता गति तीव्रता का उपयोग तेज गति वाले क्षेत्रों का पता लगाने और प्रत्येक फ्रेम के लिए गति विशेषताओं को निकालने के लिए किया जाता है, जिसका उपयोग तब फ्रेम को हिंसक या अहिंसक के रूप में वर्गीकृत करने के लिए किया जाता है। रंग मॉडल और गति मॉडल का उपयोग फ्रेम में लौ और विस्फोटों का पता लगाने और उन्हें वर्गीकृत करने के लिए किया जाता है। इसी तरह, रंग मॉडल और गति तीव्रता का उपयोग रक्त वाले क्षेत्र का पता लगाने के लिए किया जाता है और यदि यह फ्रेम के लिए पूर्व-निर्धारित मूल्य से अधिक है, तो इसे हिंसक के रूप में वर्गीकृत किया जाता है। वीडियो सेगमेंट के लिए अंतिम हिंसा स्कोर ऊपर बताए गए तीन व्यक्तिगत स्कोर के भारित योग द्वारा प्राप्त किया जाता है। यहाँ उपयोग की गई विशेषताएँ वही हैं जो नाम एट अल द्वारा उपयोग की गई हैं। [४१]। वीडियो और ऑडियो स्ट्रीम से वर्गीकरण स्कोर को संयोजित करने के लिए, सह-प्रशिक्षण का उपयोग किया जाता है। प्रशिक्षण और परीक्षण के लिए, पाँच हॉलीवुड फिल्मों से युक्त एक डेटासेट का उपयोग किया जाता है और हिंसक दृश्यों का पता लगाने में लगभग 0.85 की सटीकता और लगभग 0.90 की याददाश्त प्राप्त की जाती है। यहाँ तक कि यह कार्य केवल फिल्मों में हिंसा का पता लगाने को लक्षित करता है, लेकिन वेब पर उपलब्ध वीडियो में नहीं। लेकिन परिणाम बताते हैं कि दृश्य विशेषताएँ जैसे गति और रक्त हिंसा का पता लगाने के लिए बहुत महत्वपूर्ण हैं।
अब तक बताए गए सभी तरीके ऑडियो और विज़ुअल संकेतों का इस्तेमाल करते हैं, लेकिन कुछ ऐसे भी हैं जो हिंसा का पता लगाने के लिए वीडियो या ऑडियो का इस्तेमाल करते हैं और कुछ ऐसे भी हैं जो केवल एक खास तरह की हिंसा जैसे कि हाथापाई का पता लगाने की कोशिश करते हैं। इन तरीकों का संक्षिप्त विवरण आगे प्रस्तुत किया गया है।
वीडियो में अर्थ संबंधी संदर्भ का पता लगाने के लिए अकेले ऑडियो का उपयोग करने वाले एकमात्र कार्यों में से एक चेंग एट अल [११] द्वारा किया गया है, जहां गॉसियन मिश्रण मॉडल और हिडन मार्कोव मॉडल पर आधारित एक पदानुक्रमित दृष्टिकोण का उपयोग गोलियों की आवाज, विस्फोट और कार-ब्रेकिंग को पहचानने के लिए किया जाता है। दत्ता एट अल [१४] ने वीडियो में व्यक्ति-पर-व्यक्ति हिंसा का पता लगाने की कोशिश की, जिसमें केवल हाथापाई, लात मारना, वस्तुओं से मारना आदि शामिल हैं, दृश्य स्तर के बजाय वस्तु स्तर पर हिंसा का विश्लेषण करके जैसा कि अधिकांश दृष्टिकोण करते हैं। यहां, एक दृश्य में चलती वस्तुओं का पता लगाया जाता है और एक व्यक्ति मॉडल का उपयोग केवल उन वस्तुओं का पता लगाने के लिए किया जाता है जो व्यक्तियों का प्रतिनिधित्व करती हैं। इससे, व्यक्ति के अंगों की गति प्रक्षेपवक्र और अभिविन्यास जानकारी का उपयोग व्यक्ति-पर-व्यक्ति झगड़े का पता लगाने के लिए किया जाता है।
क्लेरिन एट अल [12] ने मोशन पिक्चर्स में हिंसा का पता लगाने के लिए DOVE नाम की एक स्वचालित प्रणाली विकसित की है। यहां, हिंसक दृश्यों का पता लगाने के लिए अकेले खून का इस्तेमाल किया जाता है। सिस्टम प्रत्येक दृश्य से मुख्य फ़्रेम निकालता है और उन्हें लेबल के साथ पिक्सेल को लेबल करने के लिए एक प्रशिक्षित सेल्फ-ऑर्गनाइजिंग मैप पर भेजता है: त्वचा, रक्त या नॉनस्किन/नॉनब्लड। लेबल किए गए पिक्सल को फिर जुड़े घटकों के माध्यम से एक साथ समूहीकृत किया जाता है और संभावित हिंसा के लिए देखा जाता है। यदि त्वचा और रक्त घटकों वाले पिक्सेल क्षेत्रों में बहुत बड़ा परिवर्तन होता है, तो दृश्य को हिंसक माना जाता है। लड़ाई का पता लगाने पर एक अन्य काम नीवास एट अल [42] द्वारा किया गया है जिसमें बैग-ऑफ-वर्ड्स फ्रेमवर्क का उपयोग एक्शन डिस्क्रिप्टर स्पेस-टाइम इंटरेस्ट पॉइंट्स (एसटीआईपी - लैप्टेव [37]) और मोशन स्केल प्रत्येक समूह में 500 वीडियो हैं और प्रत्येक वीडियो की अवधि एक सेकंड है। इस डेटासेट के साथ प्रयोग करने से एक्शन फिल्मों की लड़ाइयों वाले डेटासेट पर 90% सटीकता प्राप्त हुई है।
डेनिज़ एट अल [21] ने मुख्य विशेषता के रूप में अत्यधिक त्वरण पैटर्न का उपयोग करके वीडियो में हिंसा का पता लगाने के लिए एक नई विधि प्रस्तावित की है। यह विधि अत्याधुनिक एक्शन पहचान प्रणालियों की तुलना में 15 गुना तेज है और झगड़े वाले दृश्यों का पता लगाने में भी इसकी सटीकता बहुत अधिक है। यह दृष्टिकोण वास्तविक समय की हिंसा का पता लगाने वाली प्रणालियों में बहुत उपयोगी है, जहां न केवल सटीकता बल्कि गति भी मायने रखती है। यह दृष्टिकोण अचानक गति का पता लगाने के लिए दो लगातार फ़्रेमों के पावर स्पेक्ट्रम की तुलना करता है और गति की मात्रा के आधार पर, एक दृश्य को हिंसक या अहिंसक के रूप में वर्गीकृत किया जाता है। यह विधि गति का पता लगाने के लिए फीचर ट्रैकिंग का उपयोग नहीं करती है, जो इसे धुंधला होने से बचाती है। हस्नर एट अल [28] ने भीड़ भरे दृश्यों में हिंसा का वास्तविक समय में पता लगाने के लिए एक दृष्टिकोण पेश किया चूंकि यह विधि केवल फ़्रेमों के बीच प्रवाह जानकारी का उपयोग करती है और उच्च-स्तरीय आकार और गति विश्लेषण को छोड़ देती है, इसलिए यह वास्तविक समय में काम करने में सक्षम है। इस काम के लिए, लेखकों ने यूट्यूब से हिंसक भीड़ के व्यवहार वाले वीडियो डाउनलोड करके अपना खुद का डेटासेट बनाया।
ये सभी कार्य वीडियो से हिंसा का पता लगाने के लिए अलग-अलग तरीकों का उपयोग करते हैं और ये सभी प्रशिक्षण और परीक्षण के लिए अपने स्वयं के डेटासेट का उपयोग करते हैं। उन सभी के पास हिंसा की अपनी परिभाषा है। यह हिंसा का पता लगाने के लिए एक बड़ी समस्या को दर्शाता है, जो कि स्वतंत्र आधारभूत डेटासेट और हिंसा की एक सामान्य परिभाषा की कमी है, जिसके बिना विभिन्न तरीकों के बीच तुलना निरर्थक है।
इस समस्या को हल करने के लिए, डेमार्टी एट अल. [16] ने मल्टीमीडिया बेंचमार्किंग पहल मीडियाएवल-2011 [1] के हिस्से के रूप में फिल्मों में हिंसा के खंडों का स्वत: पता लगाने के लिए एक बेंचमार्क प्रस्तुत किया। यह बेंचमार्क बहुत उपयोगी है क्योंकि यह हिंसा और मूल्यांकन प्रोटोकॉल और मेट्रिक्स की एक सामान्य परिभाषा के साथ एक सुसंगत और पर्याप्त डेटासेट प्रदान करता है। प्रदान किए गए डेटासेट के विवरण पर अनुभाग 4.1 में विस्तार से चर्चा की गई है। वीडियो में हिंसा की पहचान पर हाल के कार्यों ने इस डेटासेट का उपयोग किया है और उनमें से कुछ के बारे में विवरण आगे दिए गए हैं।
अकार एट अल. [1] ने एक दृष्टिकोण प्रस्तावित किया है जो फिल्मों में हिंसा का पता लगाने के लिए एक-क्लास और दो-क्लास एसवीएम का उपयोग करके पर्यवेक्षित तरीके से दृश्य और ऑडियो सुविधाओं को मिलाता है। फिल्मों के वीडियो शॉट्स से निम्न-स्तरीय दृश्य और ऑडियो सुविधाएँ निकाली जाती हैं और फिर एसवीएम को प्रशिक्षित करने के लिए प्रारंभिक संलयन तरीके से संयोजित की जाती हैं। ऑडियो सामग्री का वर्णन करने के लिए MFCC सुविधाएँ निकाली जाती हैं और दृश्य सामग्री के लिए SIFT (स्केल-इनवेरिएंट फ़ीचर ट्रांसफ़ॉर्म - लोवे [39]) आधारित बैग-ऑफ़-वर्ड्स दृष्टिकोण का उपयोग किया जाता है।
जियांग एट अल. [33] ने स्थानीय पैच ट्रैजेक्टरी (जियांग एट अल. [34]) की उपस्थिति और गति से प्राप्त सुविधाओं के एक सेट के आधार पर हिंसा का पता लगाने के लिए एक विधि प्रस्तावित की। इन पैच ट्रैजेक्टरी के साथ, SIFT, STIP और MFCC जैसी अन्य विशेषताओं को निकाला जाता है और हिंसा की विभिन्न श्रेणियों का पता लगाने के लिए SVM क्लासिफायर को प्रशिक्षित करने के लिए उपयोग किया जाता है। सटीकता बढ़ाने के लिए स्कोर और फीचर स्मूथिंग का प्रदर्शन किया जाता है।
लैम एट अल. [36] ने मीडियाइवल द्वारा प्रदान किए गए डेटासेट और मूल्यांकन प्रोटोकॉल का उपयोग करके हिंसक दृश्य का पता लगाने के कार्य के लिए निम्न-स्तरीय ऑडियो/विज़ुअल सुविधाओं के प्रदर्शन का मूल्यांकन किया। इस कार्य में गति और एमएफसीसी ऑडियो सुविधाओं के साथ-साथ स्थानीय और वैश्विक दृश्य सुविधाओं दोनों का उपयोग किया जाता है। इन सभी सुविधाओं को एक शॉट में प्रत्येक कीफ़्रेम के लिए निकाला जाता है और उस शॉट के लिए एकल फीचर वेक्टर बनाने के लिए पूल किया जाता है। इस फीचर वेक्टर के आधार पर शॉट्स को हिंसक या अहिंसक के रूप में वर्गीकृत करने के लिए एक एसवीएम क्लासिफायर को प्रशिक्षित किया जाता है। आइबेन एट अल. [23] ने हिंसा का पता लगाने के लिए ऑडियोविज़ुअल वर्गीकरण के साथ बड़े पैमाने पर सेगमेंटल फीचर निष्कर्षण लागू किया। ऑडियो फीचर निष्कर्षण ओपन-सोर्स फीचर निष्कर्षण टूलकिट ओपनस्माइल वर्गीकरण के लिए रैखिक एसवीएम क्लासिफायर का उपयोग किया जाता है और संलयन के लिए सरल स्कोर औसत का उपयोग किया जाता है।
संक्षेप में, ऊपर वर्णित लगभग सभी विधियाँ केवल एक जोड़े की अपेक्षा के साथ विभिन्न ऑडियो और विज़ुअल सुविधाओं का उपयोग करके फिल्मों में हिंसा का पता लगाने की कोशिश करती हैं [नीवास एट अल। [४२], हस्नर एट अल। [२८]], जो निगरानी कैमरों या अन्य वास्तविक समय के वीडियो सिस्टम से वीडियो डेटा का उपयोग करते हैं। यह भी देखा जा सकता है कि ये सभी कार्य एक ही डेटासेट का उपयोग नहीं करते हैं और प्रत्येक की हिंसा की अपनी परिभाषा है। 2011 में हिंसक दृश्य पहचान (वीएसडी) के लिए मीडियाएवल डेटासेट की शुरूआत ने इस समस्या को हल कर दिया है। डेटासेट का हालिया संस्करण, VSD2014 में हॉलीवुड फिल्मों के अलावा यूट्यूब की वीडियो सामग्री भी शामिल है और शोधकर्ताओं को उपयोगकर्ता-जनित वीडियो सामग्री पर अपने दृष्टिकोण का परीक्षण करने के लिए प्रोत्साहित करता है।
अध्याय 3 में प्रस्तुत प्रस्तावित दृष्टिकोण हिंसा का पता लगाने पर पहले किए गए कार्यों से प्रेरित है, जिसकी चर्चा अध्याय 2 में की गई है। प्रस्तावित दृष्टिकोण में, हिंसा का पता लगाने के लिए ऑडियो और विज़ुअल दोनों संकेतों का उपयोग किया जाता है। ऑडियो सामग्री का वर्णन करने के लिए MFCC सुविधाओं का उपयोग किया जाता है और वीडियो सामग्री का वर्णन करने के लिए रक्त, गति और सेंटीबैंक सुविधाओं का उपयोग किया जाता है। इनमें से प्रत्येक विशेषता को वर्गीकृत करने के लिए SVM क्लासिफायर का उपयोग किया जाता है और क्लासिफायर स्कोर को फ़्यूज़ करने के लिए लेट फ़्यूज़न लागू किया जाता है।
भले ही यह दृष्टिकोण हिंसा का पता लगाने के पहले के कार्यों पर आधारित है, लेकिन इसका महत्वपूर्ण योगदान इस प्रकार है: (i) हिंसा की विभिन्न श्रेणियों का पता लगाना। हिंसा का पता लगाने के पहले के कार्यों में केवल एक वीडियो में हिंसा की उपस्थिति का पता लगाने पर ध्यान केंद्रित किया गया था। यह प्रस्तावित दृष्टिकोण इस समस्या से निपटने वाले पहले तरीकों में से एक है। (ii) वीडियो की दृश्य सामग्री का वर्णन करने के लिए सेंटीबैंक सुविधा का उपयोग। सेंटीबैंक एक दृश्य सुविधा है जिसका उपयोग किसी छवि में भावनाओं का वर्णन करने के लिए किया जाता है। इस सुविधा का उपयोग पहले वीडियो में वयस्क सामग्री का पता लगाने के लिए किया गया था (शुल्ज़ एट अल। [५२])। इस काम में, इसका उपयोग पहली बार हिंसक सामग्री का पता लगाने के लिए किया गया है। (iii) रक्त का प्रतिनिधित्व करने वाले पिक्सेल का पता लगाने के लिए, वेब से छवियों का उपयोग करके उत्पन्न 3-आयामी रंग मॉडल का उपयोग। इस प्रस्तावित दृष्टिकोण का विस्तृत विवरण अगले अध्याय, अध्याय 3 में प्रस्तुत किया गया है।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
[1] http://www.multimediaeval.org