लेखक:
(1) रुई काओ, सिंगापुर प्रबंधन विश्वविद्यालय;
(2) मिंग शान ही, सिंगापुर यूनिवर्सिटी ऑफ डिजाइन एंड टेक्नोलॉजी;
(3) एड्रिएल कुएक, डीएसओ नेशनल लेबोरेटरीज;
(4) वेन-हॉ चोंग, सिंगापुर मैनेजमेंट यूनिवर्सिटी;
(5) रॉय का-वेई ली, सिंगापुर यूनिवर्सिटी ऑफ डिजाइन एंड टेक्नोलॉजी
(6) जिंग जियांग, सिंगापुर मैनेजमेंट यूनिवर्सिटी।
घृणित मेम का पता लगाना एक चुनौतीपूर्ण मल्टीमॉडल कार्य है जिसके लिए दृष्टि और भाषा दोनों की समझ के साथ-साथ क्रॉस-मोडल इंटरैक्शन की आवश्यकता होती है। हाल के अध्ययनों ने इस कार्य के लिए पूर्व-प्रशिक्षित दृष्टि-भाषा मॉडल (PVLM) को ठीक करने की कोशिश की है। हालाँकि, मॉडल के आकार में वृद्धि के साथ, शक्तिशाली PVLM को अधिक कुशलता से लाभ उठाना महत्वपूर्ण हो जाता है, बजाय उन्हें केवल ठीक करने के। हाल ही में, शोधकर्ताओं ने मेम छवियों को पाठ्य कैप्शन में बदलने और भविष्यवाणियों के लिए भाषा मॉडल को संकेत देने का प्रयास किया है। इस दृष्टिकोण ने अच्छा प्रदर्शन दिखाया है, लेकिन गैर-सूचनात्मक छवि कैप्शन से ग्रस्त है। ऊपर वर्णित दो कारकों को ध्यान में रखते हुए, हम शून्य-शॉट दृश्य प्रश्न उत्तर (VQA) तरीके से PVLM का लाभ उठाने के लिए एक जांच-आधारित कैप्शनिंग दृष्टिकोण का प्रस्ताव करते हैं। विशेष रूप से, हम घृणित सामग्री से संबंधित प्रश्न पूछकर एक जमे हुए PVLM को संकेत देते हैं और उत्तरों को छवि कैप्शन (जिसे हम प्रो-कैप कहते हैं) के रूप में उपयोग करते हैं, ताकि कैप्शन में घृणित सामग्री का पता लगाने के लिए महत्वपूर्ण जानकारी हो। तीन बेंचमार्क पर प्रो-कैप वाले मॉडल का अच्छा प्रदर्शन प्रस्तावित विधि की प्रभावशीलता और सामान्यीकरण को मान्य करता है।[1]
• कंप्यूटिंग पद्धतियाँ → प्राकृतिक भाषा प्रसंस्करण; कंप्यूटर विज़न अभ्यावेदन।
मेम्स, मल्टीमॉडल, सिमेंटिक एक्सट्रैक्शन
रुई काओ, मिंग शान ही, एड्रिएल कुएक, वेन-हॉ चोंग, रॉय का-वेई ली और जिंग जियांग। 2023. प्रो कैप: हेटफुल मीम डिटेक्शन के लिए फ्रोजन विजन-लैंग्वेज मॉडल का लाभ उठाना। 31वें ACM इंटरनेशनल कॉन्फ्रेंस ऑन मल्टीमीडिया (MM '23) की कार्यवाही में, 29 अक्टूबर-3 नवंबर, 2023, ओटावा, ON, कनाडा। ACM, न्यूयॉर्क, NY, USA, 11 पेज। https://doi.org/10.1145/3581783.3612498
अस्वीकरण: इस पेपर में हिंसा और भेदभावपूर्ण सामग्री है जो कुछ पाठकों को परेशान कर सकती है।
मीम्स, जो छवियों को छोटे टेक्स्ट के साथ जोड़ते हैं, ऑनलाइन सोशल मीडिया में संचार का एक लोकप्रिय रूप हैं। इंटरनेट मीम्स अक्सर हास्य या व्यंग्य व्यक्त करने के लिए बनाए जाते हैं। हालाँकि, ऑनलाइन प्लेटफ़ॉर्म पर घृणित सामग्री फैलाने के लिए उनका तेजी से शोषण किया जा रहा है। घृणित मीम्स जाति, लिंग या धर्म जैसी पहचान के आधार पर व्यक्तियों या समुदायों पर हमला करते हैं [5, 8, 12, 27]। घृणित मीम्स के प्रचार से ऑनलाइन कलह हो सकती है और संभावित रूप से घृणा अपराधों का परिणाम हो सकता है। इसलिए, सटीक घृणित मीम पहचान विधियों को विकसित करना अत्यावश्यक है।
मेम की बहुआयामी प्रकृति के कारण घृणित मेम का पता लगाने का कार्य चुनौतीपूर्ण है। पता लगाने में न केवल छवियों और पाठ दोनों को समझना शामिल है, बल्कि यह भी समझना है कि ये दोनों तौर-तरीके कैसे परस्पर क्रिया करते हैं। पिछला काम [14, 28, 35, 36] घृणित मेम पहचान डेटासेट का उपयोग करके स्क्रैच से क्रॉस-मोडल इंटरैक्शन सीखता है। हालांकि, इन डेटासेट से उपलब्ध सीमित मात्रा में डेटा के साथ मॉडल के लिए जटिल मल्टीमॉडल इंटरैक्शन सीखना मुश्किल हो सकता है। VisualBERT [18] और ViLBERT [23] जैसे प्रीट्रेन्ड विज़न-लैंग्वेज मॉडल (PVLM) के विकास के साथ, हालिया काम घृणित मेम पहचान कार्य को सुविधाजनक बनाने के लिए इन शक्तिशाली PVLM का लाभ उठाते हैं। एक सामान्य तरीका कार्य-विशिष्ट डेटा के साथ PVLM को ठीक करना है [9, 20, 26, 34, 37]। हालाँकि, मीम डिटेक्शन पर BLIP-2 [15] और फ्लेमिंगो [1] जैसे बड़े मॉडल को फ़ाइन-ट्यून करना कम संभव है क्योंकि इसमें अरबों प्रशिक्षित पैरामीटर हैं। इसलिए, घृणित मीम का पता लगाने में सुविधा के लिए बड़े PVLM का लाभ उठाने के लिए प्रत्यक्ष फ़ाइन-ट्यूनिंग के अलावा कम्प्यूटेशनल रूप से व्यवहार्य समाधानों की आवश्यकता है।
पीवीएलएम का उपयोग करते हुए उपरोक्त दृष्टिकोण से अलग, प्रॉम्प्टहेट[2] एक हाल ही में प्रस्तावित मॉडल है जो मल्टीमॉडल मीम डिटेक्शन टास्क को यूनिमॉडल मास्क्ड लैंग्वेज मॉडलिंग टास्क में परिवर्तित करता है। यह सबसे पहले एक ऑफ-द-शेल्फ इमेज कैप्शन जनरेटर, क्लिपकैप [25] के साथ मीम इमेज कैप्शन तैयार करता है। सभी इनपुट सूचनाओं को टेक्स्ट में परिवर्तित करके, यह भाषा मॉडल में समृद्ध पृष्ठभूमि ज्ञान का लाभ उठाकर इनपुट घृणित है या नहीं, इसका अनुमान लगाने के लिए दो प्रदर्शनकारी उदाहरणों के साथ एक पूर्व-प्रशिक्षित भाषा मॉडल को संकेत दे सकता है। हालांकि प्रॉम्प्टहेट अत्याधुनिक प्रदर्शन को प्राप्त करता है, यह इमेज कैप्शन की गुणवत्ता से काफी प्रभावित होता है, जैसा कि तालिका 1 में दिखाया गया है। इमेज कैप्शन जो केवल इमेज का सामान्य विवरण हैं, वे महत्वपूर्ण विवरणों को छोड़ सकते हैं [14, 37], लेकिन अतिरिक्त छवि टैग के साथ, जैसे कि छवियों में पाए जाने वाले निकाय और छवियों में लोगों के बारे में जनसांख्यिकीय जानकारी, उसी मॉडल को काफी हद तक बेहतर बनाया जा सकता है, जैसा कि तालिका 1 में दिखाया गया है। हालाँकि, इन अतिरिक्त छवि टैग को बनाना श्रमसाध्य और महंगा है। उदाहरण के लिए, इकाई निष्कर्षण आमतौर पर Google विज़न वेब एंटिटी डिटेक्शन API [2] के साथ किया जाता है, जो एक सशुल्क सेवा है। आदर्श रूप से, हम छवियों से इकाई और जनसांख्यिकीय जानकारी प्राप्त करने का एक अधिक किफायती तरीका खोजना चाहेंगे जो घृणित सामग्री का पता लगाने के लिए महत्वपूर्ण है।
उपर्युक्त दोनों तरीकों (यानी, एक पीवीएलएम का उपयोग करना और दूसरा कार्य को यूनिमॉडल कार्य में परिवर्तित करना) के अपने फायदे और नुकसान हैं। इस पत्र में, हम इन दो तरीकों के विचारों को जोड़ते हैं और एक घृणित मेम का पता लगाने की विधि तैयार करते हैं जो प्रॉम्प्टहेट के यूनिमॉडल दृष्टिकोण को पूरक करने के लिए एक जमे हुए पीवीएलएम की शक्ति का लाभ उठाता है। विशेष रूप से, हम घृणित सामग्री में आम कमजोर लक्ष्यों से संबंधित जानकारी के लिए एक पीवीएलएम (हमारे प्रयोगों में BLIP-2 [15]) से पूछताछ करने के लिए "जांच" प्रश्नों के एक सेट का उपयोग करते हैं। जांच वाले प्रश्नों से प्राप्त उत्तरों को छवि कैप्शन (प्रो-कैप के रूप में दर्शाया गया) के रूप में माना जाएगा और एक प्रशिक्षित घृणित मेम पहचान मॉडल के इनपुट के रूप में उपयोग किया जाएगा। चित्र 1 विधि के समग्र वर्कफ़्लो को दर्शाता है।
हमारा प्रस्तावित तरीका मौजूदा शोध अंतराल को भरता है: 1) किसी भी अनुकूलन या फाइन-ट्यूनिंग के बिना पीवीएलएम का लाभ उठाएं, जिससे कम्प्यूटेशनल लागत कम हो; 2) महंगे एपीआई के साथ अतिरिक्त छवि टैग को स्पष्ट रूप से प्राप्त करने के बजाय, हम जमे हुए पीवीएलएम का उपयोग कैप्शन बनाने के लिए करते हैं जिसमें घृणित मेम का पता लगाने के लिए उपयोगी जानकारी होती है। हमारे सर्वोत्तम ज्ञान के अनुसार, यह पहला काम है जो घृणित मेम का पता लगाने के कार्य में सहायता के लिए प्रश्न उत्तर के माध्यम से शून्य-शॉट तरीके से पीवीएलएम का लाभ उठाता है। हमारी विधि को और अधिक मान्य करने के लिए, हम प्रोम्प्टहेट [2] और एक बर्ट-आधारित [4] घृणित मेम पहचान मॉडल दोनों पर उत्पन्न प्रो-कैप के प्रभाव का परीक्षण करते हैं।
प्रायोगिक परिणामों के आधार पर, हम देखते हैं कि प्रो-कैप के साथ प्रॉम्प्टहेट (प्रो-कैपप्रॉम्प्टहेट के रूप में चिह्नित) अतिरिक्त छवि टैग के बिना मूल प्रॉम्प्टहेट को महत्वपूर्ण रूप से पार करता है (यानी, एफएचएम [12], एमएएमआई [5], और हार्म [28] पर क्रमशः पूर्ण प्रदर्शन सुधार के लगभग 4, 6, और 3 प्रतिशत अंक)। प्रोकैपप्रॉम्प्टहेट अतिरिक्त छवि टैग के साथ प्रॉम्प्टहेट के साथ तुलनीय परिणाम भी प्राप्त करता है, यह दर्शाता है कि जांच-आधारित कैप्शनिंग छवि संस्थाओं या जनसांख्यिकीय जानकारी प्राप्त करने का एक अधिक किफायती तरीका हो सकता है। केस स्टडीज आगे दिखाती हैं कि प्रो-कैप घृणित सामग्री का पता लगाने के लिए आवश्यक छवि विवरण प्रदान करता है, जो कुछ हद तक मॉडल की व्याख्या को बढ़ाता है।
[1] कोड यहां उपलब्ध है: https://github.com/Social-AI-Studio/Pro-Cap
[2] https://cloud.google.com/vision/docs/detecting-web
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।