लेखक:  (1) रुई काओ, सिंगापुर प्रबंधन विश्वविद्यालय;  (2) मिंग शान ही, सिंगापुर यूनिवर्सिटी ऑफ डिजाइन एंड टेक्नोलॉजी;  (3) एड्रिएल कुएक, डीएसओ नेशनल लेबोरेटरीज;  (4) वेन-हॉ चोंग, सिंगापुर मैनेजमेंट यूनिवर्सिटी;  (5) रॉय का-वेई ली, सिंगापुर यूनिवर्सिटी ऑफ डिजाइन एंड टेक्नोलॉजी  (6) जिंग जियांग, सिंगापुर मैनेजमेंट यूनिवर्सिटी।  लिंक की तालिका   सार और परिचय   संबंधित कार्य   प्रारंभिक   प्रस्तावित विधि   प्रयोग   निष्कर्ष और संदर्भ   अनुबंध  अमूर्त  घृणित मेम का पता लगाना एक चुनौतीपूर्ण मल्टीमॉडल कार्य है जिसके लिए दृष्टि और भाषा दोनों की समझ के साथ-साथ क्रॉस-मोडल इंटरैक्शन की आवश्यकता होती है। हाल के अध्ययनों ने इस कार्य के लिए पूर्व-प्रशिक्षित दृष्टि-भाषा मॉडल (PVLM) को ठीक करने की कोशिश की है। हालाँकि, मॉडल के आकार में वृद्धि के साथ, शक्तिशाली PVLM को अधिक कुशलता से लाभ उठाना महत्वपूर्ण हो जाता है, बजाय उन्हें केवल ठीक करने के। हाल ही में, शोधकर्ताओं ने मेम छवियों को पाठ्य कैप्शन में बदलने और भविष्यवाणियों के लिए भाषा मॉडल को संकेत देने का प्रयास किया है। इस दृष्टिकोण ने अच्छा प्रदर्शन दिखाया है, लेकिन गैर-सूचनात्मक छवि कैप्शन से ग्रस्त है। ऊपर वर्णित दो कारकों को ध्यान में रखते हुए, हम शून्य-शॉट दृश्य प्रश्न उत्तर (VQA) तरीके से PVLM का लाभ उठाने के लिए एक जांच-आधारित कैप्शनिंग दृष्टिकोण का प्रस्ताव करते हैं। विशेष रूप से, हम घृणित सामग्री से संबंधित प्रश्न पूछकर एक जमे हुए PVLM को संकेत देते हैं और उत्तरों को छवि कैप्शन (जिसे हम प्रो-कैप कहते हैं) के रूप में उपयोग करते हैं, ताकि कैप्शन में घृणित सामग्री का पता लगाने के लिए महत्वपूर्ण जानकारी हो। तीन बेंचमार्क पर प्रो-कैप वाले मॉडल का अच्छा प्रदर्शन प्रस्तावित विधि की प्रभावशीलता और सामान्यीकरण को मान्य करता है।[1]  सीसीएस अवधारणाएं   • कंप्यूटिंग पद्धतियाँ → प्राकृतिक भाषा प्रसंस्करण; कंप्यूटर विज़न अभ्यावेदन।  कीवर्ड  मेम्स, मल्टीमॉडल, सिमेंटिक एक्सट्रैक्शन  ACM संदर्भ प्रारूप:  रुई काओ, मिंग शान ही, एड्रिएल कुएक, वेन-हॉ चोंग, रॉय का-वेई ली और जिंग जियांग। 2023. प्रो कैप: हेटफुल मीम डिटेक्शन के लिए फ्रोजन विजन-लैंग्वेज मॉडल का लाभ उठाना। 31वें ACM इंटरनेशनल कॉन्फ्रेंस ऑन मल्टीमीडिया (MM '23) की कार्यवाही में, 29 अक्टूबर-3 नवंबर, 2023, ओटावा, ON, कनाडा। ACM, न्यूयॉर्क, NY, USA, 11 पेज। https://doi.org/10.1145/3581783.3612498    अस्वीकरण: इस पेपर में हिंसा और भेदभावपूर्ण सामग्री है जो कुछ पाठकों को परेशान कर सकती है।  1 परिचय  मीम्स, जो छवियों को छोटे टेक्स्ट के साथ जोड़ते हैं, ऑनलाइन सोशल मीडिया में संचार का एक लोकप्रिय रूप हैं। इंटरनेट मीम्स अक्सर हास्य या व्यंग्य व्यक्त करने के लिए बनाए जाते हैं। हालाँकि, ऑनलाइन प्लेटफ़ॉर्म पर घृणित सामग्री फैलाने के लिए उनका तेजी से शोषण किया जा रहा है। घृणित मीम्स जाति, लिंग या धर्म जैसी पहचान के आधार पर व्यक्तियों या समुदायों पर हमला करते हैं [5, 8, 12, 27]। घृणित मीम्स के प्रचार से ऑनलाइन कलह हो सकती है और संभावित रूप से घृणा अपराधों का परिणाम हो सकता है। इसलिए, सटीक घृणित मीम पहचान विधियों को विकसित करना अत्यावश्यक है।  मेम की बहुआयामी प्रकृति के कारण घृणित मेम का पता लगाने का कार्य चुनौतीपूर्ण है। पता लगाने में न केवल छवियों और पाठ दोनों को समझना शामिल है, बल्कि यह भी समझना है कि ये दोनों तौर-तरीके कैसे परस्पर क्रिया करते हैं। पिछला काम [14, 28, 35, 36] घृणित मेम पहचान डेटासेट का उपयोग करके स्क्रैच से क्रॉस-मोडल इंटरैक्शन सीखता है। हालांकि, इन डेटासेट से उपलब्ध सीमित मात्रा में डेटा के साथ मॉडल के लिए जटिल मल्टीमॉडल इंटरैक्शन सीखना मुश्किल हो सकता है। VisualBERT [18] और ViLBERT [23] जैसे प्रीट्रेन्ड विज़न-लैंग्वेज मॉडल (PVLM) के विकास के साथ, हालिया काम घृणित मेम पहचान कार्य को सुविधाजनक बनाने के लिए इन शक्तिशाली PVLM का लाभ उठाते हैं। एक सामान्य तरीका कार्य-विशिष्ट डेटा के साथ PVLM को ठीक करना है [9, 20, 26, 34, 37]। हालाँकि, मीम डिटेक्शन पर BLIP-2 [15] और फ्लेमिंगो [1] जैसे बड़े मॉडल को फ़ाइन-ट्यून करना कम संभव है क्योंकि इसमें अरबों प्रशिक्षित पैरामीटर हैं। इसलिए, घृणित मीम का पता लगाने में सुविधा के लिए बड़े PVLM का लाभ उठाने के लिए प्रत्यक्ष फ़ाइन-ट्यूनिंग के अलावा कम्प्यूटेशनल रूप से व्यवहार्य समाधानों की आवश्यकता है।   पीवीएलएम का उपयोग करते हुए उपरोक्त दृष्टिकोण से अलग, प्रॉम्प्टहेट[2] एक हाल ही में प्रस्तावित मॉडल है जो मल्टीमॉडल मीम डिटेक्शन टास्क को यूनिमॉडल मास्क्ड लैंग्वेज मॉडलिंग टास्क में परिवर्तित करता है। यह सबसे पहले एक ऑफ-द-शेल्फ इमेज कैप्शन जनरेटर, क्लिपकैप [25] के साथ मीम इमेज कैप्शन तैयार करता है। सभी इनपुट सूचनाओं को टेक्स्ट में परिवर्तित करके, यह भाषा मॉडल में समृद्ध पृष्ठभूमि ज्ञान का लाभ उठाकर इनपुट घृणित है या नहीं, इसका अनुमान लगाने के लिए दो प्रदर्शनकारी उदाहरणों के साथ एक पूर्व-प्रशिक्षित भाषा मॉडल को संकेत दे सकता है। हालांकि प्रॉम्प्टहेट अत्याधुनिक प्रदर्शन को प्राप्त करता है, यह इमेज कैप्शन की गुणवत्ता से काफी प्रभावित होता है, जैसा कि तालिका 1 में दिखाया गया है। इमेज कैप्शन जो केवल इमेज का सामान्य विवरण हैं, वे महत्वपूर्ण विवरणों को छोड़ सकते हैं [14, 37], लेकिन अतिरिक्त छवि टैग के साथ, जैसे कि छवियों में पाए जाने वाले निकाय और छवियों में लोगों के बारे में जनसांख्यिकीय जानकारी, उसी मॉडल को काफी हद तक बेहतर बनाया जा सकता है, जैसा कि तालिका 1 में दिखाया गया है। हालाँकि, इन अतिरिक्त छवि टैग को बनाना श्रमसाध्य और महंगा है। उदाहरण के लिए, इकाई निष्कर्षण आमतौर पर Google विज़न वेब एंटिटी डिटेक्शन API [2] के साथ किया जाता है, जो एक सशुल्क सेवा है। आदर्श रूप से, हम छवियों से इकाई और जनसांख्यिकीय जानकारी प्राप्त करने का एक अधिक किफायती तरीका खोजना चाहेंगे जो घृणित सामग्री का पता लगाने के लिए महत्वपूर्ण है।  उपर्युक्त दोनों तरीकों (यानी, एक पीवीएलएम का उपयोग करना और दूसरा कार्य को यूनिमॉडल कार्य में परिवर्तित करना) के अपने फायदे और नुकसान हैं। इस पत्र में, हम इन दो तरीकों के विचारों को जोड़ते हैं और एक घृणित मेम का पता लगाने की विधि तैयार करते हैं जो प्रॉम्प्टहेट के यूनिमॉडल दृष्टिकोण को पूरक करने के लिए एक जमे हुए पीवीएलएम की शक्ति का लाभ उठाता है। विशेष रूप से, हम घृणित सामग्री में आम कमजोर लक्ष्यों से संबंधित जानकारी के लिए एक पीवीएलएम (हमारे प्रयोगों में BLIP-2 [15]) से पूछताछ करने के लिए "जांच" प्रश्नों के एक सेट का उपयोग करते हैं। जांच वाले प्रश्नों से प्राप्त उत्तरों को छवि कैप्शन (प्रो-कैप के रूप में दर्शाया गया) के रूप में माना जाएगा और एक प्रशिक्षित घृणित मेम पहचान मॉडल के इनपुट के रूप में उपयोग किया जाएगा। चित्र 1 विधि के समग्र वर्कफ़्लो को दर्शाता है।  हमारा प्रस्तावित तरीका मौजूदा शोध अंतराल को भरता है: 1) किसी भी अनुकूलन या फाइन-ट्यूनिंग के बिना पीवीएलएम का लाभ उठाएं, जिससे कम्प्यूटेशनल लागत कम हो; 2) महंगे एपीआई के साथ अतिरिक्त छवि टैग को स्पष्ट रूप से प्राप्त करने के बजाय, हम जमे हुए पीवीएलएम का उपयोग कैप्शन बनाने के लिए करते हैं जिसमें घृणित मेम का पता लगाने के लिए उपयोगी जानकारी होती है। हमारे सर्वोत्तम ज्ञान के अनुसार, यह पहला काम है जो घृणित मेम का पता लगाने के कार्य में सहायता के लिए प्रश्न उत्तर के माध्यम से शून्य-शॉट तरीके से पीवीएलएम का लाभ उठाता है। हमारी विधि को और अधिक मान्य करने के लिए, हम प्रोम्प्टहेट [2] और एक बर्ट-आधारित [4] घृणित मेम पहचान मॉडल दोनों पर उत्पन्न प्रो-कैप के प्रभाव का परीक्षण करते हैं।  प्रायोगिक परिणामों के आधार पर, हम देखते हैं कि प्रो-कैप के साथ प्रॉम्प्टहेट (प्रो-कैपप्रॉम्प्टहेट के रूप में चिह्नित) अतिरिक्त छवि टैग के बिना मूल प्रॉम्प्टहेट को महत्वपूर्ण रूप से पार करता है (यानी, एफएचएम [12], एमएएमआई [5], और हार्म [28] पर क्रमशः पूर्ण प्रदर्शन सुधार के लगभग 4, 6, और 3 प्रतिशत अंक)। प्रोकैपप्रॉम्प्टहेट अतिरिक्त छवि टैग के साथ प्रॉम्प्टहेट के साथ तुलनीय परिणाम भी प्राप्त करता है, यह दर्शाता है कि जांच-आधारित कैप्शनिंग छवि संस्थाओं या जनसांख्यिकीय जानकारी प्राप्त करने का एक अधिक किफायती तरीका हो सकता है। केस स्टडीज आगे दिखाती हैं कि प्रो-कैप घृणित सामग्री का पता लगाने के लिए आवश्यक छवि विवरण प्रदान करता है, जो कुछ हद तक मॉडल की व्याख्या को बढ़ाता है।  [1] कोड यहां उपलब्ध है: https://github.com/Social-AI-Studio/Pro-Cap  [2] https://cloud.google.com/vision/docs/detecting-web  यह पेपर CC 4.0 लाइसेंस के अंतर्गत   है। arxiv पर उपलब्ध

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Memeology.TECH

Read My Stories

Memeology

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

प्रो-कैप: घृणास्पद मीम का पता लगाने के लिए फ्रोज़न विज़न-लैंग्वेज मॉडल का लाभ उठाना

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

State of the Noonion: Green Clock Strikes Noon

क्रिप्टो ग्रोथ: प्रभावी उपयोगकर्ता व्यक्तित्व बनाना

State of the Noonion: A New Era For Brands and Writers

फ़ोरम से फ़ीड तक: सोशल मीडिया एल्गोरिदम डिजिटल इंटरैक्शन को कैसे आकार देते हैं

State of the Noonion: Green Clock Strikes Noon

क्रिप्टो ग्रोथ: प्रभावी उपयोगकर्ता व्यक्तित्व बनाना

State of the Noonion: A New Era For Brands and Writers

फ़ोरम से फ़ीड तक: सोशल मीडिया एल्गोरिदम डिजिटल इंटरैक्शन को कैसे आकार देते हैं

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps