लेखक:
(1) रुई काओ, सिंगापुर प्रबंधन विश्वविद्यालय;
(2) मिंग शान ही, सिंगापुर यूनिवर्सिटी ऑफ डिजाइन एंड टेक्नोलॉजी;
(3) एड्रिएल कुएक, डीएसओ नेशनल लेबोरेटरीज;
(4) वेन-हॉ चोंग, सिंगापुर मैनेजमेंट यूनिवर्सिटी;
(5) रॉय का-वेई ली, सिंगापुर यूनिवर्सिटी ऑफ डिजाइन एंड टेक्नोलॉजी
(6) जिंग जियांग, सिंगापुर मैनेजमेंट यूनिवर्सिटी।
मीम्स , जो आम तौर पर हास्य या व्यंग्यात्मक होते हैं, का उपयोग घृणित सामग्री के प्रसार के लिए तेजी से किया जा रहा है, जिससे ऑनलाइन घृणित मीम्स का पता लगाने का चुनौतीपूर्ण कार्य हो रहा है [५, १२, २७]। घृणित मीम्स के प्रसार का मुकाबला करने के लिए, काम की एक पंक्ति घृणित मीम्स का पता लगाने को एक बहुविध वर्गीकरण कार्य के रूप में मानती है। शोधकर्ताओं ने पूर्व प्रशिक्षित विज़न लैंग्वेज मॉडल (PVLM) को लागू किया है और उन्हें मीम पहचान डेटा के आधार पर फाइन-ट्यून किया है [२०, २६, ३४, ३७]। प्रदर्शन को बेहतर बनाने के लिए, कुछ ने मॉडल एनसेंबलिंग की कोशिश की है [२०, २६, ३४]। काम की एक और पंक्ति पूर्व प्रशिक्षित मॉडल (जैसे, BERT [४] और CLIP [२९]) को कार्य विशिष्ट मॉडल आर्किटेक्चर के साथ संयोजित करने पर विचार करती है यह दृष्टिकोण दो घृणित मीम पहचान बेंचमार्क पर अत्याधुनिक परिणाम प्राप्त करता है। हालाँकि, यह छवि कैप्शनिंग के माध्यम से छवि का वर्णन करने के लिए एक सामान्य विधि को अपनाता है, जो अक्सर घृणित मीम पहचान के लिए आवश्यक महत्वपूर्ण कारकों को अनदेखा करता है। इस कार्य में, हम शून्य-शॉट VQA तरीके से घृणित सामग्री-केंद्रित प्रश्नों के साथ पूर्व-प्रशिक्षित दृष्टि-भाषा मॉडल को प्रेरित करके जांच-आधारित कैप्शनिंग के माध्यम से इस मुद्दे को संबोधित करना चाहते हैं।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।