यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
लेखक:
(1) रुई काओ, सिंगापुर प्रबंधन विश्वविद्यालय;
(2) मिंग शान ही, सिंगापुर यूनिवर्सिटी ऑफ डिजाइन एंड टेक्नोलॉजी;
(3) एड्रिएल कुएक, डीएसओ नेशनल लेबोरेटरीज;
(4) वेन-हॉ चोंग, सिंगापुर मैनेजमेंट यूनिवर्सिटी;
(5) रॉय का-वेई ली, सिंगापुर यूनिवर्सिटी ऑफ डिजाइन एंड टेक्नोलॉजी
(6) जिंग जियांग, सिंगापुर मैनेजमेंट यूनिवर्सिटी।
हम PyTorch लाइब्रेरी के अंतर्गत सभी मॉडलों को CUDA11.2 संस्करण के साथ लागू करते हैं। हम Tesla V 100 GPU का उपयोग करते हैं, जिनमें से प्रत्येक में 32GB की समर्पित मेमोरी होती है। घृणित मीम का पता लगाने के लिए विशेष रूप से लागू किए गए मॉडलों के लिए, हम पुनः कार्यान्वयन के लिए लेखक से प्रकाशित कोड लेते हैं [4]। पूर्व प्रशिक्षित मॉडल के लिए जो हगिंगफेस लाइब्रेरी के अंतर्गत पाए जा सकते हैं, हम हगिंगफेस [5] से पैकेज का उपयोग करते हैं, विशेष रूप से BERT [4], VisualBERT [18] और BLIP मॉडल। Gor ViLBERT [23], हम लेखकों से जारी कोड लेते हैं [6]। ALBEF [17] और BLIP-2 [15] के लिए, हम LAVIS लाइब्रेरी [7] के अंतर्गत पैकेज का उपयोग करते हैं
प्रत्येक मीम छवि के लिए, हम मीम टेक्स्ट और सामान्य छवि कैप्शन की कुल लंबाई (या तो कैप्शनिंग मॉडल से या छवि की सामग्री के बारे में पूछकर) को 65 तक सीमित रखते हैं। प्रत्येक अतिरिक्त प्रश्न के लिए, हम इसकी लंबाई को 20 से कम रखने पर प्रतिबंध लगाते हैं। यदि वाक्य का संयोजन सीमित लंबाई से अधिक है, तो वाक्य छोटा कर दिया जाएगा, अन्यथा, यदि वाक्य सीमित लंबाई से छोटा है, तो इसे पैड किया जाएगा। हमने सभी मॉडलों के लिए प्रशिक्षण युगों की संख्या 10 निर्धारित की है।
मॉडल पैरामीटरों की संख्या तालिका 11 में संक्षेपित है।
स्थान की कमी के कारण, हम केवल तालिका 6 में एब्लेशन अध्ययनों में सटीकता के परिणाम दिखाते हैं। AUC और सटीकता दोनों सहित पूर्ण परिणाम तालिका 12 में दिए गए हैं।
अनुभाग 5.5 में, हम ProCapPromptHate की तुलना मूल PromptHate से करने के लिए मामलों का विज़ुअलाइज़ेशन प्रदान करते हैं। स्थान की कमी के कारण, हम अन्य दो डेटासेट से उदाहरण छोड़ देते हैं। हम इस भाग में और अधिक विज़ुअलाइज़ेशन मामले प्रदान करते हैं। HarM डेटासेट के मामलों को तालिका 9 में दर्शाया गया है और MAMI डेटासेट के मामलों को तालिका 10 में दिखाया गया है।
सेक्शन 5 में, हम केवल तभी परिणाम रिपोर्ट करते हैं जब मॉडल सभी जांच प्रश्नों से प्रो-कैप का उपयोग करते हैं। इस भाग में, हम तालिका 13 में एकल जांच प्रश्न के उत्तरों का उपयोग करते समय परिणाम (इकाइयों के साथ) रिपोर्ट करते हैं।
परिणामों के अनुसार, हम देखते हैं कि एक एकल जांच वाले प्रश्न के उत्तर का उपयोग करने वाले मॉडल बहुत शक्तिशाली हैं और कुछ तो सभी जांच वाले प्रश्न पूछने में भी आगे निकल जाते हैं (उदाहरण के लिए, FHM पर राष्ट्रीयता के बारे में पूछने वाले प्रश्न का उपयोग करना सभी जांच वाले प्रश्नों का उपयोग करने से बेहतर है)। यह बताता है कि सभी जांच वाले कैप्शन का उपयोग करना इष्टतम समाधान नहीं हो सकता है और अप्रासंगिक छवि विवरण उत्पन्न कर सकता है। उदाहरण के लिए, काले लोगों को लक्षित करने वाले घृणित मेम का सामना करने पर, छवि में लोगों का धर्म पूछना व्यर्थ है। दिलचस्प बात यह है कि MAMI पर, जब केवल लिंग के बारे में जांच वाले प्रश्न के उत्तर का उपयोग किया जाता है तो यह सर्वश्रेष्ठ प्रदर्शन तक पहुँचता है। ऐसा इसलिए है क्योंकि MAMI में केवल महिलाओं के बारे में घृणित मीम्स हैं। एक आशाजनक दिशा मॉडल को विभिन्न मीम्स के लिए मीम का पता लगाने के लिए आवश्यक जांच वाले प्रश्नों को गतिशील रूप से चुनने के लिए प्रशिक्षित करेगी।
[4] क्लिप-बर्ट/मोमेंटा: https://github.com/LCS2-IIITD/MOMENTA;डिसमल्टीहेट: https://gitlab.com/bottle_shop/safe/dismultihate; प्रॉम्प्टहेट: https://gitlab.com/bottle_shop/safe/prompthate
[5] https://huggingface.co/
[6] https://github.com/facebookresearch/vilbert-multi-task
[7] https://github.com/salesforce/LAVIS अनुमानतः सभी जांच करने वाले प्रश्न पूछना (उदाहरण के लिए,