201 रीडिंग

प्रो-कैप: घृणास्पद मीम का पता लगाने के लिए फ्रोज़न विज़न-लैंग्वेज मॉडल का लाभ उठाना: परिशिष्ट

द्वारा Memeology: Leading Authority on the Study of Memes3m2024/04/26

बहुत लंबा; पढ़ने के लिए

यह परिशिष्ट घृणित मीम पहचान मॉडल के क्रियान्वयन पर गहन विवरण, पृथक्करण अध्ययनों से प्राप्त अंतर्दृष्टि, प्रो-कैप और बुनियादी प्रॉम्प्टहेट की दृश्य तुलना, तथा एकल जांच वाले प्रश्नों के उत्तरों के उपयोग के प्रभाव पर प्रकाश डालने वाले परिणाम, तथा मीम पहचान मॉडल के लिए अनुकूलन दिशा-निर्देश सुझाने के बारे में विस्तृत विवरण प्रदान करता है।

featured image - प्रो-कैप: घृणास्पद मीम का पता लगाने के लिए फ्रोज़न विज़न-लैंग्वेज मॉडल का लाभ उठाना: परिशिष्ट

यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) रुई काओ, सिंगापुर प्रबंधन विश्वविद्यालय;

(2) मिंग शान ही, सिंगापुर यूनिवर्सिटी ऑफ डिजाइन एंड टेक्नोलॉजी;

(3) एड्रिएल कुएक, डीएसओ नेशनल लेबोरेटरीज;

(4) वेन-हॉ चोंग, सिंगापुर मैनेजमेंट यूनिवर्सिटी;

(5) रॉय का-वेई ली, सिंगापुर यूनिवर्सिटी ऑफ डिजाइन एंड टेक्नोलॉजी

(6) जिंग जियांग, सिंगापुर मैनेजमेंट यूनिवर्सिटी।

लिंक की तालिका

सार और परिचय

कार्यान्वयन हेतु विवरण

हम PyTorch लाइब्रेरी के अंतर्गत सभी मॉडलों को CUDA11.2 संस्करण के साथ लागू करते हैं। हम Tesla V 100 GPU का उपयोग करते हैं, जिनमें से प्रत्येक में 32GB की समर्पित मेमोरी होती है। घृणित मीम का पता लगाने के लिए विशेष रूप से लागू किए गए मॉडलों के लिए, हम पुनः कार्यान्वयन के लिए लेखक से प्रकाशित कोड लेते हैं [4]। पूर्व प्रशिक्षित मॉडल के लिए जो हगिंगफेस लाइब्रेरी के अंतर्गत पाए जा सकते हैं, हम हगिंगफेस [5] से पैकेज का उपयोग करते हैं, विशेष रूप से BERT [4], VisualBERT [18] और BLIP मॉडल। Gor ViLBERT [23], हम लेखकों से जारी कोड लेते हैं [6]। ALBEF [17] और BLIP-2 [15] के लिए, हम LAVIS लाइब्रेरी [7] के अंतर्गत पैकेज का उपयोग करते हैं

प्रत्येक मीम छवि के लिए, हम मीम टेक्स्ट और सामान्य छवि कैप्शन की कुल लंबाई (या तो कैप्शनिंग मॉडल से या छवि की सामग्री के बारे में पूछकर) को 65 तक सीमित रखते हैं। प्रत्येक अतिरिक्त प्रश्न के लिए, हम इसकी लंबाई को 20 से कम रखने पर प्रतिबंध लगाते हैं। यदि वाक्य का संयोजन सीमित लंबाई से अधिक है, तो वाक्य छोटा कर दिया जाएगा, अन्यथा, यदि वाक्य सीमित लंबाई से छोटा है, तो इसे पैड किया जाएगा। हमने सभी मॉडलों के लिए प्रशिक्षण युगों की संख्या 10 निर्धारित की है।

मॉडल पैरामीटरों की संख्या तालिका 11 में संक्षेपित है।

बी पूर्ण एब्लेशन अध्ययन परिणाम

स्थान की कमी के कारण, हम केवल तालिका 6 में एब्लेशन अध्ययनों में सटीकता के परिणाम दिखाते हैं। AUC और सटीकता दोनों सहित पूर्ण परिणाम तालिका 12 में दिए गए हैं।

सी विज़ुअलाइज़ेशन मामले

अनुभाग 5.5 में, हम ProCapPromptHate की तुलना मूल PromptHate से करने के लिए मामलों का विज़ुअलाइज़ेशन प्रदान करते हैं। स्थान की कमी के कारण, हम अन्य दो डेटासेट से उदाहरण छोड़ देते हैं। हम इस भाग में और अधिक विज़ुअलाइज़ेशन मामले प्रदान करते हैं। HarM डेटासेट के मामलों को तालिका 9 में दर्शाया गया है और MAMI डेटासेट के मामलों को तालिका 10 में दिखाया गया है।

डी प्रो-कैप के साथ परिणाम एक लक्ष्य के बारे में

सेक्शन 5 में, हम केवल तभी परिणाम रिपोर्ट करते हैं जब मॉडल सभी जांच प्रश्नों से प्रो-कैप का उपयोग करते हैं। इस भाग में, हम तालिका 13 में एकल जांच प्रश्न के उत्तरों का उपयोग करते समय परिणाम (इकाइयों के साथ) रिपोर्ट करते हैं।

परिणामों के अनुसार, हम देखते हैं कि एक एकल जांच वाले प्रश्न के उत्तर का उपयोग करने वाले मॉडल बहुत शक्तिशाली हैं और कुछ तो सभी जांच वाले प्रश्न पूछने में भी आगे निकल जाते हैं (उदाहरण के लिए, FHM पर राष्ट्रीयता के बारे में पूछने वाले प्रश्न का उपयोग करना सभी जांच वाले प्रश्नों का उपयोग करने से बेहतर है)। यह बताता है कि सभी जांच वाले कैप्शन का उपयोग करना इष्टतम समाधान नहीं हो सकता है और अप्रासंगिक छवि विवरण उत्पन्न कर सकता है। उदाहरण के लिए, काले लोगों को लक्षित करने वाले घृणित मेम का सामना करने पर, छवि में लोगों का धर्म पूछना व्यर्थ है। दिलचस्प बात यह है कि MAMI पर, जब केवल लिंग के बारे में जांच वाले प्रश्न के उत्तर का उपयोग किया जाता है तो यह सर्वश्रेष्ठ प्रदर्शन तक पहुँचता है। ऐसा इसलिए है क्योंकि MAMI में केवल महिलाओं के बारे में घृणित मीम्स हैं। एक आशाजनक दिशा मॉडल को विभिन्न मीम्स के लिए मीम का पता लगाने के लिए आवश्यक जांच वाले प्रश्नों को गतिशील रूप से चुनने के लिए प्रशिक्षित करेगी।

[4] क्लिप-बर्ट/मोमेंटा: https://github.com/LCS2-IIITD/MOMENTA;डिसमल्टीहेट: https://gitlab.com/bottle_shop/safe/dismultihate; प्रॉम्प्टहेट: https://gitlab.com/bottle_shop/safe/prompthate

[5] https://huggingface.co/

[6] https://github.com/facebookresearch/vilbert-multi-task

[7] https://github.com/salesforce/LAVIS अनुमानतः सभी जांच करने वाले प्रश्न पूछना (उदाहरण के लिए,