paint-brush
मल्टीमॉडल मेम सेंटीमेंट वर्गीकरण के लिए यूनिमॉडल इंटरमीडिएट प्रशिक्षणद्वारा@memeology
404 रीडिंग
404 रीडिंग

मल्टीमॉडल मेम सेंटीमेंट वर्गीकरण के लिए यूनिमॉडल इंटरमीडिएट प्रशिक्षण

बहुत लंबा; पढ़ने के लिए

एक नया दृष्टिकोण मल्टीमॉडल मेम सेंटीमेंट वर्गीकरण को बढ़ाने के लिए यूनिमॉडल सेंटीमेंट डेटा का लाभ उठाता है, लेबल किए गए डेटा की कमी को संबोधित करता है और प्रदर्शन में काफी सुधार करता है। यह रणनीति क्लासिफायर प्रदर्शन से समझौता किए बिना प्रशिक्षण के लिए आवश्यक लेबल किए गए मेम की मात्रा को कम करने की भी अनुमति देती है।
featured image - मल्टीमॉडल मेम सेंटीमेंट वर्गीकरण के लिए यूनिमॉडल इंटरमीडिएट प्रशिक्षण
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

लेखक:

(1) मुजफ्फर हज़मान, गॉलवे विश्वविद्यालय, आयरलैंड;

(2) सुसान मैककीवर, टेक्नोलॉजिकल यूनिवर्सिटी डबलिन, आयरलैंड;

(3) जोसेफीन ग्रिफिथ, गॉलवे विश्वविद्यालय, आयरलैंड।

लिंक की तालिका

सार और परिचय

संबंधित काम

क्रियाविधि

परिणाम

सीमाएँ और भविष्य के कार्य

निष्कर्ष, आभार और संदर्भ

हाइपरपैरामीटर और सेटिंग्स

बी मीट्रिक: भारित F1-स्कोर

सी वास्तुकला विवरण

डी प्रदर्शन बेंचमार्किंग

ई आकस्मिकता तालिका: आधार रेखा बनाम पाठ-स्टिल्ट

अमूर्त

इंटरनेट मीम्स स्वचालित भावना वर्गीकरण के लिए उपयोगकर्ता द्वारा निर्मित सामग्री का एक चुनौतीपूर्ण रूप बना हुआ है। लेबल किए गए मीम्स की उपलब्धता मल्टीमॉडल मीम्स के भावना वर्गीकरणकर्ताओं को विकसित करने में बाधा है। लेबल किए गए मीम्स की कमी को दूर करने के लिए, हम मल्टीमॉडल मीम्स क्लासिफायर के प्रशिक्षण को यूनिमॉडल (केवल छवि और केवल पाठ) डेटा के साथ पूरक करने का प्रस्ताव करते हैं। इस कार्य में, हम पर्यवेक्षित मध्यवर्ती प्रशिक्षण का एक नया संस्करण प्रस्तुत करते हैं जो अपेक्षाकृत प्रचुर मात्रा में भावना-लेबल वाले यूनिमॉडल डेटा का उपयोग करता है। हमारे परिणाम यूनिमॉडल टेक्स्ट डेटा के समावेश से सांख्यिकीय रूप से महत्वपूर्ण प्रदर्शन सुधार दिखाते हैं। इसके अलावा, हम दिखाते हैं कि लेबल किए गए मीम्स के प्रशिक्षण सेट को डाउनस्ट्रीम मॉडल के प्रदर्शन को कम किए बिना 40% तक कम किया जा सकता है।

1 परिचय

जैसे-जैसे इंटरनेट मीम्स (या सिर्फ़ “मीम्स”) दुनिया भर के डिजिटल समुदायों में तेज़ी से लोकप्रिय और आम होते जा रहे हैं, प्राकृतिक भाषा वर्गीकरण कार्यों, जैसे कि भावना वर्गीकरण, नफ़रत भरे भाषण का पता लगाना और व्यंग्य का पता लगाना, को अभिव्यक्ति की इन मल्टीमॉडल इकाइयों तक विस्तारित करने के लिए शोध रुचि बढ़ी है। हालाँकि, अत्याधुनिक मल्टीमॉडल मीम्स भावना वर्गीकरणकर्ता समकालीन टेक्स्ट भावना वर्गीकरणकर्ताओं और छवि भावना वर्गीकरणकर्ताओं से काफ़ी कमज़ोर प्रदर्शन करते हैं। मल्टीमॉडल मीम्स की भावना को पहचानने के लिए सटीक और विश्वसनीय तरीकों के बिना, सोशल मीडिया भावना विश्लेषण विधियों को मीम्स के माध्यम से व्यक्त की गई राय को या तो अनदेखा करना चाहिए या गलत तरीके से अनुमान लगाना चाहिए। चूँकि मीम्स ऑनलाइन चर्चा में मुख्य आधार बने हुए हैं, इसलिए हमारे

उनके द्वारा व्यक्त अर्थ का अनुमान लगाने की क्षमता तेजी से प्रासंगिक हो जाती है (शर्मा एट अल., 2020; मिश्रा एट अल., 2023)।


यूनिमॉडल कंटेंट पर मीम्स पर सेंटीमेंट क्लासिफिकेशन प्रदर्शन के समान स्तर प्राप्त करना एक चुनौती बनी हुई है। अपनी मल्टीमॉडल प्रकृति के अलावा, मल्टीमॉडल मीम क्लासिफायर को सांस्कृतिक रूप से विशिष्ट इनपुट से सेंटीमेंट को समझना चाहिए जिसमें संक्षिप्त टेक्स्ट, सांस्कृतिक संदर्भ और दृश्य प्रतीकवाद शामिल हैं (निसेनबाम और शिफमैन, 2017)। हालाँकि प्रत्येक मोडैलिटी (टेक्स्ट और इमेज) से जानकारी निकालने के लिए विभिन्न तरीकों का इस्तेमाल किया गया है, हाल के कार्यों ने इस बात पर प्रकाश डाला है कि मीम क्लासिफायर को इन दो मोडैलिटी के बीच बातचीत के विभिन्न रूपों को भी पहचानना चाहिए (झू, 2020; शांग एट अल., 2021; हज़मैन एट अल., 2023)।


मेम क्लासिफायर को प्रशिक्षित करने के वर्तमान तरीके लेबल किए गए मेम (कीला एट अल., 2020; शर्मा एट अल., 2020; सूर्यवंशी एट अल., 2020; पटवा एट अल., 2022; मिश्रा एट अल., 2023) के डेटासेट पर निर्भर हैं, जिसमें प्रत्येक मोडैलिटी और प्रासंगिक क्रॉस-मोडल इंटरैक्शन से प्रासंगिक विशेषताओं को निकालने के लिए क्लासिफायर को प्रशिक्षित करने के लिए पर्याप्त नमूने शामिल हैं। कार्य की जटिलता के सापेक्ष, लेबल किए गए मेम की वर्तमान उपलब्धता अभी भी एक समस्या है, क्योंकि कई मौजूदा कार्यों में अधिक डेटा की आवश्यकता होती है (झू, 2020; कीला एट अल., 2020; शर्मा एट अल., 2022)।


इससे भी बुरी बात यह है कि मीम्स को लेबल करना मुश्किल है। मीम्स की जटिलता और संस्कृति पर निर्भरता

(गैल एट अल., 2016) सब्जेक्टिव परसेप्शन प्रॉब्लम (शर्मा एट अल., 2020) का कारण बनते हैं, जहाँ प्रत्येक एनोटेटर से मीम की सामग्री के लिए अलग-अलग परिचितता और भावनात्मक प्रतिक्रिया अलग-अलग ग्राउंड-ट्रुथ लेबल का कारण बनती है। दूसरा, मीम्स में अक्सर अन्य लोकप्रिय मीडिया (लैनेस्टे और वोलैड, 2017) से लिए गए कॉपीराइट-संरक्षित दृश्य तत्व होते हैं, जो डेटासेट प्रकाशित करते समय चिंताएँ बढ़ाते हैं। इसके लिए कीला एट अल. (2020) को लाइसेंस प्राप्त छवियों का उपयोग करके अपने डेटासेट में प्रत्येक मीम को मैन्युअल रूप से फिर से बनाना पड़ा, जिससे एनोटेशन प्रयास में काफी वृद्धि हुई। इसके अलावा, किसी दिए गए मीम को बनाने वाले दृश्य तत्व अक्सर एक अचानक चलन के रूप में उभरते हैं जो ऑनलाइन समुदायों में तेज़ी से फैलते हैं (बॉखेज, 2011; शिफ़मैन, 2014), आम मीम बोलचाल में जल्दी से नए अर्थपूर्ण समृद्ध दृश्य प्रतीकों को पेश करते हैं, जिनका पहले बहुत कम अर्थ होता था (सेगेव एट अल., 2015)। एक साथ लिए जाने पर, ये विशेषताएँ मीम्स की लेबलिंग को विशेष रूप से चुनौतीपूर्ण और महंगा बनाती हैं।


मेम सेंटीमेंट क्लासिफायर को प्रशिक्षित करने के लिए अधिक डेटा-कुशल तरीकों की तलाश में, हमारा काम अपेक्षाकृत प्रचुर मात्रा में यूनिमॉडल सेंटीमेंट-लेबल किए गए डेटा, यानी केवल छवि और केवल पाठ नमूनों के साथ सेंटीमेंट विश्लेषण डेटासेट का लाभ उठाने का प्रयास करता है। हम ऐसा करने के लिए फांग एट अल. (2019) के इंटरमीडिएट लेबल्डडेटा टास्क (एसटीआईएलटी) पर पूरक प्रशिक्षण का उपयोग करते हैं, जो डेटा-दुर्लभ प्राकृतिक भाषा समझ (एनएलयू) कार्यों के लिए प्रीट्रेन्ड टेक्स्ट एनकोडर को ठीक करते समय अक्सर सामने आने वाले कम प्रदर्शन को संबोधित करता है। फांग एट अल. के एसटीआईएलटी दृष्टिकोण में तीन चरण शामिल हैं:


1. पूर्व प्रशिक्षित भार को क्लासिफायर मॉडल में लोड करें।


2. मॉडल को पर्यवेक्षित शिक्षण कार्य पर परिशोधित करें जिसके लिए डेटा आसानी से उपलब्ध है (मध्यवर्ती कार्य)।


3. मॉडल को डेटा-दुर्लभ कार्य (लक्ष्य कार्य) पर फाइनट्यून करें जो मध्यवर्ती कार्य से अलग हो।


STILT को विभिन्न प्रकार के टेक्स्ट-ओनली टारगेट कार्यों (पोथ एट अल., 2021; वांग एट अल., 2019) में विभिन्न मॉडलों के प्रदर्शन में सुधार करने के लिए दिखाया गया है। इसके अलावा, प्रुक्साचटकुन एट अल. (2020) ने देखा कि STILT विशेष रूप से छोटे डेटासेट वाले NLU में टारगेट कार्यों में प्रभावी है, जैसे WiC (पिलेहवर और कैमाचो-कोलाडोस, 2019) और बूलक्यू (क्लार्क एट अल., 2019)। हालांकि, उन्होंने यह भी दिखाया कि इस दृष्टिकोण के प्रदर्शन लाभ असंगत हैं और किसी भी दिए गए टारगेट कार्य के लिए उपयुक्त मध्यवर्ती कार्यों को चुनने पर निर्भर करते हैं। कुछ मामलों में, इंटरमीडिएट प्रशिक्षण टारगेट कार्य प्रदर्शन के लिए हानिकारक पाया गया; जिसे प्रुक्साचटकुन एट अल. (2020) ने प्रत्येक इंटरमीडिएट और टारगेट कार्य जोड़ी के लिए आवश्यक "वाक्यविन्यास और अर्थ कौशल" के बीच अंतर के लिए जिम्मेदार ठहराया। हालांकि, STILT का अभी तक ऐसे कॉन्फ़िगरेशन में परीक्षण नहीं किया गया है जिसमें इंटरमीडिएट और टारगेट कार्यों में अलग-अलग इनपुट मोडैलिटी हों।


हालाँकि, किसी मीम के टेक्स्ट या इमेज को अलग से देखने से उसका पूरा मतलब नहीं पता चलता (कीला एट अल., 2020), हमें संदेह है कि यूनिमॉडल सेंटीमेंट डेटा मीम की भावना को समझने के लिए प्रासंगिक कौशल को शामिल करने में मदद कर सकता है। STILT के एक नए प्रकार का प्रस्ताव करके जो मल्टीमॉडल मीम सेंटीमेंट क्लासिफायर को प्रशिक्षित करने में एक मध्यवर्ती कार्य के रूप में यूनिमॉडल सेंटीमेंट विश्लेषण डेटा का उपयोग करता है, हम निम्नलिखित प्रश्नों का उत्तर देते हैं:


चित्र 1: बेसलाइन में प्रशिक्षण कार्य, फांग एट अल. (2019) एसटीआईएलटी, और हमारे प्रस्तावित इमेज-एसटीआईएलटी और टेक्स्टएसटीआईएलटी दृष्टिकोण।


RQ1 : क्या मल्टीमॉडल मेम क्लासिफायर के प्रशिक्षण को यूनिमॉडल सेंटीमेंट डेटा के साथ पूरक करने से इसके प्रदर्शन में उल्लेखनीय सुधार होता है?


हमने अपने प्रस्तावित दृष्टिकोण को केवल-छवि और केवल-पाठ 3-वर्ग भावना डेटा (क्रमशः छवि-एसटीआईएलटी और पाठ-एसटीआईएलटी बनाना) के साथ अलग-अलग परीक्षण किया, जैसा कि चित्र 1 में दिखाया गया है। यदि कोई भी प्रभावी साबित होता है, तो हम अतिरिक्त रूप से उत्तर देते हैं:


RQ2 : यूनिमॉडल STILT के साथ, हम मीम सेंटीमेंट क्लासिफायर के प्रदर्शन को संरक्षित करते हुए लेबल किए गए मीम्स की मात्रा को किस हद तक कम कर सकते हैं?


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।