Memes are cultural items transmitted by repetition in a manner analogous to the biological transmission of genes.
Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.
लेखक:
(1) मुजफ्फर हज़मान, गॉलवे विश्वविद्यालय, आयरलैंड;
(2) सुसान मैककीवर, टेक्नोलॉजिकल यूनिवर्सिटी डबलिन, आयरलैंड;
(3) जोसेफीन ग्रिफिथ, गॉलवे विश्वविद्यालय, आयरलैंड।
ई आकस्मिकता तालिका: आधार रेखा बनाम पाठ-स्टिल्ट
इंटरनेट मीम्स स्वचालित भावना वर्गीकरण के लिए उपयोगकर्ता द्वारा निर्मित सामग्री का एक चुनौतीपूर्ण रूप बना हुआ है। लेबल किए गए मीम्स की उपलब्धता मल्टीमॉडल मीम्स के भावना वर्गीकरणकर्ताओं को विकसित करने में बाधा है। लेबल किए गए मीम्स की कमी को दूर करने के लिए, हम मल्टीमॉडल मीम्स क्लासिफायर के प्रशिक्षण को यूनिमॉडल (केवल छवि और केवल पाठ) डेटा के साथ पूरक करने का प्रस्ताव करते हैं। इस कार्य में, हम पर्यवेक्षित मध्यवर्ती प्रशिक्षण का एक नया संस्करण प्रस्तुत करते हैं जो अपेक्षाकृत प्रचुर मात्रा में भावना-लेबल वाले यूनिमॉडल डेटा का उपयोग करता है। हमारे परिणाम यूनिमॉडल टेक्स्ट डेटा के समावेश से सांख्यिकीय रूप से महत्वपूर्ण प्रदर्शन सुधार दिखाते हैं। इसके अलावा, हम दिखाते हैं कि लेबल किए गए मीम्स के प्रशिक्षण सेट को डाउनस्ट्रीम मॉडल के प्रदर्शन को कम किए बिना 40% तक कम किया जा सकता है।
जैसे-जैसे इंटरनेट मीम्स (या सिर्फ़ “मीम्स”) दुनिया भर के डिजिटल समुदायों में तेज़ी से लोकप्रिय और आम होते जा रहे हैं, प्राकृतिक भाषा वर्गीकरण कार्यों, जैसे कि भावना वर्गीकरण, नफ़रत भरे भाषण का पता लगाना और व्यंग्य का पता लगाना, को अभिव्यक्ति की इन मल्टीमॉडल इकाइयों तक विस्तारित करने के लिए शोध रुचि बढ़ी है। हालाँकि, अत्याधुनिक मल्टीमॉडल मीम्स भावना वर्गीकरणकर्ता समकालीन टेक्स्ट भावना वर्गीकरणकर्ताओं और छवि भावना वर्गीकरणकर्ताओं से काफ़ी कमज़ोर प्रदर्शन करते हैं। मल्टीमॉडल मीम्स की भावना को पहचानने के लिए सटीक और विश्वसनीय तरीकों के बिना, सोशल मीडिया भावना विश्लेषण विधियों को मीम्स के माध्यम से व्यक्त की गई राय को या तो अनदेखा करना चाहिए या गलत तरीके से अनुमान लगाना चाहिए। चूँकि मीम्स ऑनलाइन चर्चा में मुख्य आधार बने हुए हैं, इसलिए हमारे
उनके द्वारा व्यक्त अर्थ का अनुमान लगाने की क्षमता तेजी से प्रासंगिक हो जाती है (शर्मा एट अल., 2020; मिश्रा एट अल., 2023)।
यूनिमॉडल कंटेंट पर मीम्स पर सेंटीमेंट क्लासिफिकेशन प्रदर्शन के समान स्तर प्राप्त करना एक चुनौती बनी हुई है। अपनी मल्टीमॉडल प्रकृति के अलावा, मल्टीमॉडल मीम क्लासिफायर को सांस्कृतिक रूप से विशिष्ट इनपुट से सेंटीमेंट को समझना चाहिए जिसमें संक्षिप्त टेक्स्ट, सांस्कृतिक संदर्भ और दृश्य प्रतीकवाद शामिल हैं (निसेनबाम और शिफमैन, 2017)। हालाँकि प्रत्येक मोडैलिटी (टेक्स्ट और इमेज) से जानकारी निकालने के लिए विभिन्न तरीकों का इस्तेमाल किया गया है, हाल के कार्यों ने इस बात पर प्रकाश डाला है कि मीम क्लासिफायर को इन दो मोडैलिटी के बीच बातचीत के विभिन्न रूपों को भी पहचानना चाहिए (झू, 2020; शांग एट अल., 2021; हज़मैन एट अल., 2023)।
मेम क्लासिफायर को प्रशिक्षित करने के वर्तमान तरीके लेबल किए गए मेम (कीला एट अल., 2020; शर्मा एट अल., 2020; सूर्यवंशी एट अल., 2020; पटवा एट अल., 2022; मिश्रा एट अल., 2023) के डेटासेट पर निर्भर हैं, जिसमें प्रत्येक मोडैलिटी और प्रासंगिक क्रॉस-मोडल इंटरैक्शन से प्रासंगिक विशेषताओं को निकालने के लिए क्लासिफायर को प्रशिक्षित करने के लिए पर्याप्त नमूने शामिल हैं। कार्य की जटिलता के सापेक्ष, लेबल किए गए मेम की वर्तमान उपलब्धता अभी भी एक समस्या है, क्योंकि कई मौजूदा कार्यों में अधिक डेटा की आवश्यकता होती है (झू, 2020; कीला एट अल., 2020; शर्मा एट अल., 2022)।
इससे भी बुरी बात यह है कि मीम्स को लेबल करना मुश्किल है। मीम्स की जटिलता और संस्कृति पर निर्भरता
(गैल एट अल., 2016) सब्जेक्टिव परसेप्शन प्रॉब्लम (शर्मा एट अल., 2020) का कारण बनते हैं, जहाँ प्रत्येक एनोटेटर से मीम की सामग्री के लिए अलग-अलग परिचितता और भावनात्मक प्रतिक्रिया अलग-अलग ग्राउंड-ट्रुथ लेबल का कारण बनती है। दूसरा, मीम्स में अक्सर अन्य लोकप्रिय मीडिया (लैनेस्टे और वोलैड, 2017) से लिए गए कॉपीराइट-संरक्षित दृश्य तत्व होते हैं, जो डेटासेट प्रकाशित करते समय चिंताएँ बढ़ाते हैं। इसके लिए कीला एट अल. (2020) को लाइसेंस प्राप्त छवियों का उपयोग करके अपने डेटासेट में प्रत्येक मीम को मैन्युअल रूप से फिर से बनाना पड़ा, जिससे एनोटेशन प्रयास में काफी वृद्धि हुई। इसके अलावा, किसी दिए गए मीम को बनाने वाले दृश्य तत्व अक्सर एक अचानक चलन के रूप में उभरते हैं जो ऑनलाइन समुदायों में तेज़ी से फैलते हैं (बॉखेज, 2011; शिफ़मैन, 2014), आम मीम बोलचाल में जल्दी से नए अर्थपूर्ण समृद्ध दृश्य प्रतीकों को पेश करते हैं, जिनका पहले बहुत कम अर्थ होता था (सेगेव एट अल., 2015)। एक साथ लिए जाने पर, ये विशेषताएँ मीम्स की लेबलिंग को विशेष रूप से चुनौतीपूर्ण और महंगा बनाती हैं।
मेम सेंटीमेंट क्लासिफायर को प्रशिक्षित करने के लिए अधिक डेटा-कुशल तरीकों की तलाश में, हमारा काम अपेक्षाकृत प्रचुर मात्रा में यूनिमॉडल सेंटीमेंट-लेबल किए गए डेटा, यानी केवल छवि और केवल पाठ नमूनों के साथ सेंटीमेंट विश्लेषण डेटासेट का लाभ उठाने का प्रयास करता है। हम ऐसा करने के लिए फांग एट अल. (2019) के इंटरमीडिएट लेबल्डडेटा टास्क (एसटीआईएलटी) पर पूरक प्रशिक्षण का उपयोग करते हैं, जो डेटा-दुर्लभ प्राकृतिक भाषा समझ (एनएलयू) कार्यों के लिए प्रीट्रेन्ड टेक्स्ट एनकोडर को ठीक करते समय अक्सर सामने आने वाले कम प्रदर्शन को संबोधित करता है। फांग एट अल. के एसटीआईएलटी दृष्टिकोण में तीन चरण शामिल हैं:
1. पूर्व प्रशिक्षित भार को क्लासिफायर मॉडल में लोड करें।
2. मॉडल को पर्यवेक्षित शिक्षण कार्य पर परिशोधित करें जिसके लिए डेटा आसानी से उपलब्ध है (मध्यवर्ती कार्य)।
3. मॉडल को डेटा-दुर्लभ कार्य (लक्ष्य कार्य) पर फाइनट्यून करें जो मध्यवर्ती कार्य से अलग हो।
STILT को विभिन्न प्रकार के टेक्स्ट-ओनली टारगेट कार्यों (पोथ एट अल., 2021; वांग एट अल., 2019) में विभिन्न मॉडलों के प्रदर्शन में सुधार करने के लिए दिखाया गया है। इसके अलावा, प्रुक्साचटकुन एट अल. (2020) ने देखा कि STILT विशेष रूप से छोटे डेटासेट वाले NLU में टारगेट कार्यों में प्रभावी है, जैसे WiC (पिलेहवर और कैमाचो-कोलाडोस, 2019) और बूलक्यू (क्लार्क एट अल., 2019)। हालांकि, उन्होंने यह भी दिखाया कि इस दृष्टिकोण के प्रदर्शन लाभ असंगत हैं और किसी भी दिए गए टारगेट कार्य के लिए उपयुक्त मध्यवर्ती कार्यों को चुनने पर निर्भर करते हैं। कुछ मामलों में, इंटरमीडिएट प्रशिक्षण टारगेट कार्य प्रदर्शन के लिए हानिकारक पाया गया; जिसे प्रुक्साचटकुन एट अल. (2020) ने प्रत्येक इंटरमीडिएट और टारगेट कार्य जोड़ी के लिए आवश्यक "वाक्यविन्यास और अर्थ कौशल" के बीच अंतर के लिए जिम्मेदार ठहराया। हालांकि, STILT का अभी तक ऐसे कॉन्फ़िगरेशन में परीक्षण नहीं किया गया है जिसमें इंटरमीडिएट और टारगेट कार्यों में अलग-अलग इनपुट मोडैलिटी हों।
हालाँकि, किसी मीम के टेक्स्ट या इमेज को अलग से देखने से उसका पूरा मतलब नहीं पता चलता (कीला एट अल., 2020), हमें संदेह है कि यूनिमॉडल सेंटीमेंट डेटा मीम की भावना को समझने के लिए प्रासंगिक कौशल को शामिल करने में मदद कर सकता है। STILT के एक नए प्रकार का प्रस्ताव करके जो मल्टीमॉडल मीम सेंटीमेंट क्लासिफायर को प्रशिक्षित करने में एक मध्यवर्ती कार्य के रूप में यूनिमॉडल सेंटीमेंट विश्लेषण डेटा का उपयोग करता है, हम निम्नलिखित प्रश्नों का उत्तर देते हैं:
RQ1 : क्या मल्टीमॉडल मेम क्लासिफायर के प्रशिक्षण को यूनिमॉडल सेंटीमेंट डेटा के साथ पूरक करने से इसके प्रदर्शन में उल्लेखनीय सुधार होता है?
हमने अपने प्रस्तावित दृष्टिकोण को केवल-छवि और केवल-पाठ 3-वर्ग भावना डेटा (क्रमशः छवि-एसटीआईएलटी और पाठ-एसटीआईएलटी बनाना) के साथ अलग-अलग परीक्षण किया, जैसा कि चित्र 1 में दिखाया गया है। यदि कोई भी प्रभावी साबित होता है, तो हम अतिरिक्त रूप से उत्तर देते हैं:
RQ2 : यूनिमॉडल STILT के साथ, हम मीम सेंटीमेंट क्लासिफायर के प्रदर्शन को संरक्षित करते हुए लेबल किए गए मीम्स की मात्रा को किस हद तक कम कर सकते हैं?
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।