लेखक:
(1) मुजफ्फर हज़मान, गॉलवे विश्वविद्यालय, आयरलैंड;
(2) सुसान मैककीवर, टेक्नोलॉजिकल यूनिवर्सिटी डबलिन, आयरलैंड;
(3) जोसेफीन ग्रिफिथ, गॉलवे विश्वविद्यालय, आयरलैंड।
ई आकस्मिकता तालिका: आधार रेखा बनाम पाठ-स्टिल्ट
इंटरनेट मीम्स स्वचालित भावना वर्गीकरण के लिए उपयोगकर्ता द्वारा निर्मित सामग्री का एक चुनौतीपूर्ण रूप बना हुआ है। लेबल किए गए मीम्स की उपलब्धता मल्टीमॉडल मीम्स के भावना वर्गीकरणकर्ताओं को विकसित करने में बाधा है। लेबल किए गए मीम्स की कमी को दूर करने के लिए, हम मल्टीमॉडल मीम्स क्लासिफायर के प्रशिक्षण को यूनिमॉडल (केवल छवि और केवल पाठ) डेटा के साथ पूरक करने का प्रस्ताव करते हैं। इस कार्य में, हम पर्यवेक्षित मध्यवर्ती प्रशिक्षण का एक नया संस्करण प्रस्तुत करते हैं जो अपेक्षाकृत प्रचुर मात्रा में भावना-लेबल वाले यूनिमॉडल डेटा का उपयोग करता है। हमारे परिणाम यूनिमॉडल टेक्स्ट डेटा के समावेश से सांख्यिकीय रूप से महत्वपूर्ण प्रदर्शन सुधार दिखाते हैं। इसके अलावा, हम दिखाते हैं कि लेबल किए गए मीम्स के प्रशिक्षण सेट को डाउनस्ट्रीम मॉडल के प्रदर्शन को कम किए बिना 40% तक कम किया जा सकता है।
जैसे-जैसे इंटरनेट मीम्स (या सिर्फ़ “मीम्स”) दुनिया भर के डिजिटल समुदायों में तेज़ी से लोकप्रिय और आम होते जा रहे हैं, प्राकृतिक भाषा वर्गीकरण कार्यों, जैसे कि भावना वर्गीकरण, नफ़रत भरे भाषण का पता लगाना और व्यंग्य का पता लगाना, को अभिव्यक्ति की इन मल्टीमॉडल इकाइयों तक विस्तारित करने के लिए शोध रुचि बढ़ी है। हालाँकि, अत्याधुनिक मल्टीमॉडल मीम्स भावना वर्गीकरणकर्ता समकालीन टेक्स्ट भावना वर्गीकरणकर्ताओं और छवि भावना वर्गीकरणकर्ताओं से काफ़ी कमज़ोर प्रदर्शन करते हैं। मल्टीमॉडल मीम्स की भावना को पहचानने के लिए सटीक और विश्वसनीय तरीकों के बिना, सोशल मीडिया भावना विश्लेषण विधियों को मीम्स के माध्यम से व्यक्त की गई राय को या तो अनदेखा करना चाहिए या गलत तरीके से अनुमान लगाना चाहिए। चूँकि मीम्स ऑनलाइन चर्चा में मुख्य आधार बने हुए हैं, इसलिए हमारे
उनके द्वारा व्यक्त अर्थ का अनुमान लगाने की क्षमता तेजी से प्रासंगिक हो जाती है (शर्मा एट अल., 2020; मिश्रा एट अल., 2023)।
यूनिमॉडल कंटेंट पर मीम्स पर सेंटीमेंट क्लासिफिकेशन प्रदर्शन के समान स्तर प्राप्त करना एक चुनौती बनी हुई है। अपनी मल्टीमॉडल प्रकृति के अलावा, मल्टीमॉडल मीम क्लासिफायर को सांस्कृतिक रूप से विशिष्ट इनपुट से सेंटीमेंट को समझना चाहिए जिसमें संक्षिप्त टेक्स्ट, सांस्कृतिक संदर्भ और दृश्य प्रतीकवाद शामिल हैं (निसेनबाम और शिफमैन, 2017)। हालाँकि प्रत्येक मोडैलिटी (टेक्स्ट और इमेज) से जानकारी निकालने के लिए विभिन्न तरीकों का इस्तेमाल किया गया है, हाल के कार्यों ने इस बात पर प्रकाश डाला है कि मीम क्लासिफायर को इन दो मोडैलिटी के बीच बातचीत के विभिन्न रूपों को भी पहचानना चाहिए (झू, 2020; शांग एट अल., 2021; हज़मैन एट अल., 2023)।
मेम क्लासिफायर को प्रशिक्षित करने के वर्तमान तरीके लेबल किए गए मेम (कीला एट अल., 2020; शर्मा एट अल., 2020; सूर्यवंशी एट अल., 2020; पटवा एट अल., 2022; मिश्रा एट अल., 2023) के डेटासेट पर निर्भर हैं, जिसमें प्रत्येक मोडैलिटी और प्रासंगिक क्रॉस-मोडल इंटरैक्शन से प्रासंगिक विशेषताओं को निकालने के लिए क्लासिफायर को प्रशिक्षित करने के लिए पर्याप्त नमूने शामिल हैं। कार्य की जटिलता के सापेक्ष, लेबल किए गए मेम की वर्तमान उपलब्धता अभी भी एक समस्या है, क्योंकि कई मौजूदा कार्यों में अधिक डेटा की आवश्यकता होती है (झू, 2020; कीला एट अल., 2020; शर्मा एट अल., 2022)।
इससे भी बुरी बात यह है कि मीम्स को लेबल करना मुश्किल है। मीम्स की जटिलता और संस्कृति पर निर्भरता
(गैल एट अल., 2016) सब्जेक्टिव परसेप्शन प्रॉब्लम (शर्मा एट अल., 2020) का कारण बनते हैं, जहाँ प्रत्येक एनोटेटर से मीम की सामग्री के लिए अलग-अलग परिचितता और भावनात्मक प्रतिक्रिया अलग-अलग ग्राउंड-ट्रुथ लेबल का कारण बनती है। दूसरा, मीम्स में अक्सर अन्य लोकप्रिय मीडिया (लैनेस्टे और वोलैड, 2017) से लिए गए कॉपीराइट-संरक्षित दृश्य तत्व होते हैं, जो डेटासेट प्रकाशित करते समय चिंताएँ बढ़ाते हैं। इसके लिए कीला एट अल. (2020) को लाइसेंस प्राप्त छवियों का उपयोग करके अपने डेटासेट में प्रत्येक मीम को मैन्युअल रूप से फिर से बनाना पड़ा, जिससे एनोटेशन प्रयास में काफी वृद्धि हुई। इसके अलावा, किसी दिए गए मीम को बनाने वाले दृश्य तत्व अक्सर एक अचानक चलन के रूप में उभरते हैं जो ऑनलाइन समुदायों में तेज़ी से फैलते हैं (बॉखेज, 2011; शिफ़मैन, 2014), आम मीम बोलचाल में जल्दी से नए अर्थपूर्ण समृद्ध दृश्य प्रतीकों को पेश करते हैं, जिनका पहले बहुत कम अर्थ होता था (सेगेव एट अल., 2015)। एक साथ लिए जाने पर, ये विशेषताएँ मीम्स की लेबलिंग को विशेष रूप से चुनौतीपूर्ण और महंगा बनाती हैं।
मेम सेंटीमेंट क्लासिफायर को प्रशिक्षित करने के लिए अधिक डेटा-कुशल तरीकों की तलाश में, हमारा काम अपेक्षाकृत प्रचुर मात्रा में यूनिमॉडल सेंटीमेंट-लेबल किए गए डेटा, यानी केवल छवि और केवल पाठ नमूनों के साथ सेंटीमेंट विश्लेषण डेटासेट का लाभ उठाने का प्रयास करता है। हम ऐसा करने के लिए फांग एट अल. (2019) के इंटरमीडिएट लेबल्डडेटा टास्क (एसटीआईएलटी) पर पूरक प्रशिक्षण का उपयोग करते हैं, जो डेटा-दुर्लभ प्राकृतिक भाषा समझ (एनएलयू) कार्यों के लिए प्रीट्रेन्ड टेक्स्ट एनकोडर को ठीक करते समय अक्सर सामने आने वाले कम प्रदर्शन को संबोधित करता है। फांग एट अल. के एसटीआईएलटी दृष्टिकोण में तीन चरण शामिल हैं:
1. पूर्व प्रशिक्षित भार को क्लासिफायर मॉडल में लोड करें।
2. मॉडल को पर्यवेक्षित शिक्षण कार्य पर परिशोधित करें जिसके लिए डेटा आसानी से उपलब्ध है (मध्यवर्ती कार्य)।
3. मॉडल को डेटा-दुर्लभ कार्य (लक्ष्य कार्य) पर फाइनट्यून करें जो मध्यवर्ती कार्य से अलग हो।
STILT को विभिन्न प्रकार के टेक्स्ट-ओनली टारगेट कार्यों (पोथ एट अल., 2021; वांग एट अल., 2019) में विभिन्न मॉडलों के प्रदर्शन में सुधार करने के लिए दिखाया गया है। इसके अलावा, प्रुक्साचटकुन एट अल. (2020) ने देखा कि STILT विशेष रूप से छोटे डेटासेट वाले NLU में टारगेट कार्यों में प्रभावी है, जैसे WiC (पिलेहवर और कैमाचो-कोलाडोस, 2019) और बूलक्यू (क्लार्क एट अल., 2019)। हालांकि, उन्होंने यह भी दिखाया कि इस दृष्टिकोण के प्रदर्शन लाभ असंगत हैं और किसी भी दिए गए टारगेट कार्य के लिए उपयुक्त मध्यवर्ती कार्यों को चुनने पर निर्भर करते हैं। कुछ मामलों में, इंटरमीडिएट प्रशिक्षण टारगेट कार्य प्रदर्शन के लिए हानिकारक पाया गया; जिसे प्रुक्साचटकुन एट अल. (2020) ने प्रत्येक इंटरमीडिएट और टारगेट कार्य जोड़ी के लिए आवश्यक "वाक्यविन्यास और अर्थ कौशल" के बीच अंतर के लिए जिम्मेदार ठहराया। हालांकि, STILT का अभी तक ऐसे कॉन्फ़िगरेशन में परीक्षण नहीं किया गया है जिसमें इंटरमीडिएट और टारगेट कार्यों में अलग-अलग इनपुट मोडैलिटी हों।
हालाँकि, किसी मीम के टेक्स्ट या इमेज को अलग से देखने से उसका पूरा मतलब नहीं पता चलता (कीला एट अल., 2020), हमें संदेह है कि यूनिमॉडल सेंटीमेंट डेटा मीम की भावना को समझने के लिए प्रासंगिक कौशल को शामिल करने में मदद कर सकता है। STILT के एक नए प्रकार का प्रस्ताव करके जो मल्टीमॉडल मीम सेंटीमेंट क्लासिफायर को प्रशिक्षित करने में एक मध्यवर्ती कार्य के रूप में यूनिमॉडल सेंटीमेंट विश्लेषण डेटा का उपयोग करता है, हम निम्नलिखित प्रश्नों का उत्तर देते हैं:
RQ1 : क्या मल्टीमॉडल मेम क्लासिफायर के प्रशिक्षण को यूनिमॉडल सेंटीमेंट डेटा के साथ पूरक करने से इसके प्रदर्शन में उल्लेखनीय सुधार होता है?
हमने अपने प्रस्तावित दृष्टिकोण को केवल-छवि और केवल-पाठ 3-वर्ग भावना डेटा (क्रमशः छवि-एसटीआईएलटी और पाठ-एसटीआईएलटी बनाना) के साथ अलग-अलग परीक्षण किया, जैसा कि चित्र 1 में दिखाया गया है। यदि कोई भी प्रभावी साबित होता है, तो हम अतिरिक्त रूप से उत्तर देते हैं:
RQ2 : यूनिमॉडल STILT के साथ, हम मीम सेंटीमेंट क्लासिफायर के प्रदर्शन को संरक्षित करते हुए लेबल किए गए मीम्स की मात्रा को किस हद तक कम कर सकते हैं?
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।