লেখক:
(1) মুজাফফর হাজমান, ইউনিভার্সিটি অফ গালওয়ে, আয়ারল্যান্ড;
(2) সুসান ম্যাককিভার, টেকনোলজিক্যাল ইউনিভার্সিটি ডাবলিন, আয়ারল্যান্ড;
(3) জোসেফাইন গ্রিফিথ, গালওয়ে বিশ্ববিদ্যালয়, আয়ারল্যান্ড।
উপসংহার, স্বীকৃতি, এবং রেফারেন্স
একটি হাইপারপ্যারামিটার এবং সেটিংস
ই কন্টিনজেন্সি টেবিল: বেসলাইন বনাম টেক্সট-STILT
ইন্টারনেট মেমস স্বয়ংক্রিয় অনুভূতি শ্রেণীবিভাগের জন্য ব্যবহারকারী-উত্পাদিত সামগ্রীর একটি চ্যালেঞ্জিং ফর্ম হিসাবে রয়ে গেছে। লেবেলযুক্ত মেমের প্রাপ্যতা মাল্টিমোডাল মেমের অনুভূতি শ্রেণীবদ্ধকরণের বিকাশের জন্য একটি বাধা। লেবেলযুক্ত মেমের ঘাটতি মেটাতে, আমরা ইউনিমোডাল (শুধুমাত্র চিত্র এবং পাঠ্যমাত্র) ডেটা সহ একটি মাল্টিমোডাল মেম ক্লাসিফায়ারের প্রশিক্ষণের পরিপূরক করার প্রস্তাব করছি। এই কাজে, আমরা তত্ত্বাবধানে মধ্যবর্তী প্রশিক্ষণের একটি অভিনব রূপ উপস্থাপন করি যা তুলনামূলকভাবে প্রচুর অনুভূতি-লেবেলযুক্ত ইউনিমোডাল ডেটা ব্যবহার করে। আমাদের ফলাফলগুলি ইউনিমোডাল টেক্সট ডেটার সংযোজন থেকে একটি পরিসংখ্যানগতভাবে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি দেখায়। তদ্ব্যতীত, আমরা দেখাই যে লেবেলযুক্ত মেমের প্রশিক্ষণ সেটটি ডাউনস্ট্রিম মডেলের কার্যকারিতা হ্রাস না করে 40% হ্রাস করা যেতে পারে।
ইন্টারনেট মেমস (বা শুধু "মেমস") বিশ্বব্যাপী ডিজিটাল সম্প্রদায়গুলিতে ক্রমবর্ধমান জনপ্রিয় এবং সাধারণ হয়ে উঠলে, অভিব্যক্তির এই মাল্টিমোডাল ইউনিটগুলিতে অনুভূতির শ্রেণীবিভাগ, ঘৃণামূলক বক্তব্য সনাক্তকরণ এবং ব্যঙ্গ সনাক্তকরণের মতো প্রাকৃতিক ভাষা শ্রেণীবিভাগের কাজগুলিকে প্রসারিত করার জন্য গবেষণার আগ্রহ বেড়েছে। . যাইহোক, অত্যাধুনিক মাল্টিমডাল মেম সেন্টিমেন্ট ক্লাসিফায়ার সমসাময়িক টেক্সট সেন্টিমেন্ট ক্লাসিফায়ার এবং ইমেজ সেন্টিমেন্ট ক্লাসিফায়ার উল্লেখযোগ্যভাবে কম পারফর্ম করে। মাল্টিমোডাল মেমের অনুভূতি সনাক্ত করার জন্য সঠিক এবং নির্ভরযোগ্য পদ্ধতি ব্যতীত, সোশ্যাল মিডিয়া সেন্টিমেন্ট বিশ্লেষণ পদ্ধতিগুলিকে অবশ্যই উপেক্ষা করতে হবে বা মেমের মাধ্যমে প্রকাশ করা মতামতকে ভুলভাবে অনুমান করতে হবে। মেমস অনলাইন বক্তৃতায় একটি প্রধান ভিত্তি হতে অবিরত, আমাদের
তারা যে অর্থ প্রকাশ করে তা অনুমান করার ক্ষমতা ক্রমশ প্রাসঙ্গিক হয়ে ওঠে (শর্মা এট আল।, 2020; মিশ্র এট আল।, 2023)।
ইউনিমোডাল বিষয়বস্তুর মতো মেমেসে অনুরূপ স্তরের অনুভূতির শ্রেণীবিভাগ কর্মক্ষমতা অর্জন করা একটি চ্যালেঞ্জ রয়ে গেছে। এর মাল্টিমোডাল প্রকৃতির পাশাপাশি, মাল্টিমোডাল মেম ক্লাসিফায়ারদের অবশ্যই সংক্ষিপ্ত পাঠ্য, সাংস্কৃতিক রেফারেন্স এবং ভিজ্যুয়াল সিম্বলিজম (নিসেনবাম এবং শিফম্যান, 2017) সমন্বিত সাংস্কৃতিকভাবে নির্দিষ্ট ইনপুটগুলি থেকে অনুভূতি বুঝতে হবে। যদিও প্রতিটি পদ্ধতি (টেক্সট এবং ইমেজ) থেকে তথ্য বের করার জন্য বিভিন্ন পন্থা ব্যবহার করা হয়েছে সাম্প্রতিক কাজগুলি হাইলাইট করেছে যে মেম ক্লাসিফায়ারদের অবশ্যই এই দুটি পদ্ধতির মধ্যে মিথস্ক্রিয়াগুলির বিভিন্ন রূপকে চিনতে হবে (ঝু, 2020; শাং এট আল।, 2021; হ্যাজম্যান এট আল।, 2023)।
মেমে ক্লাসিফায়ারদের প্রশিক্ষণের বর্তমান পদ্ধতিগুলি লেবেলযুক্ত মেমের ডেটাসেটের উপর নির্ভরশীল (কিলা এট আল।, 2020; শর্মা এট আল।, 2020; সূর্যবংশী এট আল।, 2020; পাটওয়া এট আল।, 2022; মিশ্র এট আল।, 2023) প্রতিটি পদ্ধতি এবং প্রাসঙ্গিক ক্রস-মোডাল মিথস্ক্রিয়া থেকে প্রাসঙ্গিক বৈশিষ্ট্যগুলি বের করার জন্য ক্লাসিফায়ারদের প্রশিক্ষণের জন্য পর্যাপ্ত নমুনা। টাস্কের জটিলতার সাথে সম্পর্কিত, লেবেলযুক্ত মেমের বর্তমান উপলব্ধতা এখনও একটি সমস্যা তৈরি করে, কারণ অনেক বর্তমান কাজ আরও ডেটার জন্য আহ্বান করে (ঝু, 2020; কিয়েলা এট আল।, 2020; শর্মা এট আল।, 2022)।
আরও খারাপ, মেমস লেবেল করা কঠিন। মেমের জটিলতা এবং সংস্কৃতি নির্ভরতা
(গাল এট আল।, 2016) বিষয়গত উপলব্ধি সমস্যা সৃষ্টি করে (শর্মা এট আল।, 2020), যেখানে প্রতিটি টীকাকার থেকে একটি মেমের বিষয়বস্তুর বিভিন্ন পরিচিতি এবং মানসিক প্রতিক্রিয়া বিভিন্ন গ্রাউন্ড-ট্রুথ লেবেল সৃষ্টি করে। দ্বিতীয়ত, মেমগুলিতে প্রায়ই অন্যান্য জনপ্রিয় মিডিয়া থেকে নেওয়া কপিরাইট-সুরক্ষিত ভিজ্যুয়াল উপাদান থাকে (Laineste and Voolaid, 2017), ডেটাসেট প্রকাশ করার সময় উদ্বেগ বাড়ায়। এর জন্য কিয়েলা এট আল প্রয়োজন। (2020) লাইসেন্সকৃত ছবি ব্যবহার করে প্রতিটি মেমকে তাদের ডেটাসেটে ম্যানুয়ালি পুনর্গঠন করতে, উল্লেখযোগ্যভাবে টীকাকরণের প্রচেষ্টা বৃদ্ধি করে। তদুপরি, একটি প্রদত্ত মেমের অন্তর্ভুক্ত ভিজ্যুয়াল উপাদানগুলি প্রায়শই একটি আকস্মিক প্রবণতা হিসাবে আবির্ভূত হয় যা অনলাইন সম্প্রদায়ের মাধ্যমে দ্রুত ছড়িয়ে পড়ে (Bauckhage, 2011; Shifman, 2014), দ্রুত নতুন শব্দার্থগতভাবে সমৃদ্ধ ভিজ্যুয়াল চিহ্নগুলিকে সাধারণ মেমে ভাষাতে প্রবর্তন করে, যা আগে সামান্য অর্থ বহন করে। (সেগেভ এট আল।, 2015)। একসাথে নেওয়া, এই বৈশিষ্ট্যগুলি মেমের লেবেলকে বিশেষভাবে চ্যালেঞ্জিং এবং ব্যয়বহুল করে তোলে।
মেমে সেন্টিমেন্ট ক্লাসিফায়ারদের প্রশিক্ষণের জন্য আরও ডেটা-দক্ষ পদ্ধতি খোঁজার ক্ষেত্রে, আমাদের কাজ তুলনামূলকভাবে প্রচুর পরিমাণে ইউনিমোডাল সেন্টিমেন্ট-লেবেলযুক্ত ডেটা, অর্থাৎ শুধুমাত্র-ইমেজ এবং টেক্সট-অনলি নমুনা সহ সেন্টিমেন্ট বিশ্লেষণ ডেটাসেটগুলি লাভ করার চেষ্টা করে। আমরা ফাং এট আল। এর (2019) সাপ্লিমেন্টারি ট্রেনিং অন ইন্টারমিডিয়েট লেবেলডডাটা টাস্কস (STILT) ব্যবহার করে করি যা ডেটা-দুর্লভ ন্যাচারাল ল্যাঙ্গুয়েজ আন্ডারস্ট্যান্ডিং (NLU) কাজগুলিতে পূর্বপ্রশিক্ষিত টেক্সট এনকোডারগুলিকে ফাইনটিউন করার সময় প্রায়শই নিম্ন কর্মক্ষমতার সম্মুখীন হয়। ফাং এট আল এর STILT পদ্ধতির তিনটি ধাপ রয়েছে:
1. একটি ক্লাসিফায়ার মডেলে আগে থেকে প্রশিক্ষিত ওজন লোড করুন।
2. একটি তত্ত্বাবধানে থাকা শেখার টাস্কের মডেলটি ফাইনটিউন করুন যার জন্য ডেটা সহজে পাওয়া যায় (মধ্যবর্তী কাজ)।
3. মধ্যবর্তী টাস্ক থেকে স্বতন্ত্র একটি ডেটা-দুষ্প্রাপ্য টাস্ক (টার্গেট টাস্ক) এর মডেলটি ফিনিটিউন করুন।
STILT বিভিন্ন মডেলের কর্মক্ষমতা উন্নত করতে দেখানো হয়েছে শুধুমাত্র টেক্সট-টেক্সট টার্গেটের বিভিন্ন কাজে (Poth et al., 2021; Wang et al., 2019)। অধিকন্তু, প্রুকসাচাটকুন এট আল। (2020) পর্যবেক্ষণ করেছে যে STILT ছোট ডেটাসেট সহ NLU-তে টার্গেট কাজগুলিতে বিশেষভাবে কার্যকর, যেমন WiC (Pilehvar এবং Camacho-Collados, 2019) এবং BoolQ (Clark et al., 2019)৷ যাইহোক, তারা আরও দেখিয়েছে যে এই পদ্ধতির কার্যকারিতা সুবিধাগুলি অসামঞ্জস্যপূর্ণ এবং যে কোনও লক্ষ্য কাজের জন্য উপযুক্ত মধ্যবর্তী কাজগুলি বেছে নেওয়ার উপর নির্ভর করে। কিছু ক্ষেত্রে, মধ্যবর্তী প্রশিক্ষণ টার্গেট টাস্ক পারফরম্যান্সের জন্য ক্ষতিকর বলে প্রমাণিত হয়েছে; যা Pruksachatkun et al. (2020) প্রতিটি মধ্যবর্তী এবং টার্গেট টাস্ক পেয়ারের জন্য প্রয়োজনীয় "সিনট্যাকটিক এবং শব্দার্থিক দক্ষতা" এর মধ্যে পার্থক্যের জন্য দায়ী। যাইহোক, STILT এখনও এমন একটি কনফিগারেশনে পরীক্ষা করা হয়নি যেখানে মধ্যবর্তী এবং টার্গেট কাজগুলির বিভিন্ন ইনপুট পদ্ধতি রয়েছে।
যদিও শুধুমাত্র বিচ্ছিন্নভাবে একটি মেমের টেক্সট বা ইমেজ বিবেচনা করলে এর সম্পূর্ণ অর্থ বোঝা যায় না (Kiela et al., 2020), আমরা সন্দেহ করি যে ইউনিমোডাল সেন্টিমেন্ট ডেটা মেমের অনুভূতি বোঝার জন্য প্রাসঙ্গিক দক্ষতা অন্তর্ভুক্ত করতে সাহায্য করতে পারে। STILT-এর একটি অভিনব রূপের প্রস্তাব করে যা একটি মাল্টিমোডাল মেম সেন্টিমেন্ট ক্লাসিফায়ারকে প্রশিক্ষণের জন্য একটি মধ্যবর্তী কাজ হিসাবে ইউনিমোডাল সেন্টিমেন্ট বিশ্লেষণ ডেটা ব্যবহার করে, আমরা নিম্নলিখিত প্রশ্নের উত্তর দিই:
RQ1 : ইউনিমোডাল সেন্টিমেন্ট ডেটা সহ একটি মাল্টিমোডাল মেম ক্লাসিফায়ারের প্রশিক্ষণের পরিপূরক কি এর কার্যকারিতাকে উল্লেখযোগ্যভাবে উন্নত করে?
আমরা আলাদাভাবে আমাদের প্রস্তাবিত পদ্ধতিকে শুধুমাত্র-ইমেজ এবং টেক্সট-শুধুমাত্র 3-শ্রেণির সেন্টিমেন্ট ডেটার সাথে পরীক্ষা করেছি (চিত্র 1-এ যেমন দেখানো হয়েছে যথাক্রমে Image-STILT এবং Text-STILT তৈরি করা)। যদি উভয়ই কার্যকর প্রমাণিত হয়, আমরা অতিরিক্ত উত্তর দিই:
RQ2 : ইউনিমোডাল STILT-এর সাহায্যে, মেমে সেন্টিমেন্ট ক্লাসিফায়ারের কার্যকারিতা রক্ষা করার সময় আমরা লেবেলযুক্ত মেমের পরিমাণ কতটা কমাতে পারি?
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।