paint-brush
মাল্টিমোডাল মেম সেন্টিমেন্ট ক্লাসিফিকেশনের জন্য ইউনিমোডাল ইন্টারমিডিয়েট ট্রেনিংদ্বারা@memeology
404 পড়া
404 পড়া

মাল্টিমোডাল মেম সেন্টিমেন্ট ক্লাসিফিকেশনের জন্য ইউনিমোডাল ইন্টারমিডিয়েট ট্রেনিং

অতিদীর্ঘ; পড়তে

একটি অভিনব পদ্ধতি মাল্টিমোডাল মেম সেন্টিমেন্ট শ্রেণীবিভাগ উন্নত করতে ইউনিমোডাল সেন্টিমেন্ট ডেটা ব্যবহার করে, লেবেলযুক্ত ডেটা ঘাটতি মোকাবেলা করে এবং উল্লেখযোগ্যভাবে কর্মক্ষমতা উন্নত করে। এই কৌশলটি ক্লাসিফায়ার পারফরম্যান্সের সাথে আপস না করে প্রশিক্ষণের জন্য প্রয়োজনীয় লেবেলযুক্ত মেমের পরিমাণ হ্রাস করার অনুমতি দেয়।
featured image - মাল্টিমোডাল মেম সেন্টিমেন্ট ক্লাসিফিকেশনের জন্য ইউনিমোডাল ইন্টারমিডিয়েট ট্রেনিং
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

লেখক:

(1) মুজাফফর হাজমান, ইউনিভার্সিটি অফ গালওয়ে, আয়ারল্যান্ড;

(2) সুসান ম্যাককিভার, টেকনোলজিক্যাল ইউনিভার্সিটি ডাবলিন, আয়ারল্যান্ড;

(3) জোসেফাইন গ্রিফিথ, গালওয়ে বিশ্ববিদ্যালয়, আয়ারল্যান্ড।

লিঙ্কের টেবিল

বিমূর্ত এবং ভূমিকা

সম্পর্কিত কাজ

পদ্ধতি

ফলাফল

সীমাবদ্ধতা এবং ভবিষ্যতের কাজ

উপসংহার, স্বীকৃতি, এবং রেফারেন্স

একটি হাইপারপ্যারামিটার এবং সেটিংস

বি মেট্রিক: ওজনযুক্ত F1-স্কোর

সি স্থাপত্য বিবরণ

ডি পারফরম্যান্স বেঞ্চমার্কিং

ই কন্টিনজেন্সি টেবিল: বেসলাইন বনাম টেক্সট-STILT

বিমূর্ত

ইন্টারনেট মেমস স্বয়ংক্রিয় অনুভূতি শ্রেণীবিভাগের জন্য ব্যবহারকারী-উত্পাদিত সামগ্রীর একটি চ্যালেঞ্জিং ফর্ম হিসাবে রয়ে গেছে। লেবেলযুক্ত মেমের প্রাপ্যতা মাল্টিমোডাল মেমের অনুভূতি শ্রেণীবদ্ধকরণের বিকাশের জন্য একটি বাধা। লেবেলযুক্ত মেমের ঘাটতি মেটাতে, আমরা ইউনিমোডাল (শুধুমাত্র চিত্র এবং পাঠ্যমাত্র) ডেটা সহ একটি মাল্টিমোডাল মেম ক্লাসিফায়ারের প্রশিক্ষণের পরিপূরক করার প্রস্তাব করছি। এই কাজে, আমরা তত্ত্বাবধানে মধ্যবর্তী প্রশিক্ষণের একটি অভিনব রূপ উপস্থাপন করি যা তুলনামূলকভাবে প্রচুর অনুভূতি-লেবেলযুক্ত ইউনিমোডাল ডেটা ব্যবহার করে। আমাদের ফলাফলগুলি ইউনিমোডাল টেক্সট ডেটার সংযোজন থেকে একটি পরিসংখ্যানগতভাবে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি দেখায়। তদ্ব্যতীত, আমরা দেখাই যে লেবেলযুক্ত মেমের প্রশিক্ষণ সেটটি ডাউনস্ট্রিম মডেলের কার্যকারিতা হ্রাস না করে 40% হ্রাস করা যেতে পারে।

1। পরিচিতি

ইন্টারনেট মেমস (বা শুধু "মেমস") বিশ্বব্যাপী ডিজিটাল সম্প্রদায়গুলিতে ক্রমবর্ধমান জনপ্রিয় এবং সাধারণ হয়ে উঠলে, অভিব্যক্তির এই মাল্টিমোডাল ইউনিটগুলিতে অনুভূতির শ্রেণীবিভাগ, ঘৃণামূলক বক্তব্য সনাক্তকরণ এবং ব্যঙ্গ সনাক্তকরণের মতো প্রাকৃতিক ভাষা শ্রেণীবিভাগের কাজগুলিকে প্রসারিত করার জন্য গবেষণার আগ্রহ বেড়েছে। . যাইহোক, অত্যাধুনিক মাল্টিমডাল মেম সেন্টিমেন্ট ক্লাসিফায়ার সমসাময়িক টেক্সট সেন্টিমেন্ট ক্লাসিফায়ার এবং ইমেজ সেন্টিমেন্ট ক্লাসিফায়ার উল্লেখযোগ্যভাবে কম পারফর্ম করে। মাল্টিমোডাল মেমের অনুভূতি সনাক্ত করার জন্য সঠিক এবং নির্ভরযোগ্য পদ্ধতি ব্যতীত, সোশ্যাল মিডিয়া সেন্টিমেন্ট বিশ্লেষণ পদ্ধতিগুলিকে অবশ্যই উপেক্ষা করতে হবে বা মেমের মাধ্যমে প্রকাশ করা মতামতকে ভুলভাবে অনুমান করতে হবে। মেমস অনলাইন বক্তৃতায় একটি প্রধান ভিত্তি হতে অবিরত, আমাদের

তারা যে অর্থ প্রকাশ করে তা অনুমান করার ক্ষমতা ক্রমশ প্রাসঙ্গিক হয়ে ওঠে (শর্মা এট আল।, 2020; মিশ্র এট আল।, 2023)।


ইউনিমোডাল বিষয়বস্তুর মতো মেমেসে অনুরূপ স্তরের অনুভূতির শ্রেণীবিভাগ কর্মক্ষমতা অর্জন করা একটি চ্যালেঞ্জ রয়ে গেছে। এর মাল্টিমোডাল প্রকৃতির পাশাপাশি, মাল্টিমোডাল মেম ক্লাসিফায়ারদের অবশ্যই সংক্ষিপ্ত পাঠ্য, সাংস্কৃতিক রেফারেন্স এবং ভিজ্যুয়াল সিম্বলিজম (নিসেনবাম এবং শিফম্যান, 2017) সমন্বিত সাংস্কৃতিকভাবে নির্দিষ্ট ইনপুটগুলি থেকে অনুভূতি বুঝতে হবে। যদিও প্রতিটি পদ্ধতি (টেক্সট এবং ইমেজ) থেকে তথ্য বের করার জন্য বিভিন্ন পন্থা ব্যবহার করা হয়েছে সাম্প্রতিক কাজগুলি হাইলাইট করেছে যে মেম ক্লাসিফায়ারদের অবশ্যই এই দুটি পদ্ধতির মধ্যে মিথস্ক্রিয়াগুলির বিভিন্ন রূপকে চিনতে হবে (ঝু, 2020; শাং এট আল।, 2021; হ্যাজম্যান এট আল।, 2023)।


মেমে ক্লাসিফায়ারদের প্রশিক্ষণের বর্তমান পদ্ধতিগুলি লেবেলযুক্ত মেমের ডেটাসেটের উপর নির্ভরশীল (কিলা এট আল।, 2020; শর্মা এট আল।, 2020; সূর্যবংশী এট আল।, 2020; পাটওয়া এট আল।, 2022; মিশ্র এট আল।, 2023) প্রতিটি পদ্ধতি এবং প্রাসঙ্গিক ক্রস-মোডাল মিথস্ক্রিয়া থেকে প্রাসঙ্গিক বৈশিষ্ট্যগুলি বের করার জন্য ক্লাসিফায়ারদের প্রশিক্ষণের জন্য পর্যাপ্ত নমুনা। টাস্কের জটিলতার সাথে সম্পর্কিত, লেবেলযুক্ত মেমের বর্তমান উপলব্ধতা এখনও একটি সমস্যা তৈরি করে, কারণ অনেক বর্তমান কাজ আরও ডেটার জন্য আহ্বান করে (ঝু, 2020; কিয়েলা এট আল।, 2020; শর্মা এট আল।, 2022)।


আরও খারাপ, মেমস লেবেল করা কঠিন। মেমের জটিলতা এবং সংস্কৃতি নির্ভরতা

(গাল এট আল।, 2016) বিষয়গত উপলব্ধি সমস্যা সৃষ্টি করে (শর্মা এট আল।, 2020), যেখানে প্রতিটি টীকাকার থেকে একটি মেমের বিষয়বস্তুর বিভিন্ন পরিচিতি এবং মানসিক প্রতিক্রিয়া বিভিন্ন গ্রাউন্ড-ট্রুথ লেবেল সৃষ্টি করে। দ্বিতীয়ত, মেমগুলিতে প্রায়ই অন্যান্য জনপ্রিয় মিডিয়া থেকে নেওয়া কপিরাইট-সুরক্ষিত ভিজ্যুয়াল উপাদান থাকে (Laineste and Voolaid, 2017), ডেটাসেট প্রকাশ করার সময় উদ্বেগ বাড়ায়। এর জন্য কিয়েলা এট আল প্রয়োজন। (2020) লাইসেন্সকৃত ছবি ব্যবহার করে প্রতিটি মেমকে তাদের ডেটাসেটে ম্যানুয়ালি পুনর্গঠন করতে, উল্লেখযোগ্যভাবে টীকাকরণের প্রচেষ্টা বৃদ্ধি করে। তদুপরি, একটি প্রদত্ত মেমের অন্তর্ভুক্ত ভিজ্যুয়াল উপাদানগুলি প্রায়শই একটি আকস্মিক প্রবণতা হিসাবে আবির্ভূত হয় যা অনলাইন সম্প্রদায়ের মাধ্যমে দ্রুত ছড়িয়ে পড়ে (Bauckhage, 2011; Shifman, 2014), দ্রুত নতুন শব্দার্থগতভাবে সমৃদ্ধ ভিজ্যুয়াল চিহ্নগুলিকে সাধারণ মেমে ভাষাতে প্রবর্তন করে, যা আগে সামান্য অর্থ বহন করে। (সেগেভ এট আল।, 2015)। একসাথে নেওয়া, এই বৈশিষ্ট্যগুলি মেমের লেবেলকে বিশেষভাবে চ্যালেঞ্জিং এবং ব্যয়বহুল করে তোলে।


মেমে সেন্টিমেন্ট ক্লাসিফায়ারদের প্রশিক্ষণের জন্য আরও ডেটা-দক্ষ পদ্ধতি খোঁজার ক্ষেত্রে, আমাদের কাজ তুলনামূলকভাবে প্রচুর পরিমাণে ইউনিমোডাল সেন্টিমেন্ট-লেবেলযুক্ত ডেটা, অর্থাৎ শুধুমাত্র-ইমেজ এবং টেক্সট-অনলি নমুনা সহ সেন্টিমেন্ট বিশ্লেষণ ডেটাসেটগুলি লাভ করার চেষ্টা করে। আমরা ফাং এট আল। এর (2019) সাপ্লিমেন্টারি ট্রেনিং অন ইন্টারমিডিয়েট লেবেলডডাটা টাস্কস (STILT) ব্যবহার করে করি যা ডেটা-দুর্লভ ন্যাচারাল ল্যাঙ্গুয়েজ আন্ডারস্ট্যান্ডিং (NLU) কাজগুলিতে পূর্বপ্রশিক্ষিত টেক্সট এনকোডারগুলিকে ফাইনটিউন করার সময় প্রায়শই নিম্ন কর্মক্ষমতার সম্মুখীন হয়। ফাং এট আল এর STILT পদ্ধতির তিনটি ধাপ রয়েছে:


1. একটি ক্লাসিফায়ার মডেলে আগে থেকে প্রশিক্ষিত ওজন লোড করুন।


2. একটি তত্ত্বাবধানে থাকা শেখার টাস্কের মডেলটি ফাইনটিউন করুন যার জন্য ডেটা সহজে পাওয়া যায় (মধ্যবর্তী কাজ)।


3. মধ্যবর্তী টাস্ক থেকে স্বতন্ত্র একটি ডেটা-দুষ্প্রাপ্য টাস্ক (টার্গেট টাস্ক) এর মডেলটি ফিনিটিউন করুন।


STILT বিভিন্ন মডেলের কর্মক্ষমতা উন্নত করতে দেখানো হয়েছে শুধুমাত্র টেক্সট-টেক্সট টার্গেটের বিভিন্ন কাজে (Poth et al., 2021; Wang et al., 2019)। অধিকন্তু, প্রুকসাচাটকুন এট আল। (2020) পর্যবেক্ষণ করেছে যে STILT ছোট ডেটাসেট সহ NLU-তে টার্গেট কাজগুলিতে বিশেষভাবে কার্যকর, যেমন WiC (Pilehvar এবং Camacho-Collados, 2019) এবং BoolQ (Clark et al., 2019)৷ যাইহোক, তারা আরও দেখিয়েছে যে এই পদ্ধতির কার্যকারিতা সুবিধাগুলি অসামঞ্জস্যপূর্ণ এবং যে কোনও লক্ষ্য কাজের জন্য উপযুক্ত মধ্যবর্তী কাজগুলি বেছে নেওয়ার উপর নির্ভর করে। কিছু ক্ষেত্রে, মধ্যবর্তী প্রশিক্ষণ টার্গেট টাস্ক পারফরম্যান্সের জন্য ক্ষতিকর বলে প্রমাণিত হয়েছে; যা Pruksachatkun et al. (2020) প্রতিটি মধ্যবর্তী এবং টার্গেট টাস্ক পেয়ারের জন্য প্রয়োজনীয় "সিনট্যাকটিক এবং শব্দার্থিক দক্ষতা" এর মধ্যে পার্থক্যের জন্য দায়ী। যাইহোক, STILT এখনও এমন একটি কনফিগারেশনে পরীক্ষা করা হয়নি যেখানে মধ্যবর্তী এবং টার্গেট কাজগুলির বিভিন্ন ইনপুট পদ্ধতি রয়েছে।


যদিও শুধুমাত্র বিচ্ছিন্নভাবে একটি মেমের টেক্সট বা ইমেজ বিবেচনা করলে এর সম্পূর্ণ অর্থ বোঝা যায় না (Kiela et al., 2020), আমরা সন্দেহ করি যে ইউনিমোডাল সেন্টিমেন্ট ডেটা মেমের অনুভূতি বোঝার জন্য প্রাসঙ্গিক দক্ষতা অন্তর্ভুক্ত করতে সাহায্য করতে পারে। STILT-এর একটি অভিনব রূপের প্রস্তাব করে যা একটি মাল্টিমোডাল মেম সেন্টিমেন্ট ক্লাসিফায়ারকে প্রশিক্ষণের জন্য একটি মধ্যবর্তী কাজ হিসাবে ইউনিমোডাল সেন্টিমেন্ট বিশ্লেষণ ডেটা ব্যবহার করে, আমরা নিম্নলিখিত প্রশ্নের উত্তর দিই:


চিত্র 1: বেসলাইনে প্রশিক্ষণের কাজ, ফাং এট আল।'স (2019) STILT, এবং আমাদের প্রস্তাবিত Image-STILT এবং TextSTILT পদ্ধতি।


RQ1 : ইউনিমোডাল সেন্টিমেন্ট ডেটা সহ একটি মাল্টিমোডাল মেম ক্লাসিফায়ারের প্রশিক্ষণের পরিপূরক কি এর কার্যকারিতাকে উল্লেখযোগ্যভাবে উন্নত করে?


আমরা আলাদাভাবে আমাদের প্রস্তাবিত পদ্ধতিকে শুধুমাত্র-ইমেজ এবং টেক্সট-শুধুমাত্র 3-শ্রেণির সেন্টিমেন্ট ডেটার সাথে পরীক্ষা করেছি (চিত্র 1-এ যেমন দেখানো হয়েছে যথাক্রমে Image-STILT এবং Text-STILT তৈরি করা)। যদি উভয়ই কার্যকর প্রমাণিত হয়, আমরা অতিরিক্ত উত্তর দিই:


RQ2 : ইউনিমোডাল STILT-এর সাহায্যে, মেমে সেন্টিমেন্ট ক্লাসিফায়ারের কার্যকারিতা রক্ষা করার সময় আমরা লেবেলযুক্ত মেমের পরিমাণ কতটা কমাতে পারি?


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ