লেখক:
(1) রুই কাও, সিঙ্গাপুর ম্যানেজমেন্ট ইউনিভার্সিটি;
(2) মিং শান হি, সিঙ্গাপুর ইউনিভার্সিটি অফ ডিজাইন অ্যান্ড টেকনোলজি;
(3) Adriel Kuek, DSO ন্যাশনাল ল্যাবরেটরিজ;
(4) ওয়েন-হাউ চং, সিঙ্গাপুর ম্যানেজমেন্ট ইউনিভার্সিটি;
(5) রয় কা-ওয়েই লি, সিঙ্গাপুর ইউনিভার্সিটি অফ ডিজাইন অ্যান্ড টেকনোলজি
(6) জিং জিয়াং, সিঙ্গাপুর ম্যানেজমেন্ট ইউনিভার্সিটি।
মেমস , সাধারণত হাস্যকর বা ব্যঙ্গাত্মক হওয়ার উদ্দেশ্যে, ঘৃণ্য বিষয়বস্তুর বিস্তারের জন্য ক্রমবর্ধমানভাবে শোষণ করা হচ্ছে, যা অনলাইন ঘৃণ্য মেম সনাক্তকরণের চ্যালেঞ্জিং কাজকে নেতৃত্ব দেয় [5, 12, 27]। বিদ্বেষপূর্ণ মেমের বিস্তারের বিরুদ্ধে লড়াই করার জন্য, কাজের একটি লাইন ঘৃণ্য মেম সনাক্তকরণকে মাল্টিমডাল শ্রেণীবিভাগের কাজ হিসাবে বিবেচনা করে। গবেষকরা প্রাক-প্রশিক্ষিত দৃষ্টি ভাষা মডেল (PVLMs) প্রয়োগ করেছেন এবং মেম সনাক্তকরণ ডেটা [20, 26, 34, 37] এর উপর ভিত্তি করে তাদের সূক্ষ্ম সুর করেছেন। কর্মক্ষমতা উন্নত করতে, কেউ কেউ মডেল এনসেম্বলিং চেষ্টা করেছেন [20, 26, 34]। কাজের আরেকটি লাইন প্রাক-প্রশিক্ষিত মডেল (যেমন, BERT [4] এবং CLIP [29]) কে টাস্ক নির্দিষ্ট মডেল আর্কিটেকচারের সাথে একত্রিত করার বিবেচনা করে এবং সেগুলিকে শেষ থেকে শেষ করে [13, 14, 28] টিউন করে। সম্প্রতি, [2]-এর লেখকরা সমস্ত মেম তথ্যকে পাঠ্যে রূপান্তরিত করার চেষ্টা করেছেন এবং ভাষার মডেলগুলিতে উপস্থিত প্রাসঙ্গিক পটভূমি জ্ঞানকে আরও ভালভাবে লাভ করার জন্য ভাষার মডেলগুলিকে প্রম্পট করেছেন। এই পদ্ধতিটি দুটি ঘৃণ্য মেম সনাক্তকরণ বেঞ্চমার্কে অত্যাধুনিক ফলাফল অর্জন করে। যাইহোক, এটি চিত্র ক্যাপশনিংয়ের মাধ্যমে চিত্রটি বর্ণনা করার জন্য একটি সাধারণ পদ্ধতি গ্রহণ করে, প্রায়শই ঘৃণ্য মেম সনাক্তকরণের জন্য প্রয়োজনীয় গুরুত্বপূর্ণ বিষয়গুলিকে উপেক্ষা করে। এই কাজে, আমরা শূন্য-শট VQA পদ্ধতিতে ঘৃণ্য বিষয়বস্তু-কেন্দ্রিক প্রশ্নগুলির সাথে প্রাক-প্রশিক্ষিত দৃষ্টি-ভাষা মডেলগুলিকে অনুরোধ করে অনুসন্ধান-ভিত্তিক ক্যাপশনিংয়ের মাধ্যমে এই সমস্যাটির সমাধান করতে চাই।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।