এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) রুই কাও, সিঙ্গাপুর ম্যানেজমেন্ট ইউনিভার্সিটি;
(2) মিং শান হি, সিঙ্গাপুর ইউনিভার্সিটি অফ ডিজাইন অ্যান্ড টেকনোলজি;
(3) Adriel Kuek, DSO ন্যাশনাল ল্যাবরেটরিজ;
(4) ওয়েন-হাউ চং, সিঙ্গাপুর ম্যানেজমেন্ট ইউনিভার্সিটি;
(5) রয় কা-ওয়েই লি, সিঙ্গাপুর ইউনিভার্সিটি অফ ডিজাইন অ্যান্ড টেকনোলজি
(6) জিং জিয়াং, সিঙ্গাপুর ম্যানেজমেন্ট ইউনিভার্সিটি।
আমরা CUDA11.2 সংস্করণ সহ PyTorch লাইব্রেরির অধীনে সমস্ত মডেল বাস্তবায়ন করি। আমরা Tesla V 100 GPU ব্যবহার করি, প্রতিটির ডেডিকেটেড মেমরি 32GB। ঘৃণ্য মেম সনাক্তকরণের জন্য বিশেষভাবে প্রয়োগ করা মডেলগুলির জন্য, আমরা লেখকের কাছ থেকে প্রকাশিত কোডগুলিকে পুনরায় প্রয়োগ করার জন্য গ্রহণ করি [4]। হাগিংফেস লাইব্রেরির অধীনে পাওয়া প্রাক-প্রশিক্ষিত মডেলগুলির জন্য, আমরা Huggingface [5], বিশেষ করে BERT [4], VisualBERT [18] এবং BLIP মডেলের প্যাকেজগুলি ব্যবহার করি। গর ভিলবার্ট [২৩], আমরা লেখকদের কাছ থেকে প্রকাশিত কোড গ্রহণ করি [6]। ALBEF [17] এবং BLIP-2 [15] এর জন্য, আমরা LAVIS লাইব্রেরির অধীনে প্যাকেজগুলি ব্যবহার করি [7]
প্রতিটি মেম ইমেজের জন্য, আমরা মেম পাঠ্যের মোট দৈর্ঘ্য এবং জেনেরিক ছবির ক্যাপশন (হয় ক্যাপশনিং মডেল থেকে বা ছবির বিষয়বস্তু সম্পর্কে জিজ্ঞাসা করে) 65 হতে সীমাবদ্ধ করি। প্রতিটি অতিরিক্ত প্রশ্নের জন্য, আমরা এর দৈর্ঘ্য সীমাবদ্ধ করি 20 এর চেয়ে ছোট। বাক্যটির সংমিশ্রণ সীমিত দৈর্ঘ্য অতিক্রম করলে, বাক্যটি ছেঁটে ফেলা হবে, অন্যথায়, বাক্যটি সীমিত দৈর্ঘ্যের চেয়ে ছোট হলে, এটি প্যাড করা হবে। আমরা সমস্ত মডেলের জন্য প্রশিক্ষণ যুগের সংখ্যা 10 সেট করেছি।
মডেল প্যারামিটারের সংখ্যা সারণী 11 এ সংক্ষিপ্ত করা হয়েছে।
স্থানের সীমাবদ্ধতার কারণে, আমরা কেবলমাত্র সারণী 6-এ নির্ভুলতার গবেষণায় নির্ভুলতার ফলাফল দেখাই। AUC এবং নির্ভুলতা উভয় সহ সম্পূর্ণ ফলাফল সারণি 12-এ সরবরাহ করা হয়েছে।
অনুচ্ছেদ 5.5-এ, আমরা প্রোক্যাপপ্রম্পটহেটকে মৌলিক প্রম্পটহেটের সাথে তুলনা করার জন্য কেসগুলির ভিজ্যুয়ালাইজেশন প্রদান করি। স্থানের সীমাবদ্ধতার কারণে, আমরা অন্য দুটি ডেটাসেটের উদাহরণ বাদ দিই। আমরা এই অংশে আরো ভিজ্যুয়ালাইজেশন কেস প্রদান. হারএম ডেটাসেটের কেসগুলি সারণি 9 এ চিত্রিত করা হয়েছে এবং MAMI ডেটাসেটের কেসগুলি সারণি 10 এ দেখানো হয়েছে।
অনুচ্ছেদ 5-এ, আমরা শুধুমাত্র তখনই ফলাফল রিপোর্ট করি যখন মডেলগুলি সমস্ত অনুসন্ধানী প্রশ্ন থেকে প্রো-ক্যাপ ব্যবহার করে। এই অংশে, আমরা সারণি 13-এ একটি একক অনুসন্ধানী প্রশ্নের উত্তর ব্যবহার করার সময় ফলাফলগুলি (সত্তার সাথে) রিপোর্ট করি।
ফলাফল অনুসারে, আমরা লক্ষ্য করি যে একটি একক অনুসন্ধানী প্রশ্নের উত্তর ব্যবহার করে মডেলগুলি সবই শক্তিশালী এবং কিছু এমনকি সমস্ত অনুসন্ধানী প্রশ্ন জিজ্ঞাসা করার ক্ষেত্রে হিউরিস্টিকভাবে ছাড়িয়ে যায় (যেমন, FHM-এ জাতীয়তা সম্পর্কে জিজ্ঞাসা করা প্রশ্ন ব্যবহার করা সমস্ত অনুসন্ধানী প্রশ্ন ব্যবহার করার চেয়ে ভাল)। এটি নির্দেশ করে যে সমস্ত অনুসন্ধানী ক্যাপশন ব্যবহার করা সর্বোত্তম সমাধান নাও হতে পারে এবং অপ্রাসঙ্গিক চিত্র বিবরণ তৈরি করতে পারে। উদাহরণস্বরূপ, কালো মানুষদের লক্ষ্য করে একটি ঘৃণ্য মেমের মুখোমুখি হলে, চিত্রের লোকেদের ধর্ম জিজ্ঞাসা করা অর্থহীন। মজার বিষয় হল, MAMI-তে, শুধুমাত্র লিঙ্গ সম্পর্কে অনুসন্ধানী প্রশ্নের উত্তর ব্যবহার করলেই সেরা পারফরম্যান্সে পৌঁছে যায়। কারণ MAMI-তে শুধুমাত্র নারী সম্পর্কে ঘৃণাপূর্ণ মেমস রয়েছে। একটি প্রতিশ্রুতিশীল দিক মডেলকে গতিশীলভাবে বিভিন্ন মেমের জন্য মেম সনাক্তকরণের জন্য প্রয়োজনীয় অনুসন্ধানমূলক প্রশ্নগুলি নির্বাচন করতে প্রশিক্ষণ দেবে।
[৪] CLIP-BERT/MOMENTA: https://github.com/LCS2-IIITD/MOMENTA;DisMultiHate: https://gitlab.com/bottle_shop/safe/dismultihate; প্রম্পটহেট: https://gitlab.com/bottle_shop/safe/prompthate
[৫] https://huggingface.co/
[6] https://github.com/facebookresearch/vilbert-multi-task
[৭] https://github.com/salesforce/LAVIS হিউরিস্টিকভাবে সমস্ত অনুসন্ধানমূলক প্রশ্ন জিজ্ঞাসা করছে (যেমন, usin