paint-brush
প্রো-ক্যাপ: বিদ্বেষপূর্ণ মেম সনাক্তকরণের জন্য একটি হিমায়িত দৃষ্টি-ভাষা মডেল ব্যবহার করা: পরিশিষ্টদ্বারা@memeology
201 পড়া

প্রো-ক্যাপ: বিদ্বেষপূর্ণ মেম সনাক্তকরণের জন্য একটি হিমায়িত দৃষ্টি-ভাষা মডেল ব্যবহার করা: পরিশিষ্ট

অতিদীর্ঘ; পড়তে

এই পরিশিষ্টটি ঘৃণ্য মেম সনাক্তকরণ মডেলগুলি বাস্তবায়নের উপর গভীরভাবে বিশদ বিবরণ প্রদান করে, অ্যাবলেশন অধ্যয়ন থেকে অন্তর্দৃষ্টি, প্রো-ক্যাপ এবং বেসিক প্রম্পটহেটের ভিজ্যুয়াল তুলনা এবং ফলাফলগুলি একক অনুসন্ধানী প্রশ্নের উত্তরগুলি ব্যবহার করার প্রভাবকে হাইলাইট করে, মেম সনাক্তকরণ মডেলগুলির জন্য অপ্টিমাইজেশান নির্দেশাবলীর পরামর্শ দেয়৷
featured image - প্রো-ক্যাপ: বিদ্বেষপূর্ণ মেম সনাক্তকরণের জন্য একটি হিমায়িত দৃষ্টি-ভাষা মডেল ব্যবহার করা: পরিশিষ্ট
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।

লেখক:

(1) রুই কাও, সিঙ্গাপুর ম্যানেজমেন্ট ইউনিভার্সিটি;

(2) মিং শান হি, সিঙ্গাপুর ইউনিভার্সিটি অফ ডিজাইন অ্যান্ড টেকনোলজি;

(3) Adriel Kuek, DSO ন্যাশনাল ল্যাবরেটরিজ;

(4) ওয়েন-হাউ চং, সিঙ্গাপুর ম্যানেজমেন্ট ইউনিভার্সিটি;

(5) রয় কা-ওয়েই লি, সিঙ্গাপুর ইউনিভার্সিটি অফ ডিজাইন অ্যান্ড টেকনোলজি

(6) জিং জিয়াং, সিঙ্গাপুর ম্যানেজমেন্ট ইউনিভার্সিটি।

লিঙ্কের টেবিল

বিমূর্ত এবং ভূমিকা

সম্পর্কিত কাজ

প্রাথমিক

প্রস্তাবিত পদ্ধতি

পরীক্ষা

উপসংহার এবং রেফারেন্স

পরিশিষ্ট

পরিশিষ্ট

সারণী 9: হার্ম ডেটাসেটে প্রো-ক্যাপপ্রম্পটহেট এবং মৌলিক প্রম্পটহেটের মধ্যে তুলনা।

বাস্তবায়নের জন্য একটি বিশদ বিবরণ

আমরা CUDA11.2 সংস্করণ সহ PyTorch লাইব্রেরির অধীনে সমস্ত মডেল বাস্তবায়ন করি। আমরা Tesla V 100 GPU ব্যবহার করি, প্রতিটির ডেডিকেটেড মেমরি 32GB। ঘৃণ্য মেম সনাক্তকরণের জন্য বিশেষভাবে প্রয়োগ করা মডেলগুলির জন্য, আমরা লেখকের কাছ থেকে প্রকাশিত কোডগুলিকে পুনরায় প্রয়োগ করার জন্য গ্রহণ করি [4]। হাগিংফেস লাইব্রেরির অধীনে পাওয়া প্রাক-প্রশিক্ষিত মডেলগুলির জন্য, আমরা Huggingface [5], বিশেষ করে BERT [4], VisualBERT [18] এবং BLIP মডেলের প্যাকেজগুলি ব্যবহার করি। গর ভিলবার্ট [২৩], আমরা লেখকদের কাছ থেকে প্রকাশিত কোড গ্রহণ করি [6]। ALBEF [17] এবং BLIP-2 [15] এর জন্য, আমরা LAVIS লাইব্রেরির অধীনে প্যাকেজগুলি ব্যবহার করি [7]


সারণি 12: কোনো বর্ধিত ইমেজ ট্যাগ ছাড়াই মডেল তুলনা।


সারণি 13: মডেল কর্মক্ষমতা যখন শুধুমাত্র একটি একক অনুসন্ধানী প্রশ্ন জিজ্ঞাসা করা হয়।


প্রতিটি মেম ইমেজের জন্য, আমরা মেম পাঠ্যের মোট দৈর্ঘ্য এবং জেনেরিক ছবির ক্যাপশন (হয় ক্যাপশনিং মডেল থেকে বা ছবির বিষয়বস্তু সম্পর্কে জিজ্ঞাসা করে) 65 হতে সীমাবদ্ধ করি। প্রতিটি অতিরিক্ত প্রশ্নের জন্য, আমরা এর দৈর্ঘ্য সীমাবদ্ধ করি 20 এর চেয়ে ছোট। বাক্যটির সংমিশ্রণ সীমিত দৈর্ঘ্য অতিক্রম করলে, বাক্যটি ছেঁটে ফেলা হবে, অন্যথায়, বাক্যটি সীমিত দৈর্ঘ্যের চেয়ে ছোট হলে, এটি প্যাড করা হবে। আমরা সমস্ত মডেলের জন্য প্রশিক্ষণ যুগের সংখ্যা 10 সেট করেছি।


মডেল প্যারামিটারের সংখ্যা সারণী 11 এ সংক্ষিপ্ত করা হয়েছে।

B পূর্ণ অধ্যয়নের ফলাফল

স্থানের সীমাবদ্ধতার কারণে, আমরা কেবলমাত্র সারণী 6-এ নির্ভুলতার গবেষণায় নির্ভুলতার ফলাফল দেখাই। AUC এবং নির্ভুলতা উভয় সহ সম্পূর্ণ ফলাফল সারণি 12-এ সরবরাহ করা হয়েছে।

সি ভিজ্যুয়ালাইজেশন কেস

অনুচ্ছেদ 5.5-এ, আমরা প্রোক্যাপপ্রম্পটহেটকে মৌলিক প্রম্পটহেটের সাথে তুলনা করার জন্য কেসগুলির ভিজ্যুয়ালাইজেশন প্রদান করি। স্থানের সীমাবদ্ধতার কারণে, আমরা অন্য দুটি ডেটাসেটের উদাহরণ বাদ দিই। আমরা এই অংশে আরো ভিজ্যুয়ালাইজেশন কেস প্রদান. হারএম ডেটাসেটের কেসগুলি সারণি 9 এ চিত্রিত করা হয়েছে এবং MAMI ডেটাসেটের কেসগুলি সারণি 10 এ দেখানো হয়েছে।

একটি লক্ষ্য সম্পর্কে প্রো-ক্যাপ সহ D ফলাফল

অনুচ্ছেদ 5-এ, আমরা শুধুমাত্র তখনই ফলাফল রিপোর্ট করি যখন মডেলগুলি সমস্ত অনুসন্ধানী প্রশ্ন থেকে প্রো-ক্যাপ ব্যবহার করে। এই অংশে, আমরা সারণি 13-এ একটি একক অনুসন্ধানী প্রশ্নের উত্তর ব্যবহার করার সময় ফলাফলগুলি (সত্তার সাথে) রিপোর্ট করি।


ফলাফল অনুসারে, আমরা লক্ষ্য করি যে একটি একক অনুসন্ধানী প্রশ্নের উত্তর ব্যবহার করে মডেলগুলি সবই শক্তিশালী এবং কিছু এমনকি সমস্ত অনুসন্ধানী প্রশ্ন জিজ্ঞাসা করার ক্ষেত্রে হিউরিস্টিকভাবে ছাড়িয়ে যায় (যেমন, FHM-এ জাতীয়তা সম্পর্কে জিজ্ঞাসা করা প্রশ্ন ব্যবহার করা সমস্ত অনুসন্ধানী প্রশ্ন ব্যবহার করার চেয়ে ভাল)। এটি নির্দেশ করে যে সমস্ত অনুসন্ধানী ক্যাপশন ব্যবহার করা সর্বোত্তম সমাধান নাও হতে পারে এবং অপ্রাসঙ্গিক চিত্র বিবরণ তৈরি করতে পারে। উদাহরণস্বরূপ, কালো মানুষদের লক্ষ্য করে একটি ঘৃণ্য মেমের মুখোমুখি হলে, চিত্রের লোকেদের ধর্ম জিজ্ঞাসা করা অর্থহীন। মজার বিষয় হল, MAMI-তে, শুধুমাত্র লিঙ্গ সম্পর্কে অনুসন্ধানী প্রশ্নের উত্তর ব্যবহার করলেই সেরা পারফরম্যান্সে পৌঁছে যায়। কারণ MAMI-তে শুধুমাত্র নারী সম্পর্কে ঘৃণাপূর্ণ মেমস রয়েছে। একটি প্রতিশ্রুতিশীল দিক মডেলকে গতিশীলভাবে বিভিন্ন মেমের জন্য মেম সনাক্তকরণের জন্য প্রয়োজনীয় অনুসন্ধানমূলক প্রশ্নগুলি নির্বাচন করতে প্রশিক্ষণ দেবে।





[৪] CLIP-BERT/MOMENTA: https://github.com/LCS2-IIITD/MOMENTA;DisMultiHate: https://gitlab.com/bottle_shop/safe/dismultihate; প্রম্পটহেট: https://gitlab.com/bottle_shop/safe/prompthate


[৫] https://huggingface.co/


[6] https://github.com/facebookresearch/vilbert-multi-task


[৭] https://github.com/salesforce/LAVIS হিউরিস্টিকভাবে সমস্ত অনুসন্ধানমূলক প্রশ্ন জিজ্ঞাসা করছে (যেমন, usin