লেখক:
(1) রুই কাও, সিঙ্গাপুর ম্যানেজমেন্ট ইউনিভার্সিটি;
(2) মিং শান হি, সিঙ্গাপুর ইউনিভার্সিটি অফ ডিজাইন অ্যান্ড টেকনোলজি;
(3) Adriel Kuek, DSO ন্যাশনাল ল্যাবরেটরিজ;
(4) ওয়েন-হাউ চং, সিঙ্গাপুর ম্যানেজমেন্ট ইউনিভার্সিটি;
(5) রয় কা-ওয়েই লি, সিঙ্গাপুর ইউনিভার্সিটি অফ ডিজাইন অ্যান্ড টেকনোলজি
(6) জিং জিয়াং, সিঙ্গাপুর ম্যানেজমেন্ট ইউনিভার্সিটি।
বিদ্বেষপূর্ণ মেম সনাক্তকরণ একটি চ্যালেঞ্জিং মাল্টিমোডাল কাজ যার জন্য দৃষ্টি এবং ভাষা উভয়েরই বোঝার পাশাপাশি ক্রস-মডাল মিথস্ক্রিয়া প্রয়োজন। সাম্প্রতিক গবেষণাগুলি এই কাজের জন্য প্রাক-প্রশিক্ষিত দৃষ্টি-ভাষা মডেলগুলি (PVLMs) সূক্ষ্ম-টিউন করার চেষ্টা করেছে। যাইহোক, ক্রমবর্ধমান মডেলের আকারের সাথে, শক্তিশালী PVLM গুলিকে সহজভাবে সূক্ষ্ম সুর করার পরিবর্তে আরও দক্ষতার সাথে ব্যবহার করা গুরুত্বপূর্ণ হয়ে ওঠে। সম্প্রতি, গবেষকরা মেমে ছবিগুলিকে পাঠ্য ক্যাপশনে রূপান্তরিত করার চেষ্টা করেছেন এবং ভবিষ্যদ্বাণীর জন্য প্রম্পট ভাষা মডেল। এই পদ্ধতিটি ভাল পারফরম্যান্স দেখিয়েছে তবে অ-তথ্যমূলক চিত্র ক্যাপশনে ভুগছে। উপরে উল্লিখিত দুটি বিষয় বিবেচনা করে, আমরা একটি শূন্য-শট ভিজ্যুয়াল প্রশ্ন উত্তর (VQA) পদ্ধতিতে PVLM-এর লিভারেজ করার জন্য একটি অনুসন্ধান-ভিত্তিক ক্যাপশনিং পদ্ধতির প্রস্তাব করি। বিশেষত, আমরা ঘৃণ্য বিষয়বস্তু সম্পর্কিত প্রশ্ন জিজ্ঞাসা করে একটি হিমায়িত PVLM প্রম্পট করি এবং উত্তরগুলিকে ইমেজ ক্যাপশন হিসাবে ব্যবহার করি (যাকে আমরা প্রো-ক্যাপ বলি), যাতে ক্যাপশনগুলিতে ঘৃণ্য বিষয়বস্তু সনাক্তকরণের জন্য গুরুত্বপূর্ণ তথ্য থাকে। তিনটি বেঞ্চমার্কে প্রো-ক্যাপ সহ মডেলগুলির ভাল কার্যকারিতা প্রস্তাবিত পদ্ধতির কার্যকারিতা এবং সাধারণীকরণকে বৈধ করে।
• কম্পিউটিং পদ্ধতি → প্রাকৃতিক ভাষা প্রক্রিয়াকরণ; কম্পিউটার দৃষ্টি উপস্থাপনা.
memes, multimodal, শব্দার্থিক নিষ্কাশন
রুই কাও, মিং শান হি, অ্যাড্রিয়েল কুয়েক, ওয়েন-হাও চং, রয় কা-ওয়েই লি এবং জিং জিয়াং। 2023. প্রো ক্যাপ: বিদ্বেষপূর্ণ মেম সনাক্তকরণের জন্য একটি হিমায়িত দৃষ্টি-ভাষা মডেল ব্যবহার করা। মাল্টিমিডিয়া (MM '23), অক্টোবর 29-নভেম্বর 3, 2023, Ottawa, ON, কানাডায় 31 তম ACM আন্তর্জাতিক সম্মেলনের কার্যক্রমে। ACM, নিউ ইয়র্ক, NY, USA, 11 পৃষ্ঠা। https://doi.org/10.1145/3581783.3612498
দাবিত্যাগ: এই কাগজে সহিংসতা এবং বৈষম্যমূলক বিষয়বস্তু রয়েছে যা কিছু পাঠকদের বিরক্ত করতে পারে।
Memes, যা সংক্ষিপ্ত পাঠ্যের সাথে চিত্রগুলিকে একত্রিত করে, অনলাইন সোশ্যাল মিডিয়াতে যোগাযোগের একটি জনপ্রিয় রূপ। ইন্টারনেট মেমগুলি প্রায়ই হাস্যরস বা ব্যঙ্গ প্রকাশ করার উদ্দেশ্যে করা হয়। যাইহোক, অনলাইন প্ল্যাটফর্ম জুড়ে ঘৃণ্য বিষয়বস্তু ছড়িয়ে দেওয়ার জন্য তাদের ক্রমবর্ধমানভাবে শোষণ করা হচ্ছে। ঘৃণ্য মেমস ব্যক্তি বা সম্প্রদায়কে তাদের পরিচয়ের উপর ভিত্তি করে আক্রমণ করে যেমন জাতি, লিঙ্গ বা ধর্ম [5, 8, 12, 27]। বিদ্বেষপূর্ণ মেমের প্রচার অনলাইনে মতবিরোধের দিকে নিয়ে যেতে পারে এবং ঘৃণামূলক অপরাধ হতে পারে। অতএব, সঠিক ঘৃণ্য মেম সনাক্তকরণ পদ্ধতি বিকাশ করা জরুরি।
মেমসের মাল্টিমডাল প্রকৃতির কারণে ঘৃণ্য মেম সনাক্তকরণের কাজটি চ্যালেঞ্জিং। সনাক্তকরণের মধ্যে কেবল চিত্র এবং পাঠ্য উভয়ই বোঝার সাথে জড়িত নয় তবে এই দুটি পদ্ধতি কীভাবে ইন্টারঅ্যাক্ট করে তা বোঝাও। পূর্ববর্তী কাজ [14, 28, 35, 36] ঘৃণ্য মেম সনাক্তকরণ ডেটাসেট ব্যবহার করে স্ক্র্যাচ থেকে ক্রস-মডাল মিথস্ক্রিয়া শিখে। যাইহোক, মডেলগুলির পক্ষে এই ডেটাসেটগুলি থেকে উপলব্ধ সীমিত পরিমাণ ডেটার সাথে জটিল মাল্টিমডাল মিথস্ক্রিয়া শিখতে অসুবিধা হতে পারে। ভিজ্যুয়ালবার্ট [১৮] এবং ভিলবার্ট [২৩]-এর মতো প্রিট্রেইনড ভিশন-ল্যাংগুয়েজ মডেল (PVLMs) এর বিকাশের সাথে, সাম্প্রতিক কাজগুলি ঘৃণ্য মেম সনাক্তকরণের কাজকে সহজতর করার জন্য এই শক্তিশালী PVLMগুলিকে সুবিধা দেয়। একটি সাধারণ পদ্ধতি হ'ল টাস্ক-নির্দিষ্ট ডেটা [9, 20, 26, 34, 37] সহ PVLM গুলিকে সূক্ষ্ম-টিউন করা। যাইহোক, মেমে সনাক্তকরণে BLIP-2 [15] এবং ফ্ল্যামিঙ্গো [1] এর মতো বড় মডেলগুলিকে সূক্ষ্ম-সুরক্ষিত করা কম সম্ভব নয় কারণ এখানে কোটি কোটি প্রশিক্ষিত পরামিতি রয়েছে। অতএব, ঘৃণ্য মেম সনাক্তকরণের সুবিধার্থে বড় PVLM-এর সুবিধার জন্য সরাসরি ফাইন-টিউনিং ছাড়া গণনাগতভাবে সম্ভাব্য সমাধান প্রয়োজন।
PVLMs ব্যবহার করে উপরের পদ্ধতির থেকে ভিন্ন, PromptHate[2] হল একটি সম্প্রতি প্রস্তাবিত মডেল যা মাল্টিমোডাল মেম ডিটেকশন টাস্ককে ইউনিমোডাল মাস্কড ল্যাঙ্গুয়েজ মডেলিং টাস্কে রূপান্তর করে। এটি প্রথমে একটি অফ-দ্য-শেল্ফ ইমেজ ক্যাপশন জেনারেটর, ক্লিপক্যাপ [25] সহ মেম ইমেজ ক্যাপশন তৈরি করে। সমস্ত ইনপুট তথ্যকে টেক্সটে রূপান্তর করার মাধ্যমে, এটি ভাষা মডেলে সমৃদ্ধ পটভূমি জ্ঞানের ব্যবহার করে ইনপুটটি ঘৃণ্য কিনা তা ভবিষ্যদ্বাণী করতে দুটি প্রদর্শনমূলক উদাহরণ সহ একটি প্রাক-প্রশিক্ষিত ভাষা মডেলকে প্রম্পট করতে পারে। যদিও PromptHate অত্যাধুনিক পারফরম্যান্স অর্জন করে, এটি চিত্রের ক্যাপশনের গুণমান দ্বারা উল্লেখযোগ্যভাবে প্রভাবিত হয়, যেমনটি সারণী 1-এ দেখানো হয়েছে। চিত্রের ক্যাপশনগুলি যেগুলি কেবলমাত্র চিত্রগুলির জেনেরিক বর্ণনা, সেগুলি গুরুত্বপূর্ণ বিবরণগুলি বাদ দিতে পারে [14, 37], যেমন মানুষের জাতি এবং লিঙ্গ, যা ঘৃণ্য বিষয়বস্তু সনাক্তকরণের জন্য অপরিহার্য। কিন্তু অতিরিক্ত ইমেজ ট্যাগ দিয়ে, যেমন ইমেজে পাওয়া সত্তা এবং ইমেজে থাকা লোকেদের সম্পর্কে জনসংখ্যা সংক্রান্ত তথ্য, একই মডেল উল্লেখযোগ্যভাবে উন্নত করা যেতে পারে, যেমনটি সারণী 1-এ দেখানো হয়েছে। যাইহোক, এই অতিরিক্ত ইমেজ ট্যাগ তৈরি করা শ্রমসাধ্য এবং ব্যয়বহুল। উদাহরণস্বরূপ, সত্তা নিষ্কাশন সাধারণত Google Vision Web Entity Detection API [2] দিয়ে পরিচালিত হয়, যা একটি অর্থপ্রদানের পরিষেবা। আদর্শভাবে, আমরা ঘৃণ্য বিষয়বস্তু সনাক্তকরণের জন্য গুরুত্বপূর্ণ এমন চিত্রগুলি থেকে সত্তা এবং জনসংখ্যা সংক্রান্ত তথ্য পাওয়ার আরও সাশ্রয়ী উপায় খুঁজতে চাই৷
উপরে উল্লিখিত উভয় পদ্ধতিরই (অর্থাৎ, একটি PVLM ব্যবহার করে এবং অন্যটি কাজটিকে একটি ইউনিমোডাল টাস্কে রূপান্তরিত করে) তাদের সুবিধা এবং অসুবিধা রয়েছে। এই কাগজে, আমরা এই দুটি পন্থা থেকে ধারণাগুলিকে একত্রিত করি এবং একটি ঘৃণ্য মেম সনাক্তকরণ পদ্ধতি ডিজাইন করি যা প্রম্পটহেটের ইউনিমোডাল পদ্ধতির পরিপূরক করতে হিমায়িত PVLM-এর শক্তিকে কাজে লাগায়৷ বিশেষত, ঘৃণাপূর্ণ বিষয়বস্তুতে সাধারণ দুর্বল লক্ষ্যগুলির সাথে সম্পর্কিত তথ্যের জন্য PVLM (আমাদের পরীক্ষায় BLIP-2 [15]) জিজ্ঞাসা করতে আমরা "প্রোবিং" প্রশ্নের একটি সেট ব্যবহার করি। অনুসন্ধানী প্রশ্নগুলি থেকে প্রাপ্ত উত্তরগুলিকে চিত্র ক্যাপশন হিসাবে গণ্য করা হবে (প্রো-ক্যাপ হিসাবে চিহ্নিত) এবং প্রশিক্ষণযোগ্য বিদ্বেষপূর্ণ মেম সনাক্তকরণ মডেলের ইনপুট হিসাবে ব্যবহৃত হবে। চিত্র 1 পদ্ধতির সামগ্রিক কর্মপ্রবাহকে চিত্রিত করে। আমরা অনুসন্ধান-ভিত্তিক ক্যাপশন হিসাবে ক্যাপশনগুলি তৈরি করতে অনুসন্ধানমূলক প্রশ্নগুলি ব্যবহার করার পদক্ষেপটি উল্লেখ করি।
আমাদের প্রস্তাবিত পদ্ধতিটি বিদ্যমান গবেষণার শূন্যতা পূরণ করে: 1) কোনো অভিযোজন বা ফাইন-টিউনিং ছাড়াই একটি PVLM ব্যবহার করুন, যার ফলে কম্পিউটেশনাল খরচ কমানো যায়; 2) ব্যয়বহুল API-এর সাথে স্পষ্টভাবে অতিরিক্ত ইমেজ ট্যাগ পাওয়ার পরিবর্তে, আমরা হিমায়িত PVLM ব্যবহার করি এমন ক্যাপশন তৈরি করতে যা ঘৃণ্য মেম সনাক্তকরণের জন্য দরকারী তথ্য ধারণ করে। আমাদের সর্বোত্তম জ্ঞান অনুসারে, এটিই প্রথম কাজ যা বিদ্বেষপূর্ণ মেম সনাক্তকরণ কার্যে সহায়তা করার জন্য প্রশ্নের উত্তরের মাধ্যমে জিরো-শট পদ্ধতিতে PVLM-গুলিকে ব্যবহার করা। আমাদের পদ্ধতিকে আরও যাচাই করার জন্য, আমরা PromptHate[2] এবং একটি BERT-ভিত্তিক[4] ঘৃণ্য মেম সনাক্তকরণ মডেল উভয়ের উপর উত্পন্ন প্রো-ক্যাপের প্রভাব পরীক্ষা করি।
পরীক্ষামূলক ফলাফলের উপর ভিত্তি করে, আমরা লক্ষ্য করেছি যে প্রো-ক্যাপের সাথে প্রম্পটহেট (প্রো-ক্যাপপ্রম্পটহেট হিসাবে চিহ্নিত) অতিরিক্ত ইমেজ ট্যাগ ছাড়াই মূল প্রম্পটহেটকে উল্লেখযোগ্যভাবে ছাড়িয়ে গেছে (অর্থাৎ, প্রায় 4, 6, এবং 3 শতাংশ পয়েন্ট এফএইচএম-এ সম্পূর্ণ কর্মক্ষমতা উন্নতির। ], MAMI [5], এবং HarM [28] যথাক্রমে)। ProCapPromptHate অতিরিক্ত ইমেজ ট্যাগ সহ PromptHate-এর সাথে তুলনামূলক ফলাফল অর্জন করে, যা ইঙ্গিত করে যে প্রোবিং-ভিত্তিক ক্যাপশনিং ইমেজ সত্তা বা জনসংখ্যা সংক্রান্ত তথ্য পাওয়ার আরও সাশ্রয়ী উপায় হতে পারে। কেস স্টাডি আরও দেখায় যে প্রো-ক্যাপ ঘৃণ্য বিষয়বস্তু সনাক্তকরণের জন্য প্রয়োজনীয় চিত্রের বিশদ সরবরাহ করে, কিছু পরিমাণে মডেলগুলির ব্যাখ্যাযোগ্যতা বাড়ায়। ইতিমধ্যে, ProCapBERT স্পষ্টভাবে অনুরূপ আকারের মাল্টিমোডাল BERT-ভিত্তিক মডেলগুলিকে ছাড়িয়ে গেছে (অর্থাৎ, FHM [12] তে VisualBERT এর সাথে পরম উন্নতির প্রায় 7 শতাংশ পয়েন্ট), অনুসন্ধান-ভিত্তিক ক্যাপশনিং পদ্ধতির সাধারণীকরণ প্রমাণ করে।
[১] কোড এখানে উপলব্ধ: https://github.com/Social-AI-Studio/Pro-Cap
[2] https://cloud.google.com/vision/docs/detecting-web
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।