paint-brush
প্রো-ক্যাপ: বিদ্বেষপূর্ণ মেম সনাক্তকরণের জন্য একটি হিমায়িত দৃষ্টি-ভাষা মডেল ব্যবহার করাদ্বারা@memeology
324 পড়া
324 পড়া

প্রো-ক্যাপ: বিদ্বেষপূর্ণ মেম সনাক্তকরণের জন্য একটি হিমায়িত দৃষ্টি-ভাষা মডেল ব্যবহার করা

অতিদীর্ঘ; পড়তে

প্রো-ক্যাপ হিমায়িত দৃষ্টি-ভাষা মডেলগুলি (PVLMs) ব্যবহার করে প্রোবিং-ভিত্তিক ক্যাপশনিং, কম্পিউটেশনাল দক্ষতা বৃদ্ধি করে এবং মেমে বিদ্বেষপূর্ণ বিষয়বস্তু সঠিকভাবে সনাক্তকরণের জন্য ক্যাপশন গুণমান ব্যবহার করে ঘৃণ্য মেম সনাক্তকরণের জন্য একটি অভিনব পদ্ধতির প্রবর্তন করে৷
featured image - প্রো-ক্যাপ: বিদ্বেষপূর্ণ মেম সনাক্তকরণের জন্য একটি হিমায়িত দৃষ্টি-ভাষা মডেল ব্যবহার করা
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

লেখক:

(1) রুই কাও, সিঙ্গাপুর ম্যানেজমেন্ট ইউনিভার্সিটি;

(2) মিং শান হি, সিঙ্গাপুর ইউনিভার্সিটি অফ ডিজাইন অ্যান্ড টেকনোলজি;

(3) Adriel Kuek, DSO ন্যাশনাল ল্যাবরেটরিজ;

(4) ওয়েন-হাউ চং, সিঙ্গাপুর ম্যানেজমেন্ট ইউনিভার্সিটি;

(5) রয় কা-ওয়েই লি, সিঙ্গাপুর ইউনিভার্সিটি অফ ডিজাইন অ্যান্ড টেকনোলজি

(6) জিং জিয়াং, সিঙ্গাপুর ম্যানেজমেন্ট ইউনিভার্সিটি।

লিঙ্কের টেবিল

বিমূর্ত এবং ভূমিকা

সম্পর্কিত কাজ

প্রাথমিক

প্রস্তাবিত পদ্ধতি

পরীক্ষা

উপসংহার এবং রেফারেন্স

পরিশিষ্ট

বিমূর্ত

বিদ্বেষপূর্ণ মেম সনাক্তকরণ একটি চ্যালেঞ্জিং মাল্টিমোডাল কাজ যার জন্য দৃষ্টি এবং ভাষা উভয়েরই বোঝার পাশাপাশি ক্রস-মডাল মিথস্ক্রিয়া প্রয়োজন। সাম্প্রতিক গবেষণাগুলি এই কাজের জন্য প্রাক-প্রশিক্ষিত দৃষ্টি-ভাষা মডেলগুলি (PVLMs) সূক্ষ্ম-টিউন করার চেষ্টা করেছে। যাইহোক, ক্রমবর্ধমান মডেলের আকারের সাথে, শক্তিশালী PVLM গুলিকে সহজভাবে সূক্ষ্ম সুর করার পরিবর্তে আরও দক্ষতার সাথে ব্যবহার করা গুরুত্বপূর্ণ হয়ে ওঠে। সম্প্রতি, গবেষকরা মেমে ছবিগুলিকে পাঠ্য ক্যাপশনে রূপান্তরিত করার চেষ্টা করেছেন এবং ভবিষ্যদ্বাণীর জন্য প্রম্পট ভাষা মডেল। এই পদ্ধতিটি ভাল পারফরম্যান্স দেখিয়েছে তবে অ-তথ্যমূলক চিত্র ক্যাপশনে ভুগছে। উপরে উল্লিখিত দুটি বিষয় বিবেচনা করে, আমরা একটি শূন্য-শট ভিজ্যুয়াল প্রশ্ন উত্তর (VQA) পদ্ধতিতে PVLM-এর লিভারেজ করার জন্য একটি অনুসন্ধান-ভিত্তিক ক্যাপশনিং পদ্ধতির প্রস্তাব করি। বিশেষত, আমরা ঘৃণ্য বিষয়বস্তু সম্পর্কিত প্রশ্ন জিজ্ঞাসা করে একটি হিমায়িত PVLM প্রম্পট করি এবং উত্তরগুলিকে ইমেজ ক্যাপশন হিসাবে ব্যবহার করি (যাকে আমরা প্রো-ক্যাপ বলি), যাতে ক্যাপশনগুলিতে ঘৃণ্য বিষয়বস্তু সনাক্তকরণের জন্য গুরুত্বপূর্ণ তথ্য থাকে। তিনটি বেঞ্চমার্কে প্রো-ক্যাপ সহ মডেলগুলির ভাল কার্যকারিতা প্রস্তাবিত পদ্ধতির কার্যকারিতা এবং সাধারণীকরণকে বৈধ করে।

সিসিএস ধারণা

• কম্পিউটিং পদ্ধতি → প্রাকৃতিক ভাষা প্রক্রিয়াকরণ; কম্পিউটার দৃষ্টি উপস্থাপনা.

কীওয়ার্ড

memes, multimodal, শব্দার্থিক নিষ্কাশন

ACM রেফারেন্স বিন্যাস:

রুই কাও, মিং শান হি, অ্যাড্রিয়েল কুয়েক, ওয়েন-হাও চং, রয় কা-ওয়েই লি এবং জিং জিয়াং। 2023. প্রো ক্যাপ: বিদ্বেষপূর্ণ মেম সনাক্তকরণের জন্য একটি হিমায়িত দৃষ্টি-ভাষা মডেল ব্যবহার করা। মাল্টিমিডিয়া (MM '23), অক্টোবর 29-নভেম্বর 3, 2023, Ottawa, ON, কানাডায় 31 তম ACM আন্তর্জাতিক সম্মেলনের কার্যক্রমে। ACM, নিউ ইয়র্ক, NY, USA, 11 পৃষ্ঠা। https://doi.org/10.1145/3581783.3612498


চিত্র 1: প্রস্তাবিত প্রোব-ক্যাপশনিং পদ্ধতি। আমরা জঘন্য বিষয়বস্তু কেন্দ্রিক চিত্র ক্যাপশন তৈরি করতে ভিজ্যুয়াল প্রশ্নের উত্তরের মাধ্যমে হিমায়িত প্রাক-প্রশিক্ষিত দৃষ্টি-ভাষা মডেলগুলিকে প্রম্পট করি৷


দাবিত্যাগ: এই কাগজে সহিংসতা এবং বৈষম্যমূলক বিষয়বস্তু রয়েছে যা কিছু পাঠকদের বিরক্ত করতে পারে।

1। পরিচিতি

Memes, যা সংক্ষিপ্ত পাঠ্যের সাথে চিত্রগুলিকে একত্রিত করে, অনলাইন সোশ্যাল মিডিয়াতে যোগাযোগের একটি জনপ্রিয় রূপ। ইন্টারনেট মেমগুলি প্রায়ই হাস্যরস বা ব্যঙ্গ প্রকাশ করার উদ্দেশ্যে করা হয়। যাইহোক, অনলাইন প্ল্যাটফর্ম জুড়ে ঘৃণ্য বিষয়বস্তু ছড়িয়ে দেওয়ার জন্য তাদের ক্রমবর্ধমানভাবে শোষণ করা হচ্ছে। ঘৃণ্য মেমস ব্যক্তি বা সম্প্রদায়কে তাদের পরিচয়ের উপর ভিত্তি করে আক্রমণ করে যেমন জাতি, লিঙ্গ বা ধর্ম [5, 8, 12, 27]। বিদ্বেষপূর্ণ মেমের প্রচার অনলাইনে মতবিরোধের দিকে নিয়ে যেতে পারে এবং ঘৃণামূলক অপরাধ হতে পারে। অতএব, সঠিক ঘৃণ্য মেম সনাক্তকরণ পদ্ধতি বিকাশ করা জরুরি।


মেমসের মাল্টিমডাল প্রকৃতির কারণে ঘৃণ্য মেম সনাক্তকরণের কাজটি চ্যালেঞ্জিং। সনাক্তকরণের মধ্যে কেবল চিত্র এবং পাঠ্য উভয়ই বোঝার সাথে জড়িত নয় তবে এই দুটি পদ্ধতি কীভাবে ইন্টারঅ্যাক্ট করে তা বোঝাও। পূর্ববর্তী কাজ [14, 28, 35, 36] ঘৃণ্য মেম সনাক্তকরণ ডেটাসেট ব্যবহার করে স্ক্র্যাচ থেকে ক্রস-মডাল মিথস্ক্রিয়া শিখে। যাইহোক, মডেলগুলির পক্ষে এই ডেটাসেটগুলি থেকে উপলব্ধ সীমিত পরিমাণ ডেটার সাথে জটিল মাল্টিমডাল মিথস্ক্রিয়া শিখতে অসুবিধা হতে পারে। ভিজ্যুয়ালবার্ট [১৮] এবং ভিলবার্ট [২৩]-এর মতো প্রিট্রেইনড ভিশন-ল্যাংগুয়েজ মডেল (PVLMs) এর বিকাশের সাথে, সাম্প্রতিক কাজগুলি ঘৃণ্য মেম সনাক্তকরণের কাজকে সহজতর করার জন্য এই শক্তিশালী PVLMগুলিকে সুবিধা দেয়। একটি সাধারণ পদ্ধতি হ'ল টাস্ক-নির্দিষ্ট ডেটা [9, 20, 26, 34, 37] সহ PVLM গুলিকে সূক্ষ্ম-টিউন করা। যাইহোক, মেমে সনাক্তকরণে BLIP-2 [15] এবং ফ্ল্যামিঙ্গো [1] এর মতো বড় মডেলগুলিকে সূক্ষ্ম-সুরক্ষিত করা কম সম্ভব নয় কারণ এখানে কোটি কোটি প্রশিক্ষিত পরামিতি রয়েছে। অতএব, ঘৃণ্য মেম সনাক্তকরণের সুবিধার্থে বড় PVLM-এর সুবিধার জন্য সরাসরি ফাইন-টিউনিং ছাড়া গণনাগতভাবে সম্ভাব্য সমাধান প্রয়োজন।


সারণী 1: চিত্রের ক্যাপশন থেকে FHM ডেটাসেট [12]-এ সনাক্তকরণ পারফরম্যান্সের উপর প্রভাব। (w/o) অতিরিক্ত সত্তা এবং জনসংখ্যা সংক্রান্ত তথ্য ছাড়াই মডেলগুলিকে বোঝায়।


PVLMs ব্যবহার করে উপরের পদ্ধতির থেকে ভিন্ন, PromptHate[2] হল একটি সম্প্রতি প্রস্তাবিত মডেল যা মাল্টিমোডাল মেম ডিটেকশন টাস্ককে ইউনিমোডাল মাস্কড ল্যাঙ্গুয়েজ মডেলিং টাস্কে রূপান্তর করে। এটি প্রথমে একটি অফ-দ্য-শেল্ফ ইমেজ ক্যাপশন জেনারেটর, ক্লিপক্যাপ [25] সহ মেম ইমেজ ক্যাপশন তৈরি করে। সমস্ত ইনপুট তথ্যকে টেক্সটে রূপান্তর করার মাধ্যমে, এটি ভাষা মডেলে সমৃদ্ধ পটভূমি জ্ঞানের ব্যবহার করে ইনপুটটি ঘৃণ্য কিনা তা ভবিষ্যদ্বাণী করতে দুটি প্রদর্শনমূলক উদাহরণ সহ একটি প্রাক-প্রশিক্ষিত ভাষা মডেলকে প্রম্পট করতে পারে। যদিও PromptHate অত্যাধুনিক পারফরম্যান্স অর্জন করে, এটি চিত্রের ক্যাপশনের গুণমান দ্বারা উল্লেখযোগ্যভাবে প্রভাবিত হয়, যেমনটি সারণী 1-এ দেখানো হয়েছে। চিত্রের ক্যাপশনগুলি যেগুলি কেবলমাত্র চিত্রগুলির জেনেরিক বর্ণনা, সেগুলি গুরুত্বপূর্ণ বিবরণগুলি বাদ দিতে পারে [14, 37], যেমন মানুষের জাতি এবং লিঙ্গ, যা ঘৃণ্য বিষয়বস্তু সনাক্তকরণের জন্য অপরিহার্য। কিন্তু অতিরিক্ত ইমেজ ট্যাগ দিয়ে, যেমন ইমেজে পাওয়া সত্তা এবং ইমেজে থাকা লোকেদের সম্পর্কে জনসংখ্যা সংক্রান্ত তথ্য, একই মডেল উল্লেখযোগ্যভাবে উন্নত করা যেতে পারে, যেমনটি সারণী 1-এ দেখানো হয়েছে। যাইহোক, এই অতিরিক্ত ইমেজ ট্যাগ তৈরি করা শ্রমসাধ্য এবং ব্যয়বহুল। উদাহরণস্বরূপ, সত্তা নিষ্কাশন সাধারণত Google Vision Web Entity Detection API [2] দিয়ে পরিচালিত হয়, যা একটি অর্থপ্রদানের পরিষেবা। আদর্শভাবে, আমরা ঘৃণ্য বিষয়বস্তু সনাক্তকরণের জন্য গুরুত্বপূর্ণ এমন চিত্রগুলি থেকে সত্তা এবং জনসংখ্যা সংক্রান্ত তথ্য পাওয়ার আরও সাশ্রয়ী উপায় খুঁজতে চাই৷


উপরে উল্লিখিত উভয় পদ্ধতিরই (অর্থাৎ, একটি PVLM ব্যবহার করে এবং অন্যটি কাজটিকে একটি ইউনিমোডাল টাস্কে রূপান্তরিত করে) তাদের সুবিধা এবং অসুবিধা রয়েছে। এই কাগজে, আমরা এই দুটি পন্থা থেকে ধারণাগুলিকে একত্রিত করি এবং একটি ঘৃণ্য মেম সনাক্তকরণ পদ্ধতি ডিজাইন করি যা প্রম্পটহেটের ইউনিমোডাল পদ্ধতির পরিপূরক করতে হিমায়িত PVLM-এর শক্তিকে কাজে লাগায়৷ বিশেষত, ঘৃণাপূর্ণ বিষয়বস্তুতে সাধারণ দুর্বল লক্ষ্যগুলির সাথে সম্পর্কিত তথ্যের জন্য PVLM (আমাদের পরীক্ষায় BLIP-2 [15]) জিজ্ঞাসা করতে আমরা "প্রোবিং" প্রশ্নের একটি সেট ব্যবহার করি। অনুসন্ধানী প্রশ্নগুলি থেকে প্রাপ্ত উত্তরগুলিকে চিত্র ক্যাপশন হিসাবে গণ্য করা হবে (প্রো-ক্যাপ হিসাবে চিহ্নিত) এবং প্রশিক্ষণযোগ্য বিদ্বেষপূর্ণ মেম সনাক্তকরণ মডেলের ইনপুট হিসাবে ব্যবহৃত হবে। চিত্র 1 পদ্ধতির সামগ্রিক কর্মপ্রবাহকে চিত্রিত করে। আমরা অনুসন্ধান-ভিত্তিক ক্যাপশন হিসাবে ক্যাপশনগুলি তৈরি করতে অনুসন্ধানমূলক প্রশ্নগুলি ব্যবহার করার পদক্ষেপটি উল্লেখ করি।


আমাদের প্রস্তাবিত পদ্ধতিটি বিদ্যমান গবেষণার শূন্যতা পূরণ করে: 1) কোনো অভিযোজন বা ফাইন-টিউনিং ছাড়াই একটি PVLM ব্যবহার করুন, যার ফলে কম্পিউটেশনাল খরচ কমানো যায়; 2) ব্যয়বহুল API-এর সাথে স্পষ্টভাবে অতিরিক্ত ইমেজ ট্যাগ পাওয়ার পরিবর্তে, আমরা হিমায়িত PVLM ব্যবহার করি এমন ক্যাপশন তৈরি করতে যা ঘৃণ্য মেম সনাক্তকরণের জন্য দরকারী তথ্য ধারণ করে। আমাদের সর্বোত্তম জ্ঞান অনুসারে, এটিই প্রথম কাজ যা বিদ্বেষপূর্ণ মেম সনাক্তকরণ কার্যে সহায়তা করার জন্য প্রশ্নের উত্তরের মাধ্যমে জিরো-শট পদ্ধতিতে PVLM-গুলিকে ব্যবহার করা। আমাদের পদ্ধতিকে আরও যাচাই করার জন্য, আমরা PromptHate[2] এবং একটি BERT-ভিত্তিক[4] ঘৃণ্য মেম সনাক্তকরণ মডেল উভয়ের উপর উত্পন্ন প্রো-ক্যাপের প্রভাব পরীক্ষা করি।


পরীক্ষামূলক ফলাফলের উপর ভিত্তি করে, আমরা লক্ষ্য করেছি যে প্রো-ক্যাপের সাথে প্রম্পটহেট (প্রো-ক্যাপপ্রম্পটহেট হিসাবে চিহ্নিত) অতিরিক্ত ইমেজ ট্যাগ ছাড়াই মূল প্রম্পটহেটকে উল্লেখযোগ্যভাবে ছাড়িয়ে গেছে (অর্থাৎ, প্রায় 4, 6, এবং 3 শতাংশ পয়েন্ট এফএইচএম-এ সম্পূর্ণ কর্মক্ষমতা উন্নতির। ], MAMI [5], এবং HarM [28] যথাক্রমে)। ProCapPromptHate অতিরিক্ত ইমেজ ট্যাগ সহ PromptHate-এর সাথে তুলনামূলক ফলাফল অর্জন করে, যা ইঙ্গিত করে যে প্রোবিং-ভিত্তিক ক্যাপশনিং ইমেজ সত্তা বা জনসংখ্যা সংক্রান্ত তথ্য পাওয়ার আরও সাশ্রয়ী উপায় হতে পারে। কেস স্টাডি আরও দেখায় যে প্রো-ক্যাপ ঘৃণ্য বিষয়বস্তু সনাক্তকরণের জন্য প্রয়োজনীয় চিত্রের বিশদ সরবরাহ করে, কিছু পরিমাণে মডেলগুলির ব্যাখ্যাযোগ্যতা বাড়ায়। ইতিমধ্যে, ProCapBERT স্পষ্টভাবে অনুরূপ আকারের মাল্টিমোডাল BERT-ভিত্তিক মডেলগুলিকে ছাড়িয়ে গেছে (অর্থাৎ, FHM [12] তে VisualBERT এর সাথে পরম উন্নতির প্রায় 7 শতাংশ পয়েন্ট), অনুসন্ধান-ভিত্তিক ক্যাপশনিং পদ্ধতির সাধারণীকরণ প্রমাণ করে।




[১] কোড এখানে উপলব্ধ: https://github.com/Social-AI-Studio/Pro-Cap


[2] https://cloud.google.com/vision/docs/detecting-web


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ