Авторы:
(1) Руй Цао, Сингапурский университет менеджмента;
(2) Мин Шань Хи, Сингапурский университет дизайна и технологий;
(3) Адриэль Куек, Национальные лаборатории DSO;
(4) Вен-Хо Чонг, Сингапурский университет менеджмента;
(5) Рой Ка-Вэй Ли, Сингапурский университет дизайна и технологий
(6) Цзин Цзян, Сингапурский университет менеджмента.
Обнаружение ненавистных мемов — сложная мультимодальная задача, требующая понимания как видения, так и языка, а также кросс-модальных взаимодействий. Недавние исследования попытались настроить предварительно обученные модели визуального языка (PVLM) для этой задачи. Однако с увеличением размеров моделей становится важным более эффективно использовать мощные PVLM, а не просто их тонкую настройку. Недавно исследователи попытались преобразовать изображения мемов в текстовые подписи и подсказать языковые модели для предсказаний. Этот подход показал хорошую производительность, но страдает от неинформативности подписей к изображениям. Принимая во внимание два упомянутых выше фактора, мы предлагаем подход к субтитрам на основе зондирования для использования PVLM в режиме визуального ответа на вопрос с нулевым шансом (VQA). В частности, мы запускаем замороженный PVLM, задавая вопросы, связанные с контентом, разжигающим ненависть, и используем ответы в виде подписей к изображениям (которые мы называем Pro-Cap), чтобы подписи содержали информацию, важную для обнаружения контента, разжигающего ненависть. Хорошие результаты моделей с Pro-Cap по трем критериям подтверждают эффективность и обобщение предлагаемого метода.[1]
• Методологии вычислений → Обработка естественного языка; Представления компьютерного зрения.
мемы, мультимодальность, семантическое извлечение
Руй Цао, Мин Шань Хи, Адриэль Куек, Вен-Хо Чонг, Рой Ка-Вэй Ли и Цзин Цзян. 2023. Pro Cap: использование модели языка замороженного видения для обнаружения ненавистных мемов. В материалах 31-й Международной конференции ACM по мультимедиа (MM '23), 29 октября – 3 ноября 2023 г., Оттава, Онтарио, Канада. ACM, Нью-Йорк, Нью-Йорк, США, 11 страниц. https://doi.org/10.1145/3581783.3612498
Отказ от ответственности: этот документ содержит насилие и дискриминационный контент, который может беспокоить некоторых читателей.
Мемы, сочетающие изображения с короткими текстами, являются популярной формой общения в социальных сетях. Интернет-мемы часто предназначены для выражения юмора или сатиры. Однако их все чаще используют для распространения разжигающего ненависть контента на онлайн-платформах. Мемы ненависти нападают на отдельных людей или сообщества на основе их идентичности, такой как раса, пол или религия [5, 8, 12, 27]. Распространение мемов, разжигающих ненависть, может привести к разногласиям в Интернете и потенциально привести к преступлениям на почве ненависти. Поэтому крайне важно разработать точные методы обнаружения мемов ненависти.
Задача обнаружения ненавистнических мемов сложна из-за мультимодальной природы мемов. Обнаружение предполагает не только понимание изображений и текстов, но и понимание того, как эти две модальности взаимодействуют. Предыдущая работа [14, 28, 35, 36] изучает кросс-модальные взаимодействия с нуля, используя наборы данных для обнаружения ненавистных мемов. Однако моделям может быть сложно изучить сложные мультимодальные взаимодействия с ограниченным объемом данных, доступных из этих наборов данных. С развитием предварительно обученных моделей языка видения (PVLM), таких как VisualBERT [18] и ViLBERT [23], недавние работы используют эти мощные PVLM для облегчения задачи обнаружения ненавистных мемов. Распространенным подходом является точная настройка PVLM с использованием данных для конкретной задачи [9, 20, 26, 34, 37]. Однако менее осуществимо точно настроить более крупные модели, такие как BLIP-2 [15] и Flamingo [1], на обнаружение мемов, поскольку существуют миллиарды обучаемых параметров. Следовательно, для использования больших PVLM для облегчения обнаружения мемов ненависти необходимы вычислительно осуществимые решения, отличные от прямой точной настройки.
В отличие от описанного выше подхода с использованием PVLM, PromptHate[2] — это недавно предложенная модель, которая преобразует задачу обнаружения мультимодальных мемов в задачу моделирования унимодального замаскированного языка. Сначала он генерирует подписи к изображениям мемов с помощью готового генератора подписей к изображениям ClipCap [25]. Преобразуя всю входную информацию в текст, он может предложить предварительно обученную языковую модель вместе с двумя наглядными примерами, чтобы предсказать, является ли входная информация враждебной, используя богатые базовые знания языковой модели. Хотя PromptHate обеспечивает высочайшую производительность, на нее существенно влияет качество подписей к изображениям, как показано в Таблице 1. Подписи к изображениям, которые представляют собой просто общие описания изображений, могут упускать важные детали [14, 37], такие как раса и пол людей, которые важны для обнаружения разжигающего ненависть контента. Но с помощью дополнительных тегов изображений, таких как объекты, найденные на изображениях, и демографической информации о людях на изображениях, ту же модель можно значительно улучшить, как показано в таблице 1. Однако создание этих дополнительных тегов изображений является трудоемким и дорогостоящим процессом. Например, извлечение сущностей обычно выполняется с помощью API обнаружения веб-сущностей Google Vision [2], который является платной услугой. В идеале мы хотели бы найти более доступный способ получения из изображений объектов и демографической информации, которая имеет решающее значение для обнаружения разжигающего ненависть контента.
Оба вышеупомянутых подхода (т.е. один с использованием PVLM, а другой с преобразованием задачи в унимодальную задачу) имеют свои плюсы и минусы. В этой статье мы объединяем идеи этих двух подходов и разрабатываем метод обнаружения мемов ненависти, который использует возможности замороженного PVLM в дополнение к унимодальному подходу PromptHate. В частности, мы используем набор «зондирующих» вопросов для запроса PVLM (BLIP-2 [15] в наших экспериментах) для получения информации, связанной с распространенными уязвимыми объектами в контенте, разжигающем ненависть. Ответы, полученные на зондирующие вопросы, будут рассматриваться как подписи к изображениям (обозначаемые как Pro-Cap) и использоваться в качестве входных данных для обучаемой модели обнаружения ненавистных мемов. Рисунок 1 иллюстрирует общий рабочий процесс метода. Мы называем этап использования зондирующих вопросов для создания подписей субтитрами на основе зондирования.
Предлагаемый нами метод заполняет существующие пробелы в исследованиях за счет: 1) использования PVLM без какой-либо адаптации или тонкой настройки, тем самым снижая вычислительные затраты; 2) Вместо явного получения дополнительных тегов изображений с помощью дорогостоящих API мы используем замороженный PVLM для создания подписей, содержащих информацию, полезную для обнаружения ненавистнических мемов. Насколько нам известно, это первая работа, в которой PVLM беспрепятственно используется посредством ответов на вопросы для помощи в задаче обнаружения ненавистных мемов. Для дальнейшей проверки нашего метода мы тестируем влияние сгенерированного Pro-Cap как на PromptHate[2], так и на модель обнаружения ненавистных мемов на основе BERT[4].
Основываясь на экспериментальных результатах, мы наблюдаем, что PromptHate с Pro-Cap (обозначаемый как Pro-CapPromptHate) значительно превосходит исходный PromptHate без дополнительных тегов изображений (т. е. примерно на 4, 6 и 3 процентных пункта абсолютного улучшения производительности на FHM [12] ], МАМИ [5] и HarM [28] соответственно). ProCapPromptHate также достигает сопоставимых результатов с PromptHate с дополнительными тегами изображений, что указывает на то, что субтитры на основе зондирования могут быть более доступным способом получения объектов изображений или демографической информации. Тематические исследования также показывают, что Pro-Cap предлагает важные детали изображения для обнаружения разжигающего ненависть контента, что в некоторой степени повышает объяснимость моделей. Между тем, ProCapBERT явно превосходит мультимодальные модели на основе BERT аналогичного размера (т. е. примерно на 7 процентных пунктов абсолютное улучшение с VisualBERT на FHM [12]), доказывая обобщение метода субтитров на основе зондирования.
[1] Код доступен по адресу: https://github.com/Social-AI-Studio/Pro-Cap.
[2] https://cloud.google.com/vision/docs/detecting-web
Этот документ доступен на arxiv под лицензией CC 4.0.