paint-brush
Pro-Cap:利用冻结视觉语言模型进行仇恨模因检测by@memeology
294

Pro-Cap:利用冻结视觉语言模型进行仇恨模因检测

Pro-Cap 通过基于探测的字幕利用冻结视觉语言模型 (PVLM),引入了一种新颖的仇恨模因检测方法,提高了计算效率和字幕质量,从而准确检测模因中的仇恨内容。
featured image - Pro-Cap:利用冻结视觉语言模型进行仇恨模因检测
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

作者:

(1)曹睿,新加坡管理大学;

(2) Ming Shan Hee,新加坡设计科技大学;

(3)DSO国家实验室的 Adriel Kuek;

(4)Wen-Haw Chong,新加坡管理大学;

(5)Roy Ka-Wei Lee,新加坡设计科技大学

(6)蒋菁,新加坡管理大学。

链接表

摘要和引言

相关工作

初步的

提出的方法

实验

结论和参考文献

附录

抽象的

仇恨模因检测是一项具有挑战性的多模态任务,需要理解视觉和语言,以及跨模态交互。最近的研究试图微调预训练的视觉语言模型 (PVLM) 以完成这项任务。然而,随着模型规模的增加,更有效地利用强大的 PVLM 变得非常重要,而不是简单地对其进行微调。最近,研究人员试图将模因图像转换为文本字幕,并提示语言模型进行预测。这种方法表现出色,但图像字幕信息量不足。考虑到上述两个因素,我们提出了一种基于探测的字幕方法,以零样本视觉问答 (VQA) 的方式利用 PVLM。具体来说,我们通过询问与仇恨内容相关的问题来提示冻结的 PVLM,并使用答案作为图像字幕(我们称之为 Pro-Cap),以便字幕包含对仇恨内容检测至关重要的信息。具有 Pro-Cap 的模型在三个基准上的良好表现验证了所提方法的有效性和泛化性。[1]

CCS 概念

• 计算方法→自然语言处理;计算机视觉表示。

关键词

模因、多模态、语义提取

ACM 参考格式:

Rui Cao、Ming Shan Hee、Adriel Kuek、Wen-Haw Chong、Roy Ka-Wei Lee 和 Jing Jiang。2023 年。Pro Cap:利用冻结视觉语言模型检测恶意模因。第 31 届 ACM 国际多媒体会议 (MM '23) 论文集,2023 年 10 月 29 日至 11 月 3 日,加拿大安大略省渥太华。ACM,美国纽约州纽约,11 页。https://doi.org/10.1145/3581783.3612498


图 1:我们提出的探测字幕方法。我们通过视觉问答提示冻结的预训练视觉语言模型来生成以仇恨内容为中心的图像字幕。


免责声明:本文含有暴力和歧视内容,可能会引起一些读者的不安。

1 引言

模因是将图像与短文本结合在一起的,是在线社交媒体中一种流行的交流形式。网络模因通常旨在表达幽默或讽刺。然而,它们越来越多地被用来在网络平台上传播仇恨内容。仇恨模因基于种族、性别或宗教等身份攻击个人或社区 [5, 8, 12, 27]。仇恨模因的传播会导致网络不和,并可能导致仇恨犯罪。因此,开发准确的仇恨模因检测方法迫在眉睫。


由于 meme 的多模态特性,仇恨 meme 检测任务具有挑战性。检测不仅涉及理解图像和文本,还涉及理解这两种模态如何相互作用。先前的研究 [14、28、35、36] 使用仇恨 meme 检测数据集从头开始学习跨模态交互。然而,由于这些数据集中可用的数据量有限,模型可能难以学习复杂的多模态交互。随着预训练视觉语言模型 (PVLM)(例如 VisualBERT [18] 和 ViLBERT [23])的发展,最近的研究利用这些强大的 PVLM 来促进仇恨 meme 检测任务。一种常见的方法是使用特定于任务的数据对 PVLM 进行微调 [9、20、26、34、37]。然而,在 meme 检测上对较大的模型(例如 BLIP-2 [15] 和 Flamingo [1])进行微调不太可行,因为有数十亿个可训练的参数。因此,除了直接微调之外,还需要其他计算上可行的解决方案来利用大型 PVLM 来促进仇恨模因检测。


表 1:图像标题对 FHM 数据集 [12] 检测性能的影响。 (w/o) 表示没有额外实体和人口统计信息的模型。


与上述使用 PVLM 的方法不同,PromptHate[2] 是最近提出的模型,它将多模态 meme 检测任务转换为单模态掩码语言建模任务。它首先使用现成的图像字幕生成器 ClipCap [25] 生成 meme 图像字幕。通过将所有输入信息转换为文本,它可以提示预先训练的语言模型以及两个示范性示例,利用语言模型中丰富的背景知识来预测输入是否带有仇恨。尽管 PromptHate 实现了最佳性能,但它受到图像字幕质量的显著影响,如表 1 所示。仅仅是对图像进行一般性描述的图像字幕可能会忽略关键细节 [14, 37],例如人物的种族和性别,而这些对于仇恨内容检测至关重要。但是,如果添加额外的图像标签,例如在图像中发现的实体和图像中人物的人口统计信息,则同一模型可以得到显著改进,如表 1 所示。但是,生成这些额外的图像标签既费力又昂贵。例如,实体提取通常使用 Google Vision Web 实体检测 API [2] 进行,这是一项付费服务。理想情况下,我们希望找到一种更经济实惠的方式来从图像中获取实体和人口统计信息,这对于仇恨内容检测至关重要。


上述两种方法(一种使用 PVLM,另一种将任务转换为单峰任务)各有利弊。在本文中,我们将这两种方法的思想结合起来,设计了一种仇恨模因检测方法,利用冻结 PVLM 的强大功能来补充 PromptHate 的单峰方法。具体来说,我们使用一组“探索性”问题来查询 PVLM(在我们的实验中为 BLIP-2 [15]),以获取与仇恨内容中常见脆弱目标相关的信息。从探索性问题中获得的答案将被视为图像字幕(表示为 Pro-Cap)并用作可训练仇恨模因检测模型的输入。图 1 说明了该方法的总体工作流程。我们将使用探索性问题生成字幕的步骤称为基于探索性的字幕。


我们提出的方法填补了现有的研究空白:1) 利用 PVLM 而无需任何调整或微调,从而降低计算成本;2) 我们无需使用昂贵的 API 明确获取额外的图像标签,而是利用冻结的 PVLM 生成包含对仇恨 meme 检测有用的信息的字幕。据我们所知,这是第一项通过问答以零样本方式利用 PVLM 来协助仇恨 meme 检测任务的研究。为了进一步验证我们的方法,我们在 PromptHate[2] 和基于 BERT[4] 的仇恨 meme 检测模型上测试了生成的 Pro-Cap 的效果。


根据实验结果,我们观察到带有 Pro-Cap 的 PromptHate(记为 Pro-CapPromptHate)明显优于不带附加图像标签的原始 PromptHate(即在 FHM [12]、MAMI [5] 和 HarM [28] 上分别获得了约 4、6 和 3 个百分点的绝对性能提升)。ProCapPromptHate 还取得了与带有附加图像标签的 PromptHate 相当的结果,这表明基于探测的字幕制作是一种更经济实惠的获取图像实体或人口统计信息的方式。案例研究进一步表明,Pro-Cap 为仇恨内容检测提供了必要的图像细节,在一定程度上增强了模型的可解释性。同时,ProCapBERT 明显超越了类似规模的基于多模态 BERT 的模型(即在 FHM [12] 上使用 VisualBERT 获得了约 7 个百分点的绝对性能提升),证明了基于探测的字幕制作方法的泛化能力。




[1] 代码位于:https://github.com/Social-AI-Studio/Pro-Cap


[2] https://cloud.google.com/vision/docs/detecting-web