该论文可在 arxiv 上根据 CC 4.0 许可获取。
作者:
(1)曹睿,新加坡管理大学;
(2) Ming Shan Hee,新加坡设计科技大学;
(3)DSO国家实验室的 Adriel Kuek;
(4)Wen-Haw Chong,新加坡管理大学;
(5)Roy Ka-Wei Lee,新加坡设计科技大学
(6)蒋菁,新加坡管理大学。
我们在 PyTorch 库下使用 CUDA11.2 版本实现了所有模型。我们使用 Tesla V 100 GPU,每个 GPU 都有 32GB 的专用内存。对于专门为仇恨表情包检测而实现的模型,我们采用作者发布的代码进行重新实现 [4]。对于可以在 Huggingface 库下找到的预训练模型,我们使用 Huggingface [5] 中的软件包,特别是 BERT [4]、VisualBERT [18] 和 BLIP 模型。对于 Gor ViLBERT [23],我们采用作者发布的代码 [6]。对于 ALBEF [17] 和 BLIP-2 [15],我们使用 LAVIS 库 [7] 下的软件包
对于每张 meme 图像,我们将 meme 文本和通用图像标题(来自标题模型或通过询问图像内容)的总长度限制为 65。对于每个附加问题,我们将其长度限制为少于 20。如果句子的连接超出了限制长度,则句子将被截断,否则,如果句子比限制长度短,则会进行填充。我们将所有模型的训练周期数设置为 10。
模型参数的数量总结在表11中。
由于篇幅限制,我们仅在表 6 中展示了消融研究中的准确度结果。表 12 提供了包括 AUC 和准确度在内的完整结果。
在第 5.5 节中,我们提供了 ProCapPromptHate 与基本 PromptHate 的比较案例的可视化。由于篇幅限制,我们省略了其他两个数据集的示例。我们在此部分提供了更多可视化案例。HarM 数据集中的案例如表 9 所示,MAMI 数据集中的案例如表 10 所示。
在第 5 部分中,我们仅报告模型在所有探索性问题中使用 Pro-Cap 的结果。在本部分中,我们报告使用表 13 中单个探索性问题的答案时的结果(包含实体)。
根据结果,我们观察到使用单个探索性问题答案的模型都很强大,有些甚至优于启发式地询问所有探索性问题(例如,在《FHM》中使用询问国籍的问题比使用所有探索性问题要好)。它指出使用所有探索性标题可能不是最佳解决方案,并且可能会生成不相关的图像描述。例如,面对针对黑人的仇恨模因,询问图片中人的宗教信仰是毫无意义的。有趣的是,在 MAMI 上,当仅使用关于性别的探索性问题的答案时达到最佳性能。这是因为 MAMI 只包含关于女性的仇恨模因。一个有希望的方向是训练模型动态地选择对不同模因进行模因检测所必需的探索性问题。
[4] CLIP-BERT/MOMENTA:https://github.com/LCS2-IIITD/MOMENTA;DisMultiHate:https://gitlab.com/bottle_shop/safe/dismultihate;PromptHate:https://gitlab.com/bottle_shop/safe/prompthate
[5] https://huggingface.co/
[6] https://github.com/facebookresearch/vilbert-multi-task
[7] https://github.com/salesforce/LAVIS 启发式地提出所有探索性问题(例如,使用