Jan 01, 1970
作者:
(1)曹睿,新加坡管理大学;
(2) Ming Shan Hee,新加坡设计科技大学;
(3)DSO国家实验室的 Adriel Kuek;
(4)Wen-Haw Chong,新加坡管理大学;
(5)Roy Ka-Wei Lee,新加坡设计科技大学
(6)蒋菁,新加坡管理大学。
表情包通常意在幽默或讽刺,但却越来越多地被用于传播仇恨内容,从而导致了在线仇恨表情包检测任务的挑战性 [5、12、27]。为了打击仇恨表情包的传播,一项研究将仇恨表情包检测视为一项多模态分类任务。研究人员应用预先训练的视觉语言模型 (PVLM),并根据表情包检测数据对其进行微调 [20、26、34、37]。为了提高性能,一些人尝试了模型集成 [20、26、34]。另一项研究考虑将预训练模型(例如 BERT [4] 和 CLIP [29])与特定于任务的模型架构相结合,并对其进行端到端调整 [13、14、28]。最近,[2] 中的作者尝试将所有表情包信息转换为文本,并提示语言模型更好地利用语言模型中存在的上下文背景知识。该方法在两个仇恨模因检测基准上取得了最佳结果。但是,它采用了一种通过图像字幕描述图像的通用方法,通常会忽略仇恨模因检测所需的重要因素。在这项工作中,我们试图通过基于探测的字幕解决这个问题,即以零样本 VQA 方式向预先训练的视觉语言模型提示以仇恨内容为中心的问题。