Autores:
(1) Rui Cao, Universidade de Gestão de Singapura;
(2) Ming Shan Hee, Universidade de Design e Tecnologia de Singapura;
(3) Adriel Kuek, Laboratórios Nacionais DSO;
(4) Wen-Haw Chong, Universidade de Gestão de Singapura;
(5) Roy Ka-Wei Lee, Universidade de Design e Tecnologia de Cingapura
(6) Jing Jiang, Universidade de Gestão de Singapura.
Os memes , normalmente concebidos para serem humorísticos ou sarcásticos, estão sendo cada vez mais explorados para a proliferação de conteúdo de ódio, levando à desafiadora tarefa de detecção de memes de ódio online [5, 12, 27]. Para combater a propagação de memes odiosos, uma linha de trabalho considera a detecção de memes odiosos como uma tarefa de classificação multimodal. Os pesquisadores aplicaram modelos de linguagem de visão pré-treinados (PVLMs) e os ajustaram com base em dados de detecção de memes [20, 26, 34, 37]. Para melhorar o desempenho, alguns tentaram a combinação de modelos [20, 26, 34]. Outra linha de trabalho considera combinar modelos pré-treinados (por exemplo, BERT [4] e CLIP [29]) com arquiteturas de modelos específicos de tarefas e ajustá-los de ponta a ponta [13, 14, 28]. Recentemente, os autores em [2] tentaram converter todas as informações do meme em texto e estimular os modelos de linguagem a aproveitar melhor o conhecimento contextual presente nos modelos de linguagem. Esta abordagem alcança resultados de última geração em dois benchmarks de detecção de memes odiosos. No entanto, adota um método genérico para descrever a imagem por meio de legendas, muitas vezes ignorando fatores importantes necessários para a detecção de memes de ódio. Neste trabalho, procuramos resolver esse problema por meio de legendas baseadas em sondagens, solicitando modelos de linguagem de visão pré-treinados com perguntas centradas em conteúdo de ódio de uma maneira VQA zero-shot.
Este artigo está disponível no arxiv sob licença CC 4.0.