Este artigo está disponível no arxiv sob licença CC 4.0.
Autores:
(1) Rui Cao, Universidade de Gestão de Singapura;
(2) Ming Shan Hee, Universidade de Design e Tecnologia de Singapura;
(3) Adriel Kuek, Laboratórios Nacionais DSO;
(4) Wen-Haw Chong, Universidade de Gestão de Singapura;
(5) Roy Ka-Wei Lee, Universidade de Design e Tecnologia de Singapura
(6) Jing Jiang, Universidade de Gestão de Singapura.
Implementamos todos os modelos da Biblioteca PyTorch com a versão CUDA11.2. Usamos a GPU Tesla V 100, cada uma com memória dedicada de 32 GB. Para modelos implementados especificamente para detecção de memes de ódio, utilizamos os códigos publicados pelo autor para reimplementação [4]. Para modelos pré-treinados que podem ser encontrados na Biblioteca Huggingface, usamos os pacotes do Huggingface [5], especificamente o BERT [4], VisualBERT [18] e o modelo BLIP. Gor ViLBERT [23], pegamos o código liberado dos autores [6]. Para ALBEF [17] e BLIP-2 [15], usamos os pacotes da Biblioteca LAVIS [7]
Para cada imagem de meme, restringimos o comprimento total do texto do meme e da legenda genérica da imagem (seja do modelo de legenda ou perguntando sobre o conteúdo da imagem) a 65. Para cada pergunta adicional, restringimos seu comprimento a ser menor que 20. Se a concatenação da frase ultrapassar o comprimento limitado, a frase será truncada, caso contrário, se a frase for menor que o comprimento limitado, ela será preenchida. Definimos o número de épocas de treinamento como 10 para todos os modelos.
O número de parâmetros do modelo está resumido na Tabela 11.
Devido à limitação de espaço, mostramos apenas resultados de precisão em estudos de ablação na Tabela 6. Os resultados completos, incluindo a AUC e a precisão, são fornecidos na Tabela 12.
Na Seção 5.5, fornecemos visualização de casos para comparação do ProCapPromptHate com o PromptHate básico. Devido a restrições de espaço, omitimos exemplos dos outros dois conjuntos de dados. Fornecemos mais casos de visualização nesta parte. Os casos do conjunto de dados HarM são ilustrados na Tabela 9 e os casos do conjunto de dados MAMI são mostrados na Tabela 10.
Na Seção 5, relatamos resultados apenas quando os modelos usam Pro-Cap em todas as questões de investigação. Nesta parte, reportamos resultados (com entidades) ao usar as respostas de uma única pergunta de investigação na Tabela 13.
De acordo com os resultados, observamos que os modelos que utilizam respostas a uma única questão de sondagem são muito poderosos e alguns até superam a pergunta heurística de todas as questões de sondagem (por exemplo, usar a pergunta sobre nacionalidade no FHM é melhor do que usar todas as questões de sondagem). Ele ressalta que o uso de todas as legendas de investigação pode não ser a solução ideal e pode gerar descrições de imagens irrelevantes. Por exemplo, confrontado com um meme odioso dirigido aos negros, não faz sentido perguntar a religião das pessoas na imagem. Curiosamente, no MAMI, quando utiliza apenas respostas à questão investigativa sobre género, atinge o melhor desempenho. É porque MAMI contém apenas memes odiosos sobre mulheres. Uma direção promissora seria treinar o modelo para selecionar dinamicamente questões de investigação essenciais para a detecção de memes para diferentes memes.
[4] CLIP-BERT/MOMENTA: https://github.com/LCS2-IIITD/MOMENTA;DisMultiHate: https://gitlab.com/bottle_shop/safe/dismultihate; PromptHate: https://gitlab.com/bottle_shop/safe/prompthate
[5] https://huggingface.co/
[6] https://github.com/facebookresearch/vilbert-multi-task
[7] https://github.com/salesforce/LAVIS fazendo heuristicamente todas as perguntas de investigação (por exemplo, usando