paint-brush
Pro-Cap: Aproveitando um modelo de linguagem de visão congelada para detecção de memes odiosos: Apêndicepor@memeology
159 leituras

Pro-Cap: Aproveitando um modelo de linguagem de visão congelada para detecção de memes odiosos: Apêndice

Muito longo; Para ler

Este apêndice fornece detalhes detalhados sobre a implementação de modelos de detecção de memes odiosos, insights de estudos de ablação, comparações visuais do Pro-Cap e do PromptHate básico e resultados que destacam o impacto do uso de respostas de perguntas de investigação únicas, sugerindo direções de otimização para modelos de detecção de memes.
featured image - Pro-Cap: Aproveitando um modelo de linguagem de visão congelada para detecção de memes odiosos: Apêndice
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

Este artigo está disponível no arxiv sob licença CC 4.0.

Autores:

(1) Rui Cao, Universidade de Gestão de Singapura;

(2) Ming Shan Hee, Universidade de Design e Tecnologia de Singapura;

(3) Adriel Kuek, Laboratórios Nacionais DSO;

(4) Wen-Haw Chong, Universidade de Gestão de Singapura;

(5) Roy Ka-Wei Lee, Universidade de Design e Tecnologia de Singapura

(6) Jing Jiang, Universidade de Gestão de Singapura.

Tabela de links

Resumo e introdução

Trabalho relatado

Preliminares

Método proposto

Experimentar

Conclusão e Referências

Apêndice

APÊNDICE

Tabela 9: Comparação entre Pro-CapPromptHate e PromptHate básico no conjunto de dados HarM.

DETALHES PARA IMPLEMENTAÇÃO

Implementamos todos os modelos da Biblioteca PyTorch com a versão CUDA11.2. Usamos a GPU Tesla V 100, cada uma com memória dedicada de 32 GB. Para modelos implementados especificamente para detecção de memes de ódio, utilizamos os códigos publicados pelo autor para reimplementação [4]. Para modelos pré-treinados que podem ser encontrados na Biblioteca Huggingface, usamos os pacotes do Huggingface [5], especificamente o BERT [4], VisualBERT [18] e o modelo BLIP. Gor ViLBERT [23], pegamos o código liberado dos autores [6]. Para ALBEF [17] e BLIP-2 [15], usamos os pacotes da Biblioteca LAVIS [7]


Tabela 12: Comparação de modelos sem tags de imagem aumentada.


Tabela 13: Desempenho do modelo ao fazer apenas uma única pergunta de investigação.


Para cada imagem de meme, restringimos o comprimento total do texto do meme e da legenda genérica da imagem (seja do modelo de legenda ou perguntando sobre o conteúdo da imagem) a 65. Para cada pergunta adicional, restringimos seu comprimento a ser menor que 20. Se a concatenação da frase ultrapassar o comprimento limitado, a frase será truncada, caso contrário, se a frase for menor que o comprimento limitado, ela será preenchida. Definimos o número de épocas de treinamento como 10 para todos os modelos.


O número de parâmetros do modelo está resumido na Tabela 11.

B RESULTADOS DO ESTUDO DE ABLAÇÃO COMPLETA

Devido à limitação de espaço, mostramos apenas resultados de precisão em estudos de ablação na Tabela 6. Os resultados completos, incluindo a AUC e a precisão, são fornecidos na Tabela 12.

CASOS DE VISUALIZAÇÃO C

Na Seção 5.5, fornecemos visualização de casos para comparação do ProCapPromptHate com o PromptHate básico. Devido a restrições de espaço, omitimos exemplos dos outros dois conjuntos de dados. Fornecemos mais casos de visualização nesta parte. Os casos do conjunto de dados HarM são ilustrados na Tabela 9 e os casos do conjunto de dados MAMI são mostrados na Tabela 10.

D RESULTADOS COM PRO-CAP SOBRE UM ALVO

Na Seção 5, relatamos resultados apenas quando os modelos usam Pro-Cap em todas as questões de investigação. Nesta parte, reportamos resultados (com entidades) ao usar as respostas de uma única pergunta de investigação na Tabela 13.


De acordo com os resultados, observamos que os modelos que utilizam respostas a uma única questão de sondagem são muito poderosos e alguns até superam a pergunta heurística de todas as questões de sondagem (por exemplo, usar a pergunta sobre nacionalidade no FHM é melhor do que usar todas as questões de sondagem). Ele ressalta que o uso de todas as legendas de investigação pode não ser a solução ideal e pode gerar descrições de imagens irrelevantes. Por exemplo, confrontado com um meme odioso dirigido aos negros, não faz sentido perguntar a religião das pessoas na imagem. Curiosamente, no MAMI, quando utiliza apenas respostas à questão investigativa sobre género, atinge o melhor desempenho. É porque MAMI contém apenas memes odiosos sobre mulheres. Uma direção promissora seria treinar o modelo para selecionar dinamicamente questões de investigação essenciais para a detecção de memes para diferentes memes.





[4] CLIP-BERT/MOMENTA: https://github.com/LCS2-IIITD/MOMENTA;DisMultiHate: https://gitlab.com/bottle_shop/safe/dismultihate; PromptHate: https://gitlab.com/bottle_shop/safe/prompthate


[5] https://huggingface.co/


[6] https://github.com/facebookresearch/vilbert-multi-task


[7] https://github.com/salesforce/LAVIS fazendo heuristicamente todas as perguntas de investigação (por exemplo, usando