paint-brush
Pro-Cap: aproveitando um modelo de linguagem de visão congelada para detecção de memes odiososby@memeology
294

Pro-Cap: aproveitando um modelo de linguagem de visão congelada para detecção de memes odiosos

O Pro-Cap apresenta uma nova abordagem para detecção de memes de ódio, utilizando modelos de linguagem de visão congelados (PVLMs) por meio de legendas baseadas em sondagem, melhorando a eficiência computacional e a qualidade da legenda para detecção precisa de conteúdo de ódio em memes.
featured image - Pro-Cap: aproveitando um modelo de linguagem de visão congelada para detecção de memes odiosos
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

Autores:

(1) Rui Cao, Universidade de Gestão de Singapura;

(2) Ming Shan Hee, Universidade de Design e Tecnologia de Singapura;

(3) Adriel Kuek, Laboratórios Nacionais DSO;

(4) Wen-Haw Chong, Universidade de Gestão de Singapura;

(5) Roy Ka-Wei Lee, Universidade de Design e Tecnologia de Singapura

(6) Jing Jiang, Universidade de Gestão de Singapura.

Tabela de links

Resumo e introdução

Trabalho relatado

Preliminares

Método proposto

Experimentar

Conclusão e Referências

Apêndice

ABSTRATO

A detecção de memes odiosos é uma tarefa multimodal desafiadora que requer compreensão tanto da visão quanto da linguagem, bem como interações intermodais. Estudos recentes tentaram ajustar modelos de linguagem de visão pré-treinados (PVLMs) para esta tarefa. No entanto, com o aumento do tamanho dos modelos, torna-se importante aproveitar PVLMs poderosos de forma mais eficiente, em vez de simplesmente ajustá-los. Recentemente, pesquisadores tentaram converter imagens de memes em legendas textuais e solicitar modelos de linguagem para previsões. Essa abordagem mostrou bom desempenho, mas apresenta legendas de imagens não informativas. Considerando os dois fatores mencionados acima, propomos uma abordagem de legendagem baseada em sondagem para aproveitar os PVLMs de uma maneira de resposta visual a perguntas (VQA) de disparo zero. Especificamente, solicitamos um PVLM congelado fazendo perguntas relacionadas a conteúdo de ódio e usando as respostas como legendas de imagens (que chamamos de Pro-Cap), para que as legendas contenham informações críticas para a detecção de conteúdo de ódio. O bom desempenho dos modelos com Pro-Cap em três benchmarks valida a eficácia e generalização do método proposto.[1]

CONCEITOS DE CCS

• Metodologias computacionais → Processamento de linguagem natural; Representações de visão computacional.

PALAVRAS-CHAVE

memes, multimodal, extração semântica

Formato de referência ACM:

Rui Cao, Ming Shan Hee, Adriel Kuek, Wen-Haw Chong, Roy Ka-Wei Lee e Jing Jiang. 2023. Pro Cap: Aproveitando um modelo de linguagem de visão congelada para detecção de meme odioso. Em Anais da 31ª Conferência Internacional ACM sobre Multimídia (MM '23), 29 de outubro a 3 de novembro de 2023, Ottawa, ON, Canadá. ACM, Nova York, NY, EUA, 11 páginas. https://doi.org/10.1145/3581783.3612498


Figura 1: A abordagem proposta de legendagem de sondagem. Solicitamos modelos de linguagem de visão pré-treinados congelados por meio de respostas visuais a perguntas para gerar legendas de imagens centradas em conteúdo de ódio.


Isenção de responsabilidade: este artigo contém violência e conteúdo discriminatório que pode ser perturbador para alguns leitores.

1. INTRODUÇÃO

Os memes, que combinam imagens com textos curtos, são uma forma popular de comunicação nas redes sociais online. Os memes da Internet geralmente têm como objetivo expressar humor ou sátira. No entanto, são cada vez mais explorados para difundir conteúdos de ódio em plataformas online. Memes odiosos atacam indivíduos ou comunidades com base em suas identidades, como raça, gênero ou religião [5, 8, 12, 27]. A propagação de memes de ódio pode levar à discórdia online e potencialmente resultar em crimes de ódio. Portanto, é urgente desenvolver métodos precisos de detecção de memes de ódio.


A tarefa de detecção de memes odiosos é desafiadora devido à natureza multimodal dos memes. A detecção envolve não apenas a compreensão das imagens e dos textos, mas também a compreensão de como essas duas modalidades interagem. Trabalhos anteriores [14, 28, 35, 36] aprendem interações intermodais do zero usando conjuntos de dados de detecção de memes odiosos. No entanto, pode ser difícil para os modelos aprenderem interações multimodais complicadas com a quantidade limitada de dados disponíveis a partir destes conjuntos de dados. Com o desenvolvimento de modelos de linguagem de visão pré-treinados (PVLMs), como VisualBERT [18] e ViLBERT [23], trabalhos recentes aproveitam esses PVLMs poderosos para facilitar a tarefa de detecção de memes odiosos. Uma abordagem comum é ajustar os PVLMs com dados específicos da tarefa [9, 20, 26, 34, 37]. No entanto, é menos viável ajustar modelos maiores, como BLIP-2 [15] e Flamingo [1], na detecção de memes, porque existem bilhões de parâmetros treináveis. Portanto, são necessárias soluções computacionalmente viáveis, além do ajuste fino direto, para aproveitar grandes PVLMs e facilitar a detecção de memes de ódio.


Tabela 1: Impacto no desempenho de detecção no conjunto de dados FHM [12] a partir de legendas de imagens. (sem) denota modelos sem entidade adicional e informações demográficas.


Diferente da abordagem acima usando PVLMs, PromptHate[2] é um modelo proposto recentemente que converte a tarefa de detecção de meme multimodal em uma tarefa de modelagem de linguagem mascarada unimodal. Ele primeiro gera legendas de imagens de memes com um gerador de legendas de imagens pronto para uso, ClipCap [25]. Ao converter todas as informações de entrada em texto, ele pode acionar um modelo de linguagem pré-treinado, juntamente com dois exemplos demonstrativos, para prever se a entrada é odiosa ou não, aproveitando o rico conhecimento prévio do modelo de linguagem. Embora o PromptHate atinja um desempenho de última geração, ele é significativamente afetado pela qualidade das legendas das imagens, conforme mostrado na Tabela 1. As legendas das imagens que são meramente descrições genéricas de imagens podem omitir detalhes cruciais [14, 37], como a raça e o género das pessoas, que são essenciais para a deteção de conteúdos de ódio. Mas com tags de imagem adicionais, como entidades encontradas nas imagens e informações demográficas sobre as pessoas nas imagens, o mesmo modelo pode ser significativamente melhorado, conforme mostrado na Tabela 1. No entanto, gerar essas tags de imagem adicionais é trabalhoso e caro. Por exemplo, a extração de entidades geralmente é realizada com a API Google Vision Web Entity Detection [2], que é um serviço pago. Idealmente, gostaríamos de encontrar uma maneira mais acessível de obter informações demográficas e de entidades das imagens que sejam críticas para a detecção de conteúdo de ódio.


Ambas as abordagens mencionadas acima (ou seja, uma usando PVLMs e a outra convertendo a tarefa em uma tarefa unimodal) têm seus prós e contras. Neste artigo, combinamos as ideias dessas duas abordagens e projetamos um método de detecção de memes odiosos que aproveita o poder de um PVLM congelado para complementar a abordagem unimodal do PromptHate. Especificamente, usamos um conjunto de perguntas de “sondagem” para consultar um PVLM (BLIP-2 [15] em nossos experimentos) em busca de informações relacionadas a alvos vulneráveis comuns em conteúdo de ódio. As respostas obtidas nas perguntas de investigação serão tratadas como legendas de imagens (denotadas como Pro-Cap) e usadas como entrada para um modelo treinável de detecção de memes odiosos. A Figura 1 ilustra o fluxo de trabalho geral do método. Referimo-nos à etapa de uso de perguntas de sondagem para gerar as legendas como legendas baseadas em sondagem.


Nosso método proposto preenche lacunas de pesquisa existentes: 1) Aproveitar um PVLM sem qualquer adaptação ou ajuste fino, reduzindo assim o custo computacional; 2) Em vez de obter explicitamente tags de imagem adicionais com APIs caras, utilizamos o PVLM congelado para gerar legendas que contêm informações úteis para detecção de memes de ódio. Até onde sabemos, este é o primeiro trabalho que aproveita os PVLMs de maneira imediata por meio de respostas a perguntas para auxiliar na tarefa de detecção de memes odiosos. Para validar ainda mais nosso método, testamos o efeito do Pro-Cap gerado no PromptHate[2] e em um modelo de detecção de meme de ódio baseado em BERT[4].


Com base nos resultados experimentais, observamos que o PromptHate com Pro-Cap (denotado como Pro-CapPromptHate) supera significativamente o PromptHate original sem tags de imagem adicionais (ou seja, cerca de 4, 6 e 3 pontos percentuais de melhoria absoluta de desempenho no FHM [12 ], MAMI [5] e HarM [28] respectivamente). O ProCapPromptHate também alcança resultados comparáveis com o PromptHate com tags de imagem adicionais, indicando que a legendagem baseada em sondagem pode ser uma forma mais acessível de obter entidades de imagem ou informações demográficas. Os estudos de caso mostram ainda que o Pro-Cap oferece detalhes de imagem essenciais para detecção de conteúdo de ódio, melhorando até certo ponto a explicabilidade dos modelos. Enquanto isso, o ProCapBERT supera claramente os modelos multimodais baseados em BERT de tamanhos semelhantes (ou seja, cerca de 7 pontos percentuais de melhoria absoluta com o VisualBERT no FHM [12]), comprovando a generalização do método de legendagem baseado em sondagem.




[1] O código está disponível em: https://github.com/Social-AI-Studio/Pro-Cap


[2] https://cloud.google.com/vision/docs/detecting-web


Este artigo está disponível no arxiv sob licença CC 4.0.