paint-brush
Pro-Cap: Aprovechamiento de un modelo de visión-lenguaje congelado para la detección de memes de odiopor@memeology
255 lecturas

Pro-Cap: Aprovechamiento de un modelo de visión-lenguaje congelado para la detección de memes de odio

Demasiado Largo; Para Leer

Pro-Cap presenta un enfoque novedoso para la detección de memes de odio mediante el uso de modelos de visión-lenguaje (PVLM) congelados a través de subtítulos basados en sondeo, mejorando la eficiencia computacional y la calidad de los subtítulos para una detección precisa de contenido de odio en los memes.
featured image - Pro-Cap: Aprovechamiento de un modelo de visión-lenguaje congelado para la detección de memes de odio
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

Autores:

(1) Rui Cao, Universidad de Gestión de Singapur;

(2) Ming Shan Hee, Universidad de Diseño y Tecnología de Singapur;

(3) Adriel Kuek, Laboratorios Nacionales DSO;

(4) Wen-Haw Chong, Universidad de Gestión de Singapur;

(5) Roy Ka-Wei Lee, Universidad de Diseño y Tecnología de Singapur

(6) Jing Jiang, Universidad de Gestión de Singapur.

Tabla de enlaces

Resumen e introducción

Trabajo relacionado

Preliminar

Método propuesto

Experimento

Conclusión y referencias

Apéndice

ABSTRACTO

La detección de memes de odio es una tarea multimodal desafiante que requiere comprensión tanto de la visión como del lenguaje, así como interacciones intermodales. Estudios recientes han intentado ajustar modelos de visión y lenguaje (PVLM) previamente entrenados para esta tarea. Sin embargo, con el aumento del tamaño de los modelos, se vuelve importante aprovechar los potentes PVLM de manera más eficiente, en lugar de simplemente ajustarlos. Recientemente, los investigadores han intentado convertir imágenes de memes en leyendas textuales y generar modelos de lenguaje para realizar predicciones. Este enfoque ha mostrado un buen rendimiento, pero adolece de títulos de imágenes no informativos. Teniendo en cuenta los dos factores mencionados anteriormente, proponemos un enfoque de subtítulos basado en sondeo para aprovechar los PVLM de manera directa y sin respuesta a preguntas visuales (VQA). Específicamente, activamos un PVLM congelado haciendo preguntas relacionadas con contenido que incita al odio y utilizamos las respuestas como títulos de imágenes (que llamamos Pro-Cap), de modo que los títulos contengan información crítica para la detección de contenido que incita al odio. El buen desempeño de los modelos con Pro-Cap en tres puntos de referencia valida la efectividad y generalización del método propuesto.[1]

CONCEPTOS DE CCS

• Metodologías informáticas → Procesamiento del lenguaje natural; Representaciones de visión por computadora.

PALABRAS CLAVE

memes, multimodal, extracción semántica

Formato de referencia ACM:

Rui Cao, Ming Shan Hee, Adriel Kuek, Wen-Haw Chong, Roy Ka-Wei Lee y Jing Jiang. 2023. Pro Cap: Aprovechamiento de un modelo de visión-lenguaje congelado para la detección de memes de odio. En Actas de la 31ª Conferencia Internacional ACM sobre Multimedia (MM '23), del 29 de octubre al 3 de noviembre de 2023, Ottawa, ON, Canadá. ACM, Nueva York, NY, EE.UU., 11 páginas. https://doi.org/10.1145/3581783.3612498


Figura 1: El enfoque propuesto de subtítulos de sonda. Impulsamos modelos de visión y lenguaje congelados previamente entrenados a través de respuestas visuales a preguntas para generar títulos de imágenes centrados en contenido de odio.


Descargo de responsabilidad: este documento contiene violencia y contenido discriminatorio que puede resultar perturbador para algunos lectores.

1. INTRODUCCIÓN

Los memes, que combinan imágenes con textos breves, son una forma popular de comunicación en las redes sociales online. Los memes de Internet suelen tener como objetivo expresar humor o sátira. Sin embargo, se explotan cada vez más para difundir contenido que incite al odio en plataformas en línea. Los memes de odio atacan a personas o comunidades en función de sus identidades, como raza, género o religión [5, 8, 12, 27]. La propagación de memes de odio puede generar discordia en línea y potencialmente dar lugar a delitos de odio. Por lo tanto, es urgente desarrollar métodos precisos de detección de memes de odio.


La tarea de detectar memes de odio es un desafío debido a la naturaleza multimodal de los memes. La detección implica no sólo comprender tanto las imágenes como los textos, sino también comprender cómo interactúan estas dos modalidades. El trabajo anterior [14, 28, 35, 36] aprende interacciones intermodales desde cero utilizando conjuntos de datos de detección de memes de odio. Sin embargo, puede resultar difícil para los modelos aprender interacciones multimodales complicadas con la cantidad limitada de datos disponibles en estos conjuntos de datos. Con el desarrollo de modelos de visión-lenguaje preentrenados (PVLM), como VisualBERT [18] y ViLBERT [23], trabajos recientes aprovechan estos poderosos PVLM para facilitar la tarea de detección de memes de odio. Un enfoque común es ajustar los PVLM con datos específicos de la tarea [9, 20, 26, 34, 37]. Sin embargo, es menos factible ajustar modelos más grandes como BLIP-2 [15] y Flamingo [1] en la detección de memes porque hay miles de millones de parámetros entrenables. Por lo tanto, se necesitan soluciones computacionalmente viables distintas del ajuste directo para aprovechar los PVLM grandes para facilitar la detección de memes odiosos.


Tabla 1: Impacto en el rendimiento de detección en el conjunto de datos FHM [12] a partir de títulos de imágenes. (sin) denota modelos sin entidad adicional ni información demográfica.


A diferencia del enfoque anterior que utiliza PVLM, PromptHate[2] es un modelo propuesto recientemente que convierte la tarea de detección de memes multimodal en una tarea de modelado de lenguaje enmascarado unimodal. Primero genera títulos de imágenes de memes con un generador de títulos de imágenes disponible en el mercado, ClipCap [25]. Al convertir toda la información de entrada en texto, puede generar un modelo de lenguaje previamente entrenado junto con dos ejemplos demostrativos para predecir si la entrada es odiosa o no aprovechando el rico conocimiento previo del modelo de lenguaje. Aunque PromptHate logra un rendimiento de última generación, se ve significativamente afectado por la calidad de los títulos de las imágenes, como se muestra en la Tabla 1. Los títulos de las imágenes que son meramente descripciones genéricas de las imágenes pueden omitir detalles cruciales [14, 37], como la raza y el género de las personas, que son esenciales para la detección de contenido que incita al odio. Pero con etiquetas de imagen adicionales, como entidades encontradas en las imágenes e información demográfica sobre las personas en las imágenes, el mismo modelo se puede mejorar significativamente, como se muestra en la Tabla 1. Sin embargo, generar estas etiquetas de imagen adicionales es laborioso y costoso. Por ejemplo, la extracción de entidades generalmente se realiza con la API de detección de entidades web de Google Vision [2], que es un servicio pago. Idealmente, nos gustaría encontrar una forma más económica de obtener información demográfica y de entidad de las imágenes que sea fundamental para la detección de contenido que incite al odio.


Ambos enfoques mencionados anteriormente (es decir, uno que utiliza PVLM y el otro que convierte la tarea en una tarea unimodal) tienen sus ventajas y desventajas. En este artículo, combinamos las ideas de estos dos enfoques y diseñamos un método de detección de memes de odio que aprovecha el poder de un PVLM congelado para complementar el enfoque unimodal de PromptHate. Específicamente, utilizamos un conjunto de preguntas de "sondeo" para consultar un PVLM (BLIP-2 [15] en nuestros experimentos) en busca de información relacionada con objetivos vulnerables comunes en contenido de odio. Las respuestas obtenidas de las preguntas de sondeo se tratarán como pies de foto (denominados Pro-Cap) y se utilizarán como entrada para un modelo de detección de memes de odio entrenable. La Figura 1 ilustra el flujo de trabajo general del método. Nos referimos al paso de utilizar preguntas de sondeo para generar los subtítulos como subtítulos basados en sondeo.


Nuestro método propuesto llena los vacíos de investigación existentes al: 1) Aprovechar un PVLM sin ninguna adaptación o ajuste, reduciendo así el costo computacional; 2) En lugar de obtener explícitamente etiquetas de imágenes adicionales con costosas API, utilizamos el PVLM congelado para generar subtítulos que contienen información útil para la detección de memes odiosos. Hasta donde sabemos, este es el primer trabajo que aprovecha los PVLM de manera inmediata mediante la respuesta a preguntas para ayudar en la tarea de detección de memes de odio. Para validar aún más nuestro método, probamos el efecto del Pro-Cap generado tanto en PromptHate[2] como en un modelo de detección de memes de odio basado en BERT[4].


Según los resultados experimentales, observamos que PromptHate con Pro-Cap (denominado Pro-CapPromptHate) supera significativamente al PromptHate original sin etiquetas de imagen adicionales (es decir, alrededor de 4, 6 y 3 puntos porcentuales de mejora absoluta del rendimiento en FHM [12 ], MAMI [5] y HarM [28] respectivamente). ProCapPromptHate también logra resultados comparables con PromptHate con etiquetas de imagen adicionales, lo que indica que los subtítulos basados en sondeo pueden ser una forma más asequible de obtener entidades de imágenes o información demográfica. Los estudios de caso muestran además que Pro-Cap ofrece detalles de imagen esenciales para la detección de contenido que incita al odio, lo que mejora hasta cierto punto la explicabilidad de los modelos. Mientras tanto, ProCapBERT supera claramente los modelos multimodales basados en BERT de tamaños similares (es decir, alrededor de 7 puntos porcentuales de mejora absoluta con VisualBERT en FHM [12]), lo que demuestra la generalización del método de subtítulos basado en sondeo.




[1] El código está disponible en: https://github.com/Social-AI-Studio/Pro-Cap


[2] https://cloud.google.com/vision/docs/detecting-web


Este documento está disponible en arxiv bajo licencia CC 4.0.