paint-brush
Pro-Cap: Aprovechamiento de un modelo de visión y lenguaje congelado para la detección de memes de odio: Apéndicepor@memeology
201 lecturas

Pro-Cap: Aprovechamiento de un modelo de visión y lenguaje congelado para la detección de memes de odio: Apéndice

Demasiado Largo; Para Leer

Este apéndice proporciona detalles detallados sobre la implementación de modelos de detección de memes de odio, conocimientos de estudios de ablación, comparaciones visuales de Pro-Cap y PromptHate básico, y resultados que destacan el impacto del uso de respuestas de preguntas de sondeo únicas, sugiriendo direcciones de optimización para los modelos de detección de memes.
featured image - Pro-Cap: Aprovechamiento de un modelo de visión y lenguaje congelado para la detección de memes de odio: Apéndice
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

Este documento está disponible en arxiv bajo licencia CC 4.0.

Autores:

(1) Rui Cao, Universidad de Gestión de Singapur;

(2) Ming Shan Hee, Universidad de Diseño y Tecnología de Singapur;

(3) Adriel Kuek, Laboratorios Nacionales DSO;

(4) Wen-Haw Chong, Universidad de Gestión de Singapur;

(5) Roy Ka-Wei Lee, Universidad de Diseño y Tecnología de Singapur

(6) Jing Jiang, Universidad de Gestión de Singapur.

Tabla de enlaces

Resumen e introducción

Trabajo relacionado

Preliminar

Método propuesto

Experimento

Conclusión y referencias

Apéndice

APÉNDICE

Tabla 9: Comparación entre Pro-CapPromptHate y PromptHate básico en el conjunto de datos HarM.

A DETALLES PARA LA IMPLEMENTACIÓN

Implementamos todos los modelos bajo la biblioteca PyTorch con la versión CUDA11.2. Usamos la GPU Tesla V 100, cada una con una memoria dedicada de 32 GB. Para los modelos implementados específicamente para la detección de memes de odio, tomamos los códigos publicados por el autor para su reimplementación [4]. Para los modelos previamente entrenados que se pueden encontrar en la biblioteca Huggingface, utilizamos los paquetes de Huggingface [5], específicamente BERT [4], VisualBERT [18] y el modelo BLIP. Gor ViLBERT [23], tomamos el código publicado por los autores [6]. Para ALBEF [17] y BLIP-2 [15], utilizamos los paquetes de la biblioteca LAVIS [7]


Tabla 12: Comparación de modelos sin etiquetas de imagen aumentadas.


Tabla 13: Rendimiento del modelo cuando solo se hace una única pregunta de sondeo.


Para cada imagen de meme, restringimos la longitud total del texto del meme y el título de la imagen genérica (ya sea del modelo de subtítulos o preguntando sobre el contenido de la imagen) a 65. Para cada pregunta adicional, restringimos su longitud a más corto que 20. Si la concatenación de la oración excede la longitud limitada, la oración se truncará; de lo contrario, si la oración es más corta que la longitud limitada, se completará. Establecimos el número de épocas de entrenamiento en 10 para todos los modelos.


El número de parámetros del modelo se resume en la Tabla 11.

B RESULTADOS DEL ESTUDIO DE ABLACIÓN COMPLETA

Debido a la limitación de espacio, solo mostramos resultados de precisión en los estudios de ablación en la Tabla 6. Los resultados completos, incluidos el AUC y la precisión, se proporcionan en la Tabla 12.

C CASOS DE VISUALIZACIÓN

En la Sección 5.5, proporcionamos visualización de casos para comparar ProCapPromptHate con el PromptHate básico. Debido a limitaciones de espacio, omitimos ejemplos de los otros dos conjuntos de datos. Proporcionamos más casos de visualización en esta parte. Los casos del conjunto de datos HarM se ilustran en la Tabla 9 y los casos del conjunto de datos MAMI se muestran en la Tabla 10.

D RESULTADOS CON PRO-CAP SOBRE UN OBJETIVO

En la Sección 5, solo informamos los resultados cuando los modelos usan Pro-Cap en todas las preguntas de sondeo. En esta parte, informamos los resultados (con entidades) cuando utilizamos las respuestas de una única pregunta de sondeo en la Tabla 13.


Según los resultados, observamos que los modelos que utilizan respuestas a una sola pregunta de sondeo son todopoderosos y algunos incluso superan heurísticamente la formulación de todas las preguntas de sondeo (por ejemplo, usar la pregunta sobre nacionalidad en FHM es mejor que usar todas las preguntas de sondeo). Señala que utilizar todos los subtítulos de sondeo puede no ser la solución óptima y puede generar descripciones de imágenes irrelevantes. Por ejemplo, frente a un meme odioso dirigido a los negros, no tiene sentido preguntar cuál es la religión de las personas que aparecen en la imagen. Curiosamente, en MAMI, cuando sólo se utilizan respuestas a la pregunta de sondeo sobre género se alcanza el mejor rendimiento. Es porque MAMI sólo contiene memes de odio sobre la mujer. Una dirección prometedora sería entrenar el modelo para seleccionar dinámicamente preguntas de sondeo esenciales para la detección de memes para diferentes memes.





[4] CLIP-BERT/MOMENTA: https://github.com/LCS2-IIITD/MOMENTA;DisMultiHate: https://gitlab.com/bottle_shop/safe/dismultihate; PromptHate: https://gitlab.com/bottle_shop/safe/prompthate


[5] https://huggingface.co/


[6] https://github.com/facebookresearch/vilbert-multi-task


[7] https://github.com/salesforce/LAVIS formulando heurísticamente todas las preguntas de sondeo (p. ej., usando