Este documento está disponible en arxiv bajo licencia CC 4.0.
Autores:
(1) Rui Cao, Universidad de Gestión de Singapur;
(2) Ming Shan Hee, Universidad de Diseño y Tecnología de Singapur;
(3) Adriel Kuek, Laboratorios Nacionales DSO;
(4) Wen-Haw Chong, Universidad de Gestión de Singapur;
(5) Roy Ka-Wei Lee, Universidad de Diseño y Tecnología de Singapur
(6) Jing Jiang, Universidad de Gestión de Singapur.
Implementamos todos los modelos bajo la biblioteca PyTorch con la versión CUDA11.2. Usamos la GPU Tesla V 100, cada una con una memoria dedicada de 32 GB. Para los modelos implementados específicamente para la detección de memes de odio, tomamos los códigos publicados por el autor para su reimplementación [4]. Para los modelos previamente entrenados que se pueden encontrar en la biblioteca Huggingface, utilizamos los paquetes de Huggingface [5], específicamente BERT [4], VisualBERT [18] y el modelo BLIP. Gor ViLBERT [23], tomamos el código publicado por los autores [6]. Para ALBEF [17] y BLIP-2 [15], utilizamos los paquetes de la biblioteca LAVIS [7]
Para cada imagen de meme, restringimos la longitud total del texto del meme y el título de la imagen genérica (ya sea del modelo de subtítulos o preguntando sobre el contenido de la imagen) a 65. Para cada pregunta adicional, restringimos su longitud a más corto que 20. Si la concatenación de la oración excede la longitud limitada, la oración se truncará; de lo contrario, si la oración es más corta que la longitud limitada, se completará. Establecimos el número de épocas de entrenamiento en 10 para todos los modelos.
El número de parámetros del modelo se resume en la Tabla 11.
Debido a la limitación de espacio, solo mostramos resultados de precisión en los estudios de ablación en la Tabla 6. Los resultados completos, incluidos el AUC y la precisión, se proporcionan en la Tabla 12.
En la Sección 5.5, proporcionamos visualización de casos para comparar ProCapPromptHate con el PromptHate básico. Debido a limitaciones de espacio, omitimos ejemplos de los otros dos conjuntos de datos. Proporcionamos más casos de visualización en esta parte. Los casos del conjunto de datos HarM se ilustran en la Tabla 9 y los casos del conjunto de datos MAMI se muestran en la Tabla 10.
En la Sección 5, solo informamos los resultados cuando los modelos usan Pro-Cap en todas las preguntas de sondeo. En esta parte, informamos los resultados (con entidades) cuando utilizamos las respuestas de una única pregunta de sondeo en la Tabla 13.
Según los resultados, observamos que los modelos que utilizan respuestas a una sola pregunta de sondeo son todopoderosos y algunos incluso superan heurísticamente la formulación de todas las preguntas de sondeo (por ejemplo, usar la pregunta sobre nacionalidad en FHM es mejor que usar todas las preguntas de sondeo). Señala que utilizar todos los subtítulos de sondeo puede no ser la solución óptima y puede generar descripciones de imágenes irrelevantes. Por ejemplo, frente a un meme odioso dirigido a los negros, no tiene sentido preguntar cuál es la religión de las personas que aparecen en la imagen. Curiosamente, en MAMI, cuando sólo se utilizan respuestas a la pregunta de sondeo sobre género se alcanza el mejor rendimiento. Es porque MAMI sólo contiene memes de odio sobre la mujer. Una dirección prometedora sería entrenar el modelo para seleccionar dinámicamente preguntas de sondeo esenciales para la detección de memes para diferentes memes.
[4] CLIP-BERT/MOMENTA: https://github.com/LCS2-IIITD/MOMENTA;DisMultiHate: https://gitlab.com/bottle_shop/safe/dismultihate; PromptHate: https://gitlab.com/bottle_shop/safe/prompthate
[5] https://huggingface.co/
[6] https://github.com/facebookresearch/vilbert-multi-task
[7] https://github.com/salesforce/LAVIS formulando heurísticamente todas las preguntas de sondeo (p. ej., usando