paint-brush
Entrenamiento intermedio unimodal para la clasificación de sentimientos de memes multimodalespor@memeology
340 lecturas
340 lecturas

Entrenamiento intermedio unimodal para la clasificación de sentimientos de memes multimodales

Demasiado Largo; Para Leer

Un enfoque novedoso aprovecha los datos de sentimiento unimodales para mejorar la clasificación de sentimiento de meme multimodal, abordando la escasez de datos etiquetados y mejorando significativamente el rendimiento. Esta estrategia también permite reducir la cantidad de memes etiquetados necesarios para el entrenamiento sin comprometer el rendimiento del clasificador.
featured image - Entrenamiento intermedio unimodal para la clasificación de sentimientos de memes multimodales
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

Autores:

(1) Muzhaffar Hazman, Universidad de Galway, Irlanda;

(2) Susan McKeever, Universidad Tecnológica de Dublín, Irlanda;

(3) Josephine Griffith, Universidad de Galway, Irlanda.

Tabla de enlaces

Resumen e introducción

Obras relacionadas

Metodología

Resultados

Limitaciones y trabajos futuros

Conclusión, agradecimientos y referencias

A Hiperparámetros y configuraciones

Métrica B: puntuación F1 ponderada

C Detalles Arquitectónicos

D Evaluación comparativa de desempeño

Tabla de contingencia E: línea base versus texto-STILT

Abstracto

Los memes de Internet siguen siendo una forma desafiante de contenido generado por usuarios para la clasificación automatizada de sentimientos. La disponibilidad de memes etiquetados es una barrera para el desarrollo de clasificadores de sentimiento de memes multimodales. Para abordar la escasez de memes etiquetados, proponemos complementar el entrenamiento de un clasificador de memes multimodal con datos unimodales (solo imagen y solo texto). En este trabajo, presentamos una variante novedosa de entrenamiento intermedio supervisado que utiliza datos unimodales etiquetados con sentimientos relativamente abundantes. Nuestros resultados muestran una mejora de rendimiento estadísticamente significativa a partir de la incorporación de datos de texto unimodales. Además, mostramos que el conjunto de entrenamiento de memes etiquetados se puede reducir en un 40% sin reducir el rendimiento del modelo posterior.

1. Introducción

A medida que los memes de Internet (o simplemente “memes”) se vuelven cada vez más populares y comunes en las comunidades digitales de todo el mundo, ha aumentado el interés de la investigación por extender las tareas de clasificación del lenguaje natural, como la clasificación de sentimientos, la detección de discursos de odio y la detección de sarcasmo, a estas unidades de expresión multimodales. . Sin embargo, los clasificadores de sentimiento de memes multimodales de última generación tienen un rendimiento significativamente inferior a los clasificadores de sentimiento de texto y de imágenes contemporáneos. Sin métodos precisos y confiables para identificar el sentimiento de los memes multimodales, los métodos de análisis del sentimiento de las redes sociales deben ignorar o inferir de manera inexacta las opiniones expresadas a través de los memes. Dado que los memes siguen siendo un pilar del discurso online, nuestra

La capacidad de inferir el significado que transmiten se vuelve cada vez más pertinente (Sharma et al., 2020; Mishra et al., 2023).


Lograr niveles similares de rendimiento en la clasificación de sentimientos en memes y en contenido unimodal sigue siendo un desafío. Además de su naturaleza multimodal, los clasificadores de memes multimodales deben discernir el sentimiento de los aportes culturalmente específicos que comprenden textos breves, referencias culturales y simbolismo visual (Nissenbaum y Shifman, 2017). Aunque se han utilizado varios enfoques para extraer información de cada modalidad (texto e imagen), trabajos recientes han destacado que los clasificadores de memes también deben reconocer las diversas formas de interacciones entre estas dos modalidades (Zhu, 2020; Shang et al., 2021; Hazman et otros, 2023).


Los enfoques actuales para entrenar clasificadores de memes dependen de conjuntos de datos de memes etiquetados (Kiela et al., 2020; Sharma et al., 2020; Suryawanshi et al., 2020; Patwa et al., 2022; Mishra et al., 2023) que contienen muestras suficientes para entrenar clasificadores para extraer características relevantes de cada modalidad e interacciones intermodales relevantes. En relación con la complejidad de la tarea, la disponibilidad actual de memes etiquetados todavía plantea un problema, ya que muchos trabajos actuales requieren más datos (Zhu, 2020; Kiela et al., 2020; Sharma et al., 2022).


Peor aún, los memes son difíciles de etiquetar. La complejidad y la dependencia cultural de los memes.

(Gal et al., 2016) causan el problema de la percepción subjetiva (Sharma et al., 2020), donde la diferente familiaridad y reacción emocional al contenido de un meme por parte de cada anotador provoca diferentes etiquetas de verdad fundamental. En segundo lugar, los memes suelen contener elementos visuales protegidos por derechos de autor tomados de otros medios populares (Laineste y Voolaid, 2017), lo que genera preocupación a la hora de publicar conjuntos de datos. Esto requirió que Kiela et al. (2020) para reconstruir manualmente cada meme en su conjunto de datos utilizando imágenes con licencia, lo que aumentó significativamente el esfuerzo de anotación. Además, los elementos visuales que componen un meme determinado a menudo surgen como una tendencia repentina que se propaga rápidamente a través de las comunidades en línea (Bauckhage, 2011; Shifman, 2014), introduciendo rápidamente nuevos símbolos visuales semánticamente ricos en el lenguaje común de los memes, que antes tenían poco significado. (Segev et al., 2015). En conjunto, estas características hacen que el etiquetado de memes sea particularmente desafiante y costoso.


Al buscar métodos más eficientes en términos de datos para entrenar clasificadores de sentimientos de memes, nuestro trabajo intenta aprovechar los datos unimodales etiquetados sobre sentimientos relativamente abundantes, es decir, conjuntos de datos de análisis de sentimientos con muestras de solo imágenes y solo texto. Lo hacemos utilizando la Capacitación complementaria sobre tareas intermedias de datos etiquetados (STILT) de Phang et al. (2019), que aborda el bajo rendimiento que a menudo se encuentra al ajustar codificadores de texto previamente entrenados para tareas de comprensión del lenguaje natural (NLU) con escasez de datos. El enfoque STILT de Phang et al. implica tres pasos:


1. Cargue pesos previamente entrenados en un modelo clasificador.


2. Ajustar el modelo en una tarea de aprendizaje supervisado para la que los datos estén fácilmente disponibles (la tarea intermedia).


3. Ajuste el modelo en una tarea con escasez de datos (la tarea de destino) que sea distinta de la tarea intermedia.


Se ha demostrado que STILT mejora el rendimiento de varios modelos en una variedad de tareas de destino de solo texto (Poth et al., 2021; Wang et al., 2019). Además, Pruksachatkun et al. (2020) observaron que STILT es particularmente eficaz en tareas específicas en NLU con conjuntos de datos más pequeños, por ejemplo, WiC (Pilehvar y Camacho-Collados, 2019) y BoolQ (Clark et al., 2019). Sin embargo, también demostraron que los beneficios de rendimiento de este enfoque son inconsistentes y dependen de la elección de tareas intermedias apropiadas para cualquier tarea objetivo determinada. En algunos casos, se encontró que la capacitación intermedia era perjudicial para el desempeño de la tarea objetivo; que Pruksachatkun et al. (2020) atribuyó las diferencias entre las “habilidades sintácticas y semánticas” requeridas para cada par de tareas intermedias y objetivo. Sin embargo, STILT aún no se ha probado en una configuración en la que las tareas intermedias y de destino tengan diferentes modalidades de entrada.


Aunque considerar únicamente el texto o la imagen de un meme de forma aislada no transmite todo su significado (Kiela et al., 2020), sospechamos que los datos de sentimiento unimodales pueden ayudar a incorporar habilidades relevantes para discernir el sentimiento de los memes. Al proponer una variante novedosa de STILT que utiliza datos de análisis de sentimiento unimodal como tarea intermedia en el entrenamiento de un clasificador de sentimiento de meme multimodal, respondemos a las siguientes preguntas:


Figura 1: Tareas de capacitación en STILT de Baseline, Phang et al. (2019) y nuestros enfoques Image-STILT y TextSTILT propuestos.


Pregunta 1 : ¿Complementar el entrenamiento de un clasificador de memes multimodal con datos de sentimiento unimodales mejora significativamente su rendimiento?


Probamos por separado nuestro enfoque propuesto con datos de sentimiento de 3 clases de solo imagen y solo texto (creando Image-STILT y Text-STILT , respectivamente) como se ilustra en la Figura 1). Si cualquiera de los dos resulta efectivo, respondemos adicionalmente:


Pregunta 2 : Con STILT unimodal, ¿hasta qué punto podemos reducir la cantidad de memes etiquetados y al mismo tiempo preservar el rendimiento de un clasificador de sentimiento de memes?


Este documento está disponible en arxiv bajo licencia CC 4.0.