paint-brush
Treinamento intermediário unimodal para classificação de sentimento de meme multimodalpor@memeology
340 leituras
340 leituras

Treinamento intermediário unimodal para classificação de sentimento de meme multimodal

Muito longo; Para ler

Uma nova abordagem aproveita dados de sentimento unimodais para aprimorar a classificação de sentimento de meme multimodal, abordando a escassez de dados rotulados e melhorando significativamente o desempenho. Esta estratégia também permite reduzir a quantidade de memes rotulados necessários para o treinamento sem comprometer o desempenho do classificador.
featured image - Treinamento intermediário unimodal para classificação de sentimento de meme multimodal
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

Autores:

(1) Muzhaffar Hazman, Universidade de Galway, Irlanda;

(2) Susan McKeever, Universidade Tecnológica de Dublin, Irlanda;

(3) Josephine Griffith, Universidade de Galway, Irlanda.

Tabela de links

Resumo e Introdução

Trabalhos relacionados

Metodologia

Resultados

Limitações e Trabalhos Futuros

Conclusão, agradecimentos e referências

A Hiperparâmetros e configurações

Métrica B: pontuação F1 ponderada

Detalhes arquitetônicos C

D Avaliação comparativa de desempenho

Tabela de Contingência E: Linha de Base vs. Texto-STILT

Abstrato

Os memes da Internet continuam sendo uma forma desafiadora de conteúdo gerado pelo usuário para classificação automatizada de sentimentos. A disponibilidade de memes rotulados é uma barreira para o desenvolvimento de classificadores de sentimento de memes multimodais. Para resolver a escassez de memes rotulados, propomos complementar o treinamento de um classificador de memes multimodal com dados unimodais (somente imagem e somente texto). Neste trabalho, apresentamos uma nova variante de treinamento intermediário supervisionado que utiliza dados unimodais rotulados como sentimento relativamente abundantes. Nossos resultados mostram uma melhoria de desempenho estatisticamente significativa a partir da incorporação de dados de texto unimodais. Além disso, mostramos que o conjunto de treinamento de memes rotulados pode ser reduzido em 40% sem reduzir o desempenho do modelo downstream.

1. Introdução

À medida que os Memes da Internet (ou apenas “memes”) se tornam cada vez mais populares e comuns nas comunidades digitais em todo o mundo, o interesse da pesquisa para estender tarefas de classificação de linguagem natural, como classificação de sentimentos, detecção de discurso de ódio e detecção de sarcasmo, para essas unidades multimodais de expressão aumentou. . No entanto, os classificadores de sentimento de meme multimodais de última geração apresentam desempenho significativamente inferior aos classificadores de sentimento de texto e classificadores de sentimento de imagem contemporâneos. Sem métodos precisos e confiáveis para identificar o sentimento dos memes multimodais, os métodos de análise de sentimento nas redes sociais devem ignorar ou inferir de forma imprecisa as opiniões expressas através dos memes. À medida que os memes continuam a ser um pilar no discurso on-line, nossos

a capacidade de inferir o significado que transmitem torna-se cada vez mais pertinente (Sharma et al., 2020; Mishra et al., 2023).


Alcançar níveis semelhantes de desempenho de classificação de sentimentos em memes e em conteúdo unimodal continua a ser um desafio. Além de sua natureza multimodal, os classificadores de memes multimodais devem discernir o sentimento de insumos culturalmente específicos que compreendem textos breves, referências culturais e simbolismo visual (Nissenbaum e Shifman, 2017). Embora várias abordagens tenham sido utilizadas para extrair informações de cada modalidade (texto e imagem), trabalhos recentes destacaram que os classificadores de memes também devem reconhecer as diversas formas de interações entre essas duas modalidades (Zhu, 2020; Shang et al., 2021; Hazman et al., 2021; Hazman et al., 2021; Hazman et al., 2021; Hazman et al., 2021; Hazman et al. al., 2023).


As abordagens atuais para treinar classificadores de memes dependem de conjuntos de dados de memes rotulados (Kiela et al., 2020; Sharma et al., 2020; Suryawanshi et al., 2020; Patwa et al., 2022; Mishra et al., 2023) contendo amostras suficientes para treinar classificadores para extrair características relevantes de cada modalidade e interações intermodais relevantes. Em relação à complexidade da tarefa, a disponibilidade atual de memes rotulados ainda representa um problema, uma vez que muitos trabalhos atuais exigem mais dados (Zhu, 2020; Kiela et al., 2020; Sharma et al., 2022).


Pior ainda, os memes são difíceis de rotular. A complexidade e dependência cultural dos memes

(Gal et al., 2016) causam o Problema de Percepção Subjetiva (Sharma et al., 2020), onde a familiaridade variável e a reação emocional ao conteúdo de um meme de cada anotador causam diferentes rótulos de verdade básica. Em segundo lugar, os memes contêm frequentemente elementos visuais protegidos por direitos de autor retirados de outros meios de comunicação populares (Laineste e Voolaid, 2017), levantando preocupações aquando da publicação de conjuntos de dados. Isso exigiu que Kiela et al. (2020) para reconstruir manualmente cada meme em seu conjunto de dados usando imagens licenciadas, aumentando significativamente o esforço de anotação. Além disso, os elementos visuais que compõem um determinado meme muitas vezes emergem como uma tendência repentina que se espalha rapidamente pelas comunidades online (Bauckhage, 2011; Shifman, 2014), introduzindo rapidamente novos símbolos visuais semanticamente ricos na linguagem comum dos memes, que antes tinham pouco significado. (Segev et al., 2015). Tomadas em conjunto, estas características tornam a rotulagem de memes particularmente desafiadora e dispendiosa.


Ao buscar métodos mais eficientes em termos de dados para treinar classificadores de sentimento de meme, nosso trabalho tenta aproveitar os dados rotulados de sentimento unimodais relativamente abundantes, ou seja, conjuntos de dados de análise de sentimento com amostras somente de imagem e somente texto. Fazemos isso usando o treinamento suplementar de Phang et al. (2019) em tarefas intermediárias de dados rotulados (STILT), que aborda o baixo desempenho frequentemente encontrado ao ajustar codificadores de texto pré-treinados para tarefas de compreensão de linguagem natural (NLU) com escassez de dados. A abordagem STILT de Phang et al. envolve três etapas:


1. Carregue pesos pré-treinados em um modelo classificador.


2. Ajustar o modelo em uma tarefa de aprendizagem supervisionada para a qual os dados estão facilmente disponíveis (a tarefa intermediária).


3. Ajustar o modelo em uma tarefa com poucos dados (a tarefa alvo) que seja distinta da tarefa intermediária.


Foi demonstrado que o STILT melhora o desempenho de vários modelos em uma variedade de tarefas alvo somente de texto (Poth et al., 2021; Wang et al., 2019). Além disso, Pruksachatkun et al. (2020) observaram que o STILT é particularmente eficaz em tarefas alvo em NLU com conjuntos de dados menores, por exemplo, WiC (Pilehvar e Camacho-Collados, 2019) e BoolQ (Clark et al., 2019). No entanto, eles também mostraram que os benefícios de desempenho desta abordagem são inconsistentes e dependem da escolha de tarefas intermediárias apropriadas para qualquer tarefa alvo. Em alguns casos, descobriu-se que o treinamento intermediário era prejudicial ao desempenho da tarefa alvo; que Pruksachatkun et al. (2020) atribuíram diferenças entre as “habilidades sintáticas e semânticas” exigidas para cada par de tarefas intermediárias e alvo. No entanto, o STILT ainda não foi testado em uma configuração na qual as tarefas intermediárias e de destino tenham diferentes modalidades de entrada.


Embora considerar apenas o texto ou imagem de um meme isoladamente não transmita todo o seu significado (Kiela et al., 2020), suspeitamos que os dados de sentimento unimodais podem ajudar a incorporar habilidades relevantes para discernir o sentimento dos memes. Ao propor uma nova variante do STILT que usa dados de análise de sentimento unimodal como uma tarefa intermediária no treinamento de um classificador de sentimento de meme multimodal, respondemos às seguintes questões:


Figura 1: Tarefas de treinamento em Baseline, STILT de Phang et al. (2019) e nossas abordagens propostas de Image-STILT e TextSTILT.


RQ1 : Suplementar o treinamento de um classificador de memes multimodal com dados de sentimento unimodais melhora significativamente seu desempenho?


Testamos separadamente nossa abordagem proposta com dados de sentimento de 3 classes somente imagem e somente texto (criando Image-STILT e Text-STILT , respectivamente), conforme ilustrado na Figura 1). Se algum deles for eficaz, respondemos adicionalmente:


RQ2 : Com STILT unimodal, até que ponto podemos reduzir a quantidade de memes rotulados enquanto preservamos o desempenho de um classificador de sentimento de meme?


Este artigo está disponível no arxiv sob licença CC 4.0.