Auteurs:
(1) Muzhaffar Hazman, Université de Galway, Irlande ;
(2) Susan McKeever, Université technologique de Dublin, Irlande ;
(3) Josephine Griffith, Université de Galway, Irlande.
Conclusion, remerciements et références
A Hyperparamètres et paramètres
Analyse comparative des performances
E Tableau de contingence : référence par rapport au texte-STILT
Les mèmes Internet restent une forme difficile de contenu généré par les utilisateurs pour la classification automatisée des sentiments. La disponibilité de mèmes étiquetés constitue un obstacle au développement de classificateurs de sentiments pour les mèmes multimodaux. Pour remédier à la pénurie de mèmes étiquetés, nous proposons de compléter la formation d'un classificateur de mèmes multimodal avec des données unimodales (image uniquement et texte uniquement). Dans ce travail, nous présentons une nouvelle variante de formation intermédiaire supervisée qui utilise des données unimodales relativement abondantes étiquetées par sentiments. Nos résultats montrent une amélioration statistiquement significative des performances grâce à l’incorporation de données textuelles unimodales. De plus, nous montrons que l’ensemble d’entraînement des mèmes étiquetés peut être réduit de 40 % sans réduire les performances du modèle en aval.
Alors que les mèmes Internet (ou simplement les « mèmes ») deviennent de plus en plus populaires et courants dans les communautés numériques du monde entier, l’intérêt des chercheurs pour étendre les tâches de classification du langage naturel, telles que la classification des sentiments, la détection des discours de haine et la détection des sarcasmes, à ces unités d’expression multimodales s’est accru. . Cependant, les classificateurs de sentiments de mèmes multimodaux de pointe sont nettement inférieurs aux classificateurs de sentiments de texte et aux classificateurs de sentiments d'images contemporains. Sans méthodes précises et fiables pour identifier les sentiments des mèmes multimodaux, les méthodes d’analyse des sentiments sur les réseaux sociaux doivent soit ignorer, soit déduire de manière inexacte les opinions exprimées via les mèmes. Alors que les mèmes continuent d'être un pilier du discours en ligne, notre
la capacité à déduire le sens qu’ils véhiculent devient de plus en plus pertinente (Sharma et al., 2020 ; Mishra et al., 2023).
Atteindre des niveaux de performance de classification des sentiments similaires sur les mèmes et sur le contenu unimodal reste un défi. En plus de leur nature multimodale, les classificateurs de mèmes multimodaux doivent discerner les sentiments à partir d’entrées culturellement spécifiques qui comprennent de brefs textes, des références culturelles et un symbolisme visuel (Nissenbaum et Shifman, 2017). Bien que diverses approches aient été utilisées pour extraire des informations de chaque modalité (texte et image), des travaux récents ont souligné que les classificateurs de mèmes doivent également reconnaître les diverses formes d'interactions entre ces deux modalités (Zhu, 2020 ; Shang et al., 2021 ; Hazman et al., 2023).
Les approches actuelles de formation des classificateurs de mèmes dépendent d'ensembles de données de mèmes étiquetés (Kiela et al., 2020 ; Sharma et al., 2020 ; Suryawanshi et al., 2020 ; Patwa et al., 2022 ; Mishra et al., 2023) contenant suffisamment d'échantillons pour former les classificateurs à extraire les caractéristiques pertinentes de chaque modalité et les interactions intermodales pertinentes. Par rapport à la complexité de la tâche, la disponibilité actuelle de mèmes étiquetés pose toujours un problème, car de nombreux travaux actuels nécessitent davantage de données (Zhu, 2020 ; Kiela et al., 2020 ; Sharma et al., 2022).
Pire encore, les mèmes sont difficiles à étiqueter. La complexité et la dépendance culturelle des mèmes
(Gal et al., 2016) provoquent le problème de perception subjective (Sharma et al., 2020), où la familiarité variable et la réaction émotionnelle au contenu d'un mème de la part de chaque annotateur provoquent différentes étiquettes de vérité terrain. Deuxièmement, les mèmes contiennent souvent des éléments visuels protégés par le droit d’auteur provenant d’autres médias populaires (Laineste et Voolaid, 2017), ce qui soulève des inquiétudes lors de la publication d’ensembles de données. Cela a nécessité Kiela et al. (2020) pour reconstruire manuellement chaque mème de leur ensemble de données à l'aide d'images sous licence, augmentant ainsi considérablement l'effort d'annotation. En outre, les éléments visuels qui composent un mème donné émergent souvent comme une tendance soudaine qui se propage rapidement à travers les communautés en ligne (Bauckhage, 2011 ; Shifman, 2014), introduisant rapidement de nouveaux symboles visuels sémantiquement riches dans le langage courant des mèmes, qui n'avaient que peu de sens auparavant. (Segev et al., 2015). Prises ensemble, ces caractéristiques rendent l’étiquetage des mèmes particulièrement difficile et coûteux.
En recherchant des méthodes plus efficaces en matière de données pour former des classificateurs de sentiments mèmes, nos travaux tentent d'exploiter les données unimodales relativement abondantes étiquetées par sentiments, c'est-à-dire des ensembles de données d'analyse de sentiments avec des échantillons d'images uniquement et de texte uniquement. Nous le faisons en utilisant la formation supplémentaire de Phang et al. (2019) sur les tâches intermédiaires de données étiquetées (STILT) qui aborde les faibles performances souvent rencontrées lors du réglage fin des encodeurs de texte pré-entraînés pour des tâches de compréhension du langage naturel (NLU) rares en données. L'approche STILT de Phang et al. comprend trois étapes :
1. Chargez des poids pré-entraînés dans un modèle de classificateur.
2. Affiner le modèle sur une tâche d'apprentissage supervisé pour laquelle les données sont facilement disponibles (la tâche intermédiaire).
3. Affinez le modèle sur une tâche rare en données (la tâche cible) distincte de la tâche intermédiaire.
Il a été démontré que STILT améliore les performances de divers modèles dans une variété de tâches cibles contenant uniquement du texte (Poth et al., 2021 ; Wang et al., 2019). De plus, Pruksachatkun et al. (2020) ont observé que STILT est particulièrement efficace dans les tâches cibles en NLU avec des ensembles de données plus petits, par exemple WiC (Pilehvar et Camacho-Collados, 2019) et BoolQ (Clark et al., 2019). Cependant, ils ont également montré que les avantages en termes de performances de cette approche sont incohérents et dépendent du choix de tâches intermédiaires appropriées pour une tâche cible donnée. Dans certains cas, la formation intermédiaire s’est avérée préjudiciable à l’exécution des tâches ciblées ; que Pruksachatkun et al. (2020) attribué aux différences entre les « compétences syntaxiques et sémantiques » requises pour chaque paire de tâches intermédiaire et cible. Cependant, STILT n’a pas encore été testé dans une configuration dans laquelle les tâches intermédiaires et cibles ont des modalités de saisie différentes.
Bien que considérer isolément le texte ou l’image d’un mème ne transmette pas toute sa signification (Kiela et al., 2020), nous pensons que les données sur les sentiments unimodaux peuvent aider à intégrer des compétences pertinentes pour discerner le sentiment des mèmes. En proposant une nouvelle variante de STILT qui utilise les données d'analyse des sentiments unimodales comme tâche intermédiaire dans la formation d'un classificateur de sentiments multimodal, nous répondons aux questions suivantes :
QR1 : Compléter la formation d'un classificateur de mèmes multimodal avec des données de sentiment unimodales améliore-t-il significativement ses performances ?
Nous avons testé séparément notre approche proposée avec des données de sentiment à 3 classes contenant uniquement des images et du texte (créant respectivement Image-STILT et Text-STILT ), comme illustré dans la figure 1). Si l’un ou l’autre s’avère efficace, nous répondons en outre :
QR2 : Avec STILT unimodal, dans quelle mesure peut-on réduire la quantité de mèmes étiquetés tout en préservant les performances d'un classificateur de sentiment de mème ?
Cet article est disponible sur arxiv sous licence CC 4.0.