paint-brush
Pro-Cap : exploiter un modèle de langage de vision figé pour la détection des mèmes haineuxpar@memeology
255 lectures

Pro-Cap : exploiter un modèle de langage de vision figé pour la détection des mèmes haineux

Trop long; Pour lire

Pro-Cap introduit une nouvelle approche de la détection des mèmes haineux en utilisant des modèles de langage de vision (PVLM) gelés via un sous-titrage basé sur des sondages, améliorant ainsi l'efficacité informatique et la qualité des sous-titres pour une détection précise du contenu haineux dans les mèmes.
featured image - Pro-Cap : exploiter un modèle de langage de vision figé pour la détection des mèmes haineux
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

Auteurs:

(1) Rui Cao, Université de gestion de Singapour ;

(2) Ming Shan Hee, Université de design et de technologie de Singapour ;

(3) Adriel Kuek, Laboratoires nationaux DSO ;

(4) Wen-Haw Chong, Université de gestion de Singapour ;

(5) Roy Ka-Wei Lee, Université de design et de technologie de Singapour

(6) Jing Jiang, Université de gestion de Singapour.

Tableau des liens

Résumé et introduction

Travaux connexes

Préliminaire

Méthode proposée

Expérience

Conclusion et références

annexe

ABSTRAIT

La détection des mèmes haineux est une tâche multimodale difficile qui nécessite une compréhension à la fois de la vision et du langage, ainsi que des interactions multimodales. Des études récentes ont tenté d'affiner les modèles de langage de vision (PVLM) pré-entraînés pour cette tâche. Cependant, avec l’augmentation de la taille des modèles, il devient important d’exploiter plus efficacement les puissants PVLM, plutôt que de simplement les affiner. Récemment, des chercheurs ont tenté de convertir des images mèmes en légendes textuelles et de proposer des modèles de langage pour des prédictions. Cette approche a montré de bonnes performances mais souffre de légendes d'images non informatives. Compte tenu des deux facteurs mentionnés ci-dessus, nous proposons une approche de sous-titrage basée sur le sondage pour exploiter les PVLM de manière à répondre visuellement aux questions (VQA). Plus précisément, nous provoquons un PVLM gelé en posant des questions liées au contenu haineux et utilisons les réponses comme légendes d'image (que nous appelons Pro-Cap), afin que les légendes contiennent des informations essentielles à la détection du contenu haineux. La bonne performance des modèles avec Pro-Cap sur trois benchmarks valide l'efficacité et la généralisation de la méthode proposée.[1]

CONCEPTS CSC

• Méthodologies informatiques → Traitement du langage naturel ; Représentations de vision par ordinateur.

MOTS CLÉS

mèmes, multimodal, extraction sémantique

Format de référence ACM :

Rui Cao, Ming Shan Hee, Adriel Kuek, Wen-Haw Chong, Roy Ka-Wei Lee et Jing Jiang. 2023. Pro Cap : Exploiter un modèle de langage de vision gelé pour la détection des mèmes haineux. Dans Actes de la 31e Conférence internationale de l'ACM sur le multimédia (MM '23), 29 octobre-3 novembre 2023, Ottawa, ON, Canada. ACM, New York, NY, États-Unis, 11 pages. https://doi.org/10.1145/3581783.3612498


Figure 1 : L’approche proposée de sous-titrage de sonde. Nous incitons à des modèles de langage de vision pré-entraînés gelés via des réponses visuelles à des questions pour générer des légendes d'images centrées sur le contenu haineux.


Avertissement : cet article contient des contenus violents et discriminatoires qui peuvent déranger certains lecteurs.

1. INTRODUCTION

Les mèmes, qui combinent des images avec des textes courts, sont une forme de communication populaire sur les réseaux sociaux en ligne. Les mèmes Internet sont souvent destinés à exprimer l'humour ou la satire. Cependant, ils sont de plus en plus exploités pour diffuser des contenus haineux sur les plateformes en ligne. Les mèmes haineux attaquent des individus ou des communautés en fonction de leur identité telle que la race, le sexe ou la religion [5, 8, 12, 27]. La propagation de mèmes haineux peut conduire à la discorde en ligne et potentiellement donner lieu à des crimes haineux. Il est donc urgent de développer des méthodes précises de détection des mèmes haineux.


La tâche de détection des mèmes haineux est un défi en raison de la nature multimodale des mèmes. La détection implique non seulement de comprendre à la fois les images et les textes, mais aussi de comprendre comment ces deux modalités interagissent. Des travaux antérieurs [14, 28, 35, 36] apprennent les interactions multimodales à partir de zéro à l'aide d'ensembles de données de détection de mèmes haineux. Cependant, il peut être difficile pour les modèles d’apprendre des interactions multimodales complexes avec la quantité limitée de données disponibles à partir de ces ensembles de données. Avec le développement de modèles vision-langage pré-entraînés (PVLM) tels que VisualBERT [18] et ViLBERT [23], des travaux récents exploitent ces puissants PVLM pour faciliter la tâche de détection des mèmes haineux. Une approche courante consiste à affiner les PVLM avec des données spécifiques à une tâche [9, 20, 26, 34, 37]. Cependant, il est moins réalisable d'affiner les modèles plus grands tels que BLIP-2 [15] et Flamingo [1] sur la détection des mèmes car il existe des milliards de paramètres pouvant être entraînés. Par conséquent, des solutions informatiques réalisables autres que le réglage précis direct sont nécessaires pour tirer parti des grands PVLM afin de faciliter la détection des mèmes haineux.


Tableau 1 : Impact sur les performances de détection sur l'ensemble de données FHM [12] à partir des légendes d'images. (sans) désigne les modèles sans informations supplémentaires sur l'entité et la démographie.


Différent de l’approche ci-dessus utilisant les PVLM, PromptHate[2] est un modèle récemment proposé qui convertit la tâche de détection de mèmes multimodale en une tâche de modélisation de langage masqué unimodale. Il génère d’abord des légendes d’images mèmes avec un générateur de légendes d’images prêt à l’emploi, ClipCap [25]. En convertissant toutes les informations saisies en texte, il peut inciter un modèle linguistique pré-entraîné ainsi que deux exemples démonstratifs à prédire si la saisie est haineuse ou non en tirant parti des riches connaissances de base du modèle linguistique. Bien que PromptHate atteigne des performances de pointe, elles sont considérablement affectées par la qualité des légendes d'images, comme le montre le tableau 1. Les légendes d'images qui sont simplement des descriptions génériques d'images peuvent omettre des détails cruciaux [14, 37], tels que la race et le sexe des personnes, qui sont essentiels à la détection des contenus haineux. Mais avec des balises d'image supplémentaires, telles que les entités trouvées dans les images et des informations démographiques sur les personnes présentes dans les images, le même modèle peut être considérablement amélioré, comme le montre le tableau 1. Cependant, la génération de ces balises d'image supplémentaires est laborieuse et coûteuse. Par exemple, l'extraction d'entités est généralement effectuée avec l'API de détection d'entités Web de Google Vision [2], qui est un service payant. Idéalement, nous aimerions trouver un moyen plus abordable d’obtenir des informations sur l’entité et la démographie des images qui sont essentielles à la détection des contenus haineux.


Les deux approches mentionnées ci-dessus (c'est-à-dire l'une utilisant des PVLM et l'autre convertissant la tâche en tâche unimodale) ont leurs avantages et leurs inconvénients. Dans cet article, nous combinons les idées de ces deux approches et concevons une méthode de détection de mèmes haineux qui exploite la puissance d'un PVLM gelé pour compléter l'approche unimodale de PromptHate. Plus précisément, nous utilisons un ensemble de questions « d’investigation » pour interroger un PVLM (BLIP-2 [15] dans nos expériences) pour obtenir des informations relatives aux cibles vulnérables courantes dans les contenus haineux. Les réponses obtenues aux questions d'enquête seront traitées comme des légendes d'images (notées Pro-Cap) et utilisées comme entrée dans un modèle de détection de mèmes haineux pouvant être entraîné. La figure 1 illustre le flux de travail global de la méthode. Nous appelons l'étape consistant à utiliser des questions d'approfondissement pour générer les sous-titres le sous-titrage basé sur l'approfondissement.


La méthode proposée comble les lacunes de la recherche existante en : 1) exploitant un PVLM sans aucune adaptation ni réglage fin, réduisant ainsi le coût de calcul ; 2) Au lieu d'obtenir explicitement des balises d'image supplémentaires avec des API coûteuses, nous utilisons le PVLM gelé pour générer des légendes contenant des informations utiles pour la détection des mèmes haineux. À notre connaissance, il s'agit du premier travail qui exploite les PVLM de manière zéro grâce à des réponses à des questions pour aider à la tâche de détection des mèmes haineux. Pour valider davantage notre méthode, nous testons l'effet du Pro-Cap généré à la fois sur PromptHate[2] et sur un modèle de détection de mèmes haineux basé sur BERT[4].


Sur la base des résultats expérimentaux, nous observons que PromptHate avec Pro-Cap (noté Pro-CapPromptHate) surpasse considérablement le PromptHate original sans balises d'image supplémentaires (c'est-à-dire environ 4, 6 et 3 points de pourcentage d'amélioration absolue des performances sur FHM [12 ], MAMI [5] et HarM [28] respectivement). ProCapPromptHate obtient également des résultats comparables à PromptHate avec des balises d'image supplémentaires, indiquant que le sous-titrage basé sur la sonde peut être un moyen plus abordable d'obtenir des entités d'image ou des informations démographiques. Des études de cas montrent en outre que Pro-Cap offre des détails d'image essentiels pour la détection des contenus haineux, améliorant dans une certaine mesure l'explicabilité des modèles. Pendant ce temps, ProCapBERT surpasse clairement les modèles multimodaux basés sur BERT de tailles similaires (c'est-à-dire environ 7 points de pourcentage d'amélioration absolue avec VisualBERT sur FHM [12]), prouvant la généralisation de la méthode de sous-titrage basée sur le sondage.




[1] Le code est disponible sur : https://github.com/Social-AI-Studio/Pro-Cap


[2] https://cloud.google.com/vision/docs/detecting-web


Cet article est disponible sur arxiv sous licence CC 4.0.