Auteurs:
(1) Rui Cao, Université de gestion de Singapour ;
(2) Ming Shan Hee, Université de design et de technologie de Singapour ;
(3) Adriel Kuek, Laboratoires nationaux DSO ;
(4) Wen-Haw Chong, Université de gestion de Singapour ;
(5) Roy Ka-Wei Lee, Université de design et de technologie de Singapour
(6) Jing Jiang, Université de gestion de Singapour.
Les mèmes , généralement destinés à être humoristiques ou sarcastiques, sont de plus en plus exploités pour la prolifération de contenus haineux, ce qui rend la tâche difficile de détection des mèmes haineux en ligne [5, 12, 27]. Pour lutter contre la propagation des mèmes haineux, une ligne de travail considère la détection des mèmes haineux comme une tâche de classification multimodale. Les chercheurs ont appliqué des modèles de langage de vision pré-entraînés (PVLM) et les ont peaufinés en fonction des données de détection des mèmes (20, 26, 34, 37). Pour améliorer les performances, certains ont essayé l'assemblage de modèles [20, 26, 34]. Une autre ligne de travail envisage de combiner des modèles pré-entraînés (par exemple, BERT [4] et CLIP [29]) avec des architectures de modèles spécifiques à des tâches et de les ajuster de bout en bout [13, 14, 28]. Récemment, les auteurs de [2] ont essayé de convertir toutes les informations mèmes en texte et d'inviter des modèles de langage pour mieux exploiter les connaissances contextuelles présentes dans les modèles de langage. Cette approche permet d’obtenir des résultats de pointe sur deux tests de détection de mèmes haineux. Cependant, il adopte une méthode générique pour décrire l’image via le sous-titrage de l’image, ignorant souvent des facteurs importants nécessaires à la détection des mèmes haineux. Dans ce travail, nous cherchons à résoudre ce problème grâce au sous-titrage basé sur des sondes en incitant des modèles de langage de vision pré-entraînés avec des questions centrées sur le contenu haineux d'une manière VQA zéro.
Cet article est disponible sur arxiv sous licence CC 4.0.