Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.
Auteurs:
(1) Cristina España-Bonet, DFKI GmbH, Campus informatique de la Sarre.
Nous supposons que toutes les sources médiatiques ont une ligne éditoriale et un parti pris associé , et nous traitons l'ILM comme toute autre source médiatique. Nous n'envisageons pas la possibilité qu'un article de ChatGPT ou de Bard soit impartial. Ceci est lié à la méthode de supervision à distance utilisée pour collecter les données qui permet actuellement une annotation binaire des positions politiques. Puisqu’il semble impossible d’annoter manuellement des centaines de milliers d’articles à tendance politique dans un environnement véritablement multilingue dans un avenir proche, nous avons décidé de mettre en œuvre une méthode entièrement basée sur les données et d’étudier ses capacités de transfert de langue et de culture.
Utiliser la surveillance à distance pour détecter la position politique au niveau des articles est cependant un sujet délicat. D’abord parce qu’un même journal peut changer d’idéologie au fil du temps. Deuxièmement, et cela est davantage lié au contenu d'un article individuel, les sujets non controversés peuvent ne pas avoir de parti pris. Même dans les cas où des préjugés existent, il existe un spectre allant de l’extrême gauche à l’extrême droite, plutôt qu’une division nette entre les deux idéologies.
Afin de quantifier et si possible atténuer les limitations actuelles, nous prévoyons de mener une analyse stylistique des corpus annotés par des humains (Baly et al., 2020 ; Aksenov et al., 2021) et de la comparer à notre corpus annoté semi-automatiquement. . Dans le prolongement de ce travail, nous effectuerons également une analyse stylistique des textes générés par ILM, car un style similaire entre les données de formation et ces textes est nécessaire pour garantir de bonnes capacités de généralisation et de transfert.
Nous utilisons des modèles de langage génératifs, ChatGPT et Bard, pour créer nos données de test. Comme nous traitons de plusieurs sujets controversés (peine de mort, harcèlement sexuel, drogue, etc.), la génération automatique pourrait produire des textes nuisibles. Les données présentées ici n’ont subi aucune révision humaine. Nous analysons et fournissons le corpus tel qu'il a été généré, accompagné de l'indication de la version des systèmes utilisés.