Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.
Auteurs:
(1) Cristina España-Bonet, DFKI GmbH, Campus informatique de la Sarre.
Nous abordons notre tâche comme un problème de classification avec deux classes : les orientations politiques de gauche (L) et de droite (R). Il s’agit d’une simplification du vrai problème, dans lequel les articles peuvent également être neutres et il peut y avoir différents degrés de biais. Les travaux antérieurs reposaient sur 3 ou 5 classes, incluant toujours l'option neutre (Baly et al., 2020 ; Aksenov et al., 2021). Dans ces travaux, les données ont été annotées manuellement, créant des données de formation de haute qualité, mais limitant également considérablement la portée du travail en termes de langues et de pays couverts. En utilisant l’échelle de classification fine, les auteurs reconnaissent une mauvaise généralisation des classificateurs à de nouvelles sources. En revanche, García-Díaz et al. (2022) et Russo et al. (2023) excluent la classe neutre et travaillent avec une classification binaire ou multiclasse gauche-droite des tweets d'hommes politiques espagnols et italiens respectivement, mais leur travail n'inclut pas de textes plus longs. La classification binaire pourrait être justifiée dans la mesure où ils ont travaillé avec des tweets, un genre dans lequel les gens ont tendance à être plus viscéraux et donc probablement plus polarisés. Dans notre cas, nous devons être sûrs que le classificateur généralise bien aux sources invisibles et nous nous en tenons à la tâche à 2 classes tout en minimisant le nombre d'articles neutres en formation (voir ci-dessous).
Surveillance à distance. À notre connaissance, seuls un corpus de journaux annoté manuellement en anglais (Baly et al., 2020) et un autre en allemand (Aksenov et al., 2021) sont disponibles. Nous suivons une approche différente dans l’esprit de Kulkarni et al. (2018) et Kiesel et al. (2019). Nous n’annotons manuellement aucun article, mais nous faisons confiance à AllSides, MB/FC, Political Watch et Wikipedia (ce dernier uniquement dans les cas où l’information n’est pas disponible sur les sites précédents) avec leur classification de parti pris de journal. Nous extrayons ces informations pour les journaux des États-Unis, d'Allemagne, d'Espagne et de Catalogne. Avec la liste des journaux, leur URL[4] et leur prise de position, nous utilisons OSCAR, un corpus multilingue obtenu par filtrage du Common Crawl (Ortiz Suárez et al., 2019 ; Abadji et al., 2021), pour récupérer les articles . L'annexe A répertorie les sources utilisées dans ce travail : 47 journaux américains avec 742 691 articles, 12 journaux allemands avec 143 200, 38 espagnols avec 301 825 et 19 catalans avec 70 496.
Modélisation de sujets. Tous les articles n’ont pas de parti pris, certains sujets sont plus sujets que d’autres. Alors que la section Sports d'un journal est généralement moins encline à refléter des préjugés politiques, l'inverse se produit avec la section Internationale. Nous utilisons donc des sujets pour sélectionner un sous-ensemble de données de formation pertinentes pour notre classification binaire. Nous effectuons une modélisation thématique sur les articles extraits d'OSCAR à l'aide de Mallet (McCallum, 2002) qui applique l'échantillonnage LDA avec Gibbs. Nous regroupons les données en 10 et 15 groupes par langue, correspondant à peu près au nombre de sections d'un journal. Les mots-clés extraits pour chaque sujet sont répertoriés à l'annexe B. Nous choisissons les articles qui relèvent des sujets que nous étiquetons comme internationaux, gouvernement, droit et justice, économie, sciences vivantes/écologie, ainsi que des sujets spécifiques dépendants de la langue tels que l'immigration et la violence pour les personnes handicapées. Anglais, Nazisme pour l'allemand et Social pour l'espagnol. La sélection se fait après l'inspection des mots-clés. Pour l'ensemble de données final, nous effectuons l'union des articles sélectionnés regroupés en 10 et 15 sujets. Le processus filtre 49 % des articles espagnols, 39 % des articles allemands et 31 % des articles anglais.
Prétraitement et nettoyage. Nous rejetons les articles de plus de 2000 ou moins de 20 mots avant de les nettoyer. Ensuite, nous supprimons les en-têtes, les pieds de page et tout texte passe-partout détecté. Ce texte a le potentiel d’induire en erreur un classificateur neuronal, car il pourrait l’encourager à apprendre à faire la distinction entre les journaux plutôt que de se concentrer sur leur position politique. Nous sélectionnons un journal par langue et par position pour tester et nettoyer manuellement leurs articles. Afin de créer un corpus de formation équilibré pour chaque langue, nous sélectionnons au hasard un nombre similaire d’articles orientés vers la gauche et vers la droite dans la collection restante. Cet ensemble de données équilibré est divisé en formation et validation, comme indiqué dans le tableau 1 (lignes du haut).
ChatGPT/Bard Corpus. Nous créons un ensemble de données multilingues avec 101 articles. Pour cela, nous définissons 101 sujets dont le prix de l'immobilier, l'avortement, le tabac, Barak Obama, etc. et les traduisons manuellement dans les 4 langues (voir Annexe D). Les sujets considèrent des sujets susceptibles d'avoir une position politique tels que ceux liés au féminisme, au capitalisme, à l'écologisme, à la technologie, etc. Nous incluons également les noms propres de personnes dans les 4 pays considérés, dont la biographie peut différer selon la position politique du pays. écrivain. Ces sujets sont insérés dans l'invite du modèle (et ses traductions en allemand, espagnol et catalan) :[5] Écrivez un article de journal sur [SUBJECT]en
Nous invitons ChatGPT (GPT-3.5-Turbo) cinq fois en utilisant les mêmes sujets sur quatre périodes. Nous générons l'ensemble de données avec les versions ChatGPT du 13 février (v02), du 23 mars (v03), du 24 mai (v05) et du 3 août (v08) ; nous couvrons les 4 langues simultanément uniquement avec les deux dernières. ChatGPTv05 génère des textes nettement plus longs que les autres avec une structure orientée article avec des cases à remplir avec le nom de l'auteur, la date et/ou la ville. Bard multilingue a été disponible plus tard et nous l'avons lancé deux fois au cours de la même période que ChatGPTv8.[6] Le tableau 1 présente les statistiques de ce corpus.
[4] Cela implique de sélectionner tous les articles qui se trouvent sous un nom de domaine d'un média, qu'ils soient d'actualité ou non.
[5] Des invites plus spécifiques n'ont pas conduit à des styles différents pour les premières versions de ChatGPT, pour la dernière, nous avons ajouté plus d'informations telles que... sans sous-en-têtes. pour éviter les sous-sections excessives et/ou les puces. Ni ChatGPT ni Bard n'ont toujours suivi correctement les instructions. L'ensemble de données que nous fournissons comprend les invites que nous avons utilisées.
[6] Invite du 14 au 21 août 2023 depuis Berlin pour l'anglais et l'allemand et depuis Barcelone pour l'espagnol et le catalan car, contrairement à ChatGPT, la génération dépend du lieu.