Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.
Auteurs:
(1) Cristina España-Bonet, DFKI GmbH, Campus informatique de la Sarre.
Le réseau. **Nous peaufinons XLM-RoBERTa large (Conneau et al., 2020), un LM masqué basé sur un transformateur multilingue** formé sur 100 langues, dont les 4 que nous considérons. Les détails du réseau et l'exploration des hyperparamètres par modèle sont rapportés en annexe F.
Les modèles. Nous formons 4 modèles : 3 réglages fins monolingues avec les données anglaises, allemandes et espagnoles, plus un multilingue avec la concaténation aléatoire des données. Tous les modèles sont basés sur des intégrations multilingues (RoBERTa) affinées de manière monolingue ou multilingue. Notez que nous ne formons aucun modèle pour le catalan. Avec cela, nous souhaitons comparer les performances des réglages fins mono et multilingues et explorer la possibilité d'utiliser des modèles multilingues pour un transfert de langue zéro-shot.
Classification grossière avec des articles de journaux. Le tableau 2 résume les résultats. Tous les modèles atteignent une précision de plus de 95 % sur l'ensemble de validation qui est extrait de la même distribution que les données d'entraînement. Afin de voir comment les modèles se comportent avec des données invisibles, nous calculons le pourcentage d'articles classés comme gauche (L) et droite (R) dans les journaux de test du tableau 1. Nous effectuons un rééchantillonnage bootstrap des ensembles de test avec 1000 bootstraps. pour obtenir des intervalles de confiance au niveau de 95%. Nous ne nous attendons pas à ce que tous les articles d’un journal penché vers la gauche montrent des caractéristiques claires de la gauche, mais étant donné qu’il n’y a pas de classe neutre, nous nous attendons à ce que la majorité d’entre eux soient classés comme étant de gauche. Un bon résultat n’est pas nécessairement 100 %-0 %, car cela ne serait pas non plus réaliste. Nous considérons qu'un journal est classé comme ayant une orientation politique de gauche/droite si plus de 50 % de ses articles ont été classés comme tels. Ces cas sont en gras dans le tableau 2.
C'est le comportement que nous obtenons pour tous les journaux tests, à l'exception du journal allemand d'orientation droite : die Preußische Allgemeine Zeitung (PAZ). Le modèle allemand n'est formé que sur 12 journaux, à comparer aux 47 en anglais et aux 38 en espagnol. Une classification incorrecte pourrait indiquer que la diversité est un aspect clé pour les performances finales du modèle. Le multilinguisme n'aide pas et 65% des articles du PAZ sont toujours classés comme étant orientés à gauche. Nous évaluons également l’efficacité du modèle anglais sur les données allemandes, deux langues proches. Nous reconnaissons que les sujets abordés dans les journaux américains et allemands peuvent être très différents, mais la grande diversité des données sur la formation en anglais pourrait potentiellement compenser cela. Le modèle anglais est capable de classer correctement le journal allemand My Heimat comme journal de gauche (L : 67 ± 3 %) et PAZ comme journal de droite (R : 58 ± 5 %). Nous attribuons encore une fois la différence au modèle allemand formé sur un corpus manquant de diversité. Lorsque nous utilisons le système multilingue, le facteur dominant qui distingue les résultats est la langue elle-même plutôt que la position. L’ajout de données anglaises est insuffisant pour modifier la classification de manière significative. Lorsque nous utilisons le système anglais, la langue ne joue plus de rôle et seules les caractéristiques de la position sont prises en compte. Lorsque nous appliquons le modèle anglais aux journaux catalans, nous n'obtenons cependant pas de résultats satisfaisants (95 ± 1% pour le journal de gauche mais 16 ± 3% pour le journal de droite), démontrant que la parenté entre les langues est importante. Le modèle multilingue détecte cependant correctement la position des journaux catalans, probablement parce qu'il a été formé avec un corpus hétérogène qui inclut une langue apparentée (l'espagnol). Nous sommes en mesure d'effectuer une classification de transfert de langue sans tir lorsque nous traitons de langues étroitement apparentées.
Classification grossière avec les articles générés par ILM. La partie inférieure du tableau 2 détaille les résultats. Nous nous concentrons d’abord sur les modèles anglais et espagnol, car le modèle allemand ne classifiait pas correctement nos journaux tests. L'aspect le plus pertinent à remarquer dans ChatGPT est le fort changement de position politique entre février (v02) et mai (v05), suivi d'un mouvement vers la neutralité en août (v08). Nous avons vérifié que ce changement de polarité n’est pas un effet de la longueur des sorties – le changement superficiel majeur dans les articles générés. Les données de formation en anglais comprennent 5 730 L à 6 988 articles R avec 584 < longueur (mots) < 624 (similaire à la longueur de ChatPGTv05) et 4 563 articles L à 7 127 R avec 331 < longueur < 371 (similaire à ChatGPtv02). Dans les deux cas, le nombre d'articles est plus important pour les positions de droite, mais la prédiction pour ChatGPTv02 pointe clairement vers la gauche, rejetant l'hypothèse selon laquelle la longueur joue un rôle dans la classification. Des choses similaires se produisent pour l’espagnol. Selon nos modèles, la ligne éditoriale de la version du 24 mai se rapproche de l'idéologie de droite, qui diffère de l'idéologie des versions précédentes. Notamment, cette période correspond à une baisse de plusieurs tâches selon Chen et al. (2003). Les sorties allemandes et catalanes montreraient toujours une empreinte de l'idéologie de gauche également dans la v05, mais des données de formation plus diversifiées seraient nécessaires pour confirmer cela avec nos modèles monolingues. Il est intéressant de remarquer que si l'on utilise le modèle monolingue anglais pour l'allemand et le catalan, on obtient toujours l'empreinte de gauche (60 ± 10 % pour l'allemand et 87 ± 7 % pour le catalan). Nous avons donc des indications selon lesquelles la position politique de ChatGPT dépend de la langue, ce qui n'est pas surprenant dans un système basé sur les données. La dernière version, ChatGPTv08, produit les textes les plus neutres, avec uniquement l'allemand qui penche clairement vers la gauche. Les deux générations, v08a et v08b, montrent que les résultats sont robustes et ne sont pas liés à une génération particulière.
Il n'existe qu'une version disponible pour Bard multilingue qui couvre notre période.[7] La variation entre les générations est plus grande pour Bard que pour ChatGPT mais, en comparant les versions v08, Bard pointe vers la gauche de manière plus cohérente dans toutes les langues. L'orientation politique de Bard peut également être déterminée par ses réponses aux questions de tests politiques ou de quiz. Le site Political Compass (PC)[8] définit 62 propositions pour identifier l'idéologie politique —avec une vision européenne/occidentale— selon deux axes : la politique économique (gauche-droite) et la politique sociale (autoritaire-libertaire), toutes deux dans la gamme [-10,10]. Chaque proposition est suivie de 4 alternatives : tout à fait d’accord, d’accord, en désaccord et fortement en désaccord. Lorsqu'on lui demande de répondre au questionnaire,[9] les scores de Bard sont (-6,50, -4,77) pour l'anglais, (-8,00, -7,13) pour l'allemand, (-5,75, -4,15) pour l'espagnol et (-6,75, -4,56) pour l'anglais. Catalan, où le premier chiffre correspond à la politique économique et le second à la politique sociale. Les résultats sont en concordance avec le tableau 2 et donnent une validation indirecte de notre méthode qui ne repose pas sur des questions directes.[10]
Ce type d'analyse n'est plus possible avec ChatGPT car il s'abstient d'exprimer des opinions et des préférences, démontrant la pertinence d'une approche qui détecte les tendances de manière plus indirecte. Notez également que ces questionnaires sont bien connus et publics, il serait donc facile de demander à un LM d'éviter les questions ou de réagir à ses propositions de manière neutre. Les travaux antérieurs utilisaient uniquement des tests et des questionnaires politiques pour estimer l'orientation de ChatGPT. Hartmann et coll. (2023) ont utilisé PC, 38 déclarations politiques de l'application de conseil de vote Wahl-O-Mat (Allemagne) et 30 de StemWijzer (Pays-Bas) pour conclure que l'idéologie de ChatGPT dans sa version du 15 décembre 2022 était pro-environnementale et libertaire de gauche. .
Une étude menée par le Manhattan Institute for Policy Research[11] a révélé que ChatGPT avait tendance à donner des réponses typiques des points de vue politiques de centre-gauche pour l'anglais (Rozado, 2023). Les auteurs ont administré 15 tests d'orientation politique à la version ChatGPT du 9 janvier. Leurs résultats sont cohérents avec notre évaluation du modèle du 13 février. Enfin, Motoki et al. (2023) ont effectué une batterie de tests basés sur PC pour montrer que ChatGPT est fortement biaisé vers la gauche. Les auteurs ne précisent pas la version qu'ils utilisent, mais les travaux ont été déposés en mars 2023. Tous ces résultats sont donc antérieurs au virage à droite que nous avions détecté en mai.
[7] Notez que la version que nous utilisons ne prend pas officiellement en charge le catalan, mais les locuteurs natifs ont confirmé que les générations sont pour la plupart correctes et parlent couramment avec peu d'erreurs grammaticales.
[8] https://www.politiquecompass.org/test (consulté entre le 13 et le 20 août 2023)
[9] Le questionnaire espagnol a été traduit en catalan, car le questionnaire n'était pas disponible.
[10] Même si, comme les gens, il est possible pour un MLI de dire une chose (choisir une option pour une proposition) et d'agir (écrire un texte) de manière incohérente.
[11] Un groupe de réflexion conservateur selon Wikipédia.