Dieses Dokument ist auf arxiv unter der Lizenz CC BY-NC-SA 4.0 DEED verfügbar.
Autoren:
(1) Cristina España-Bonet, DFKI GmbH, Saarland Informatics Campus.
Das Netzwerk. **Wir optimieren XLM-RoBERTa large (Conneau et al., 2020), ein mehrsprachiges, auf Transformer** basierendes maskiertes LM, das auf 100 Sprachen trainiert wurde, darunter die 4, die wir berücksichtigen. Die Details des Netzwerks und der Hyperparameter-Exploration pro Modell sind in Anhang F aufgeführt.
Die Modelle. Wir trainieren 4 Modelle: 3 einsprachige Feinabstimmungen mit den englischen, deutschen und spanischen Daten und ein mehrsprachiges mit der gemischten Verkettung der Daten. Alle Modelle basieren auf mehrsprachigen Einbettungen (RoBERTa), die entweder einsprachig oder mehrsprachig feinabgestimmt sind. Beachten Sie, dass wir kein Modell für Katalanisch trainieren. Damit möchten wir die Leistung ein- und mehrsprachiger Feinabstimmungen vergleichen und die Möglichkeit erkunden, mehrsprachige Modelle für die Zero-Shot-Sprachübertragung zu verwenden.
Grobe Klassifizierung mit Zeitungsartikeln. Tabelle 2 fasst die Ergebnisse zusammen. Alle Modelle erreichen eine Genauigkeit von über 95 % im Validierungssatz, der aus derselben Verteilung wie die Trainingsdaten extrahiert wird. Um zu sehen, wie sich die Modelle mit unbekannten Daten verhalten, berechnen wir den Prozentsatz der Artikel, die in den Testzeitungen von Tabelle 1 als links (L) und rechts (R) klassifiziert werden. Wir führen eine Bootstrap-Neuabtastung der Testsätze mit 1000 Bootstraps durch, um Konfidenzintervalle auf 95 %-Niveau zu erhalten. Wir erwarten nicht, dass alle Artikel einer linksgerichteten Zeitung klare Merkmale der Linken aufweisen, aber da es keine neutrale Klasse gibt, erwarten wir, dass die Mehrheit von ihnen als links klassifiziert wird. Ein gutes Ergebnis ist nicht unbedingt 100 %–0 %, da dies auch nicht realistisch wäre. Wir gehen davon aus, dass eine Zeitung als politisch links/rechts eingestuft wurde, wenn mehr als 50 % ihrer Artikel als solche klassifiziert wurden. Diese Fälle sind in Tabelle 2 fett gedruckt.
Dieses Verhalten erhalten wir für alle Testzeitungen außer der deutschen rechtsorientierten Zeitung: die Preußische Allgemeine Zeitung (PAZ). Das deutsche Modell wird nur anhand von 12 Zeitungen trainiert, um sie mit den 47 englischen und 38 spanischen Zeitungen zu vergleichen. Die falsche Klassifizierung könnte ein Hinweis darauf sein, dass Vielfalt ein Schlüsselaspekt für die endgültige Leistung des Modells ist. Mehrsprachigkeit hilft nicht und 65 % der PAZ-Artikel werden immer noch als linksorientiert klassifiziert. Wir bewerten auch die Wirksamkeit des englischen Modells anhand der deutschen Daten, zwei nahe beieinander liegenden Sprachen. Wir erkennen an, dass sich die Themen der US-amerikanischen und deutschen Zeitungen stark unterscheiden können, aber die hohe Vielfalt der englischen Trainingsdaten könnte dies möglicherweise ausgleichen. Das englische Modell ist in der Lage, die deutsche My Heimat korrekt als linksorientierte Zeitung (L: 67±3 %) und die PAZ als rechtsorientierte Zeitung (R: 58±5 %) zu klassifizieren. Wir führen den Unterschied erneut darauf zurück, dass das deutsche Modell anhand eines Korpus ohne Vielfalt trainiert wurde. Wenn wir das mehrsprachige System verwenden, ist der dominierende Faktor, der die Ergebnisse unterscheidet, die Sprache selbst und nicht die Haltung. Die Hinzufügung englischer Daten reicht nicht aus, um die Klassifizierung wesentlich zu verändern. Wenn wir das englische System verwenden, spielt die Sprache keine Rolle mehr und es werden nur die Haltungsmerkmale berücksichtigt. Wenn wir das englische Modell auf die katalanischen Zeitungen anwenden, erhalten wir jedoch keine zufriedenstellenden Ergebnisse (95 ± 1 % für die linke, aber 16 ± 3 % für die rechte Zeitung), was zeigt, dass die Verwandtschaft zwischen den Sprachen wichtig ist. Das mehrsprachige Modell erkennt die Haltung der katalanischen Zeitungen jedoch richtig, wahrscheinlich weil es mit einem heterogenen Korpus trainiert wurde, der eine verwandte Sprache (Spanisch) enthält. Wir können eine Zero-Shot-Sprachtransferklassifizierung durchführen, wenn wir mit eng verwandten Sprachen arbeiten.
Grobe Klassifizierung mit ILM-generierten Artikeln. Der untere Teil von Tabelle 2 enthält die Ergebnisse im Detail. Wir konzentrieren uns zunächst auf die englischen und spanischen Modelle, da das deutsche Modell unsere Testzeitungen nicht richtig klassifiziert hat. Der relevanteste Aspekt, der bei ChatGPT auffällt, ist der starke Wechsel der politischen Haltung zwischen Februar (v02) und Mai (v05), gefolgt von einer Bewegung in Richtung Neutralität im August (v08). Wir haben überprüft, dass dieser Polaritätswechsel kein Effekt der Länge der Ausgaben ist – der größten oberflächlichen Änderung in den generierten Artikeln. Die Trainingsdaten in Englisch umfassen 5.730L–6.988R-Artikel mit 584<Länge (Wörter)<624 (ähnlich der Länge von ChatPGTv05) und 4.563L–7.127R-Artikel mit 331<Länge<371 (ähnlich wie ChatGPtv02). In beiden Fällen ist die Anzahl der Artikel für die rechten Standpunkte größer, aber die Vorhersage für ChatGPTv02 weist eindeutig nach links, was die Hypothese widerlegt, dass die Länge eine Rolle bei der Klassifizierung spielt. Ähnliches gilt für Spanisch. Laut unseren Modellen liegt die redaktionelle Linie der Version vom 24. Mai nahe an der rechten Ideologie, die sich von der Ideologie der vorherigen Versionen unterscheidet. Bemerkenswerterweise entspricht dieser Zeitraum einem Rückgang in mehreren Aufgaben laut Chen et al. (2003). Die deutschen und katalanischen Ergebnisse würden auch in v05 noch einen Abdruck der linken Ideologie zeigen, aber es wären vielfältigere Trainingsdaten erforderlich, um dies mit unseren einsprachigen Modellen zu bestätigen. Es ist interessant festzustellen, dass wir, wenn wir das englische einsprachige Modell für Deutsch und Katalanisch verwenden, immer noch den linken Abdruck erhalten (60±10 % für Deutsch und 87±7 % für Katalanisch). Wir haben also Hinweise darauf, dass die politische Haltung von ChatGPT von der Sprache abhängt, was in einem datengesteuerten System nicht überraschend ist. Die letzte Version, ChatGPTv08, produziert die neutralsten Texte, nur Deutsch tendiert deutlich nach links. Die beiden Generationen v08a und v08b zeigen, dass die Ergebnisse robust sind und nicht an eine bestimmte Generation gebunden sind.
Für das mehrsprachige Bard ist nur eine Version verfügbar, die unseren Zeitrahmen abdeckt.[7] Die Unterschiede zwischen den Generationen sind bei Bard größer als bei ChatGPT, aber wenn man die Versionen v08 vergleicht, zeigt Bard in allen Sprachen konsistenter nach links. Die politische Ausrichtung von Bard kann auch anhand der Antworten auf politische Test- oder Quizfragen bestimmt werden. Die Website Political Compass (PC)[8] definiert 62 Propositionen zur Identifizierung der politischen Ideologie – mit einer europäischen/westlichen Sichtweise – in zwei Achsen: Wirtschaftspolitik (links–rechts) und Sozialpolitik (autoritär–libertär), beide im Bereich [-10,10]. Auf jede Proposition folgen 4 Alternativen: stimme voll und ganz zu, stimme zu, stimme nicht zu und stimme überhaupt nicht zu. Mit dem Fragebogen[9] ergaben sich für Englisch folgende Werte: (-6,50, -4,77), für Deutsch (-8,00, -7,13), für Spanisch (-5,75, -4,15) und für Katalanisch (-6,75, -4,56), wobei die erste Zahl der Wirtschaftspolitik und die zweite der Sozialpolitik entspricht. Die Ergebnisse stimmen mit Tabelle 2 überein und bestätigen indirekt unsere Methode, die nicht auf direkten Fragen beruht.[10]
Diese Art der Analyse ist mit ChatGPT nicht mehr möglich, da es auf die Äußerung von Meinungen und Vorlieben verzichtet, was die Relevanz eines Ansatzes zeigt, der die Neigung auf indirektere Weise erkennt. Beachten Sie auch, dass diese Fragebögen bekannt und öffentlich sind, sodass es einfach wäre, einen LM anzuweisen, die Fragen zu vermeiden oder neutral auf seine Vorschläge zu reagieren. Frühere Arbeiten verwendeten nur politische Tests und Fragebögen, um die Ausrichtung von ChatGPT einzuschätzen. Hartmann et al. (2023) verwendeten PC, 38 politische Aussagen aus der Wahlberatungsanwendung Wahl-O-Mat (Deutschland) und 30 von StemWijzer (Niederlande), um zu dem Schluss zu kommen, dass die Ideologie von ChatGPT in seiner Version vom 15. Dezember 2022 umweltfreundlich und linkslibertär war.
Eine vom Manhattan Institute for Policy Research[11] durchgeführte Studie berichtete, dass ChatGPT dazu neigte, Antworten zu geben, die typisch für linksgerichtete politische Ansichten für Englisch sind (Rozado, 2023). Die Autoren führten 15 Tests zur politischen Orientierung mit der ChatGPT-Version vom 9. Januar durch. Ihre Ergebnisse stimmen mit unserer Auswertung des Modells vom 13. Februar überein. Schließlich führten Motoki et al. (2023) eine Reihe von Tests auf der Grundlage der politischen Orientierung durch, um zu zeigen, dass ChatGPT stark linksgerichtet ist. Die Autoren geben nicht an, welche Version sie verwenden, aber die Arbeit wurde im März 2023 eingereicht. Alle diese Ergebnisse stammen daher aus der Zeit vor der Rechtsbewegung, die wir im Mai festgestellt haben.
[7] Beachten Sie, dass die von uns verwendete Version Katalanisch offiziell nicht unterstützt, aber Muttersprachler bestätigten, dass die Generationen größtenteils korrekt und fließend sind und nur wenige Grammatikfehler aufweisen.
[8] https://www.politicalcompass.org/test (aufgerufen zwischen dem 13. und 20. August 2023)
[9] Der spanische Fragebogen wurde ins Katalanische übersetzt, da er nicht verfügbar war.
[10] Allerdings ist es, ähnlich wie Menschen, für ein ILM möglich, eine Sache zu sagen (eine Option für einen Vorschlag zu wählen) und auf inkonsistente Weise zu handeln (einen Text zu schreiben).
[11] Laut Wikipedia ein konservativer Think Tank.