paint-brush
Mehrsprachige grobe Klassifizierung politischer Standpunkte von Medien: Korpora-Zusammenstellungby@mediabias
216

Mehrsprachige grobe Klassifizierung politischer Standpunkte von Medien: Korpora-Zusammenstellung

In diesem Artikel analysieren Forscher die Neutralität und Haltungsentwicklung von KI-generierten Nachrichtenartikeln in verschiedenen Sprachen anhand authentischer Bewertungen von Nachrichtenagenturen.
featured image - Mehrsprachige grobe Klassifizierung politischer Standpunkte von Medien: Korpora-Zusammenstellung
Media Bias [Deeply Researched Academic Papers] HackerNoon profile picture
0-item

Dieses Dokument ist auf arxiv unter der Lizenz CC BY-NC-SA 4.0 DEED verfügbar.

Autoren:

(1) Cristina España-Bonet, DFKI GmbH, Saarland Informatics Campus.

Linktabelle

2. Korpora-Zusammenstellung

Wir nähern uns unserer Aufgabe als Klassifizierungsproblem mit zwei Klassen: Linke (L) und Rechte (R) politische Orientierung. Dies ist eine Vereinfachung des eigentlichen Problems, bei dem Artikel auch neutral sein können und es unterschiedliche Grade der Voreingenommenheit geben kann. Frühere Arbeiten stützten sich auf 3 oder 5 Klassen, die immer die neutrale Option enthielten (Baly et al., 2020; Aksenov et al., 2021). In diesen Arbeiten wurden die Daten manuell annotiert, wodurch qualitativ hochwertige Trainingsdaten erstellt wurden, was jedoch auch den Umfang der Arbeit in Bezug auf die abgedeckten Sprachen und Länder stark einschränkte. Bei Verwendung der feinkörnigen Klassifizierungsskala erkennen die Autoren eine schlechte Verallgemeinerung der Klassifikatoren auf neue Quellen an. Andererseits schließen García-Díaz et al. (2022) und Russo et al. (2023) die neutrale Klasse aus und arbeiten mit einer binären oder mehrklassigen Links-Rechts-Klassifizierung von Tweets spanischer bzw. italienischer Politiker, ihre Arbeit umfasst jedoch keine längeren Texte. Die binäre Klassifizierung könnte gerechtfertigt sein, da sie mit Tweets gearbeitet haben, einem Genre, bei dem die Leute eher emotional und daher wahrscheinlich stärker polarisiert sind. In unserem Fall müssen wir sicherstellen, dass der Klassifikator gut auf unbekannte Quellen verallgemeinert, und wir bleiben bei der 2-Klassen-Aufgabe, während wir die Anzahl neutraler Artikel im Training minimieren (siehe unten).


Fernüberwachung. Soweit uns bekannt ist, steht nur ein manuell annotiertes Zeitungskorpus in englischer Sprache (Baly et al., 2020) und ein weiteres in deutscher Sprache (Aksenov et al., 2021) zur Verfügung. Wir verfolgen einen anderen Ansatz im Sinne von Kulkarni et al. (2018) und Kiesel et al. (2019). Wir annotieren keinen Artikel manuell, aber wir vertrauen AllSides, MB/FC, Political Watch und Wikipedia (letztere nur in Fällen, in denen die Informationen auf den vorherigen Seiten nicht verfügbar sind) bei ihrer Klassifizierung einer Zeitungsvoreingenommenheit. Wir extrahieren diese Informationen für Zeitungen aus den USA, Deutschland, Spanien und Katalonien. Mit der Liste der Zeitungen, ihrer URL[4] und ihrer Haltung verwenden wir OSCAR, ein mehrsprachiges Korpus, das durch Filtern des Common Crawl (Ortiz Suárez et al., 2019; Abadji et al., 2021) erhalten wurde, um die Artikel abzurufen. Anhang A listet die in dieser Arbeit verwendeten Quellen auf: 47 US-amerikanische Zeitungen mit 742.691 Artikeln, 12 deutsche mit 143.200, 38 spanische mit 301.825 und 19 katalanische mit 70.496.


Themenmodellierung. Nicht alle Artikel sind voreingenommen, manche Themen sind anfälliger als andere. Während der Sportteil einer Zeitung normalerweise weniger anfällig für politische Voreingenommenheit ist, ist beim internationalen Teil das Gegenteil der Fall. Wir verwenden daher Themen, um eine Teilmenge relevanter Trainingsdaten für unsere binäre Klassifizierung auszuwählen. Wir führen eine Themenmodellierung der aus OSCAR extrahierten Artikel mithilfe von Mallet (McCallum, 2002) durch, das LDA mit Gibbs-Sampling anwendet. Wir gruppieren die Daten in 10 und 15 Gruppen pro Sprache, was ungefähr der Anzahl der Abschnitte einer Zeitung entspricht. Die für jedes Thema extrahierten Schlüsselwörter sind in Anhang B aufgeführt. Wir wählen Artikel aus, die unter die Themen fallen, die wir als International, Regierung, Recht und Gerechtigkeit, Wirtschaft, Lebenswissenschaften/Ökologie bezeichnen, und spezifische sprachabhängige Themen wie Einwanderung und Gewalt für Englisch, Nationalsozialismus für Deutsch und Soziales für Spanisch. Die Auswahl erfolgt nach der Überprüfung der Schlüsselwörter. Für den endgültigen Datensatz führen wir die Vereinigung der ausgewählten Artikel durch, die in 10 und 15 Themen gruppiert sind. Das Verfahren filtert 49 % der spanischen, 39 % der deutschen und 31 % der englischen Artikel heraus.


Vorverarbeitung und Bereinigung. Wir verwerfen Artikel mit mehr als 2000 oder weniger als 20 Wörtern vor der Bereinigung. Anschließend entfernen wir Kopf- und Fußzeilen sowie alle erkannten Standardtexte. Dieser Text kann einen neuronalen Klassifikator in die Irre führen, da er den Klassifikator dazu ermutigen könnte, zu lernen, zwischen Zeitungen zu unterscheiden, anstatt sich auf ihre politische Haltung zu konzentrieren. Wir wählen eine Zeitung pro Sprache und Haltung zum Testen aus und bereinigen ihre Artikel manuell. Um ein ausgewogenes Trainingskorpus für jede Sprache zu erstellen, wählen wir zufällig eine ähnliche Anzahl links- und rechtsorientierter Artikel aus der verbleibenden Sammlung aus. Dieser ausgewogene Datensatz wird in Training und Validierung unterteilt, wie in Tabelle 1 (obere Zeilen) dargestellt.


ChatGPT/Bard Corpus. Wir erstellen einen mehrsprachigen Datensatz mit 101 Artikeln. Dazu definieren wir 101 Themen, darunter Immobilienpreise, Abtreibung, Tabak, Barack Obama usw., und übersetzen sie manuell in die 4 Sprachen (siehe Anhang D). Die Themen berücksichtigen Themen, die eine politische Haltung haben können, wie etwa solche im Zusammenhang mit Feminismus, Kapitalismus, Ökologismus, Technologie usw. Wir schließen auch Eigennamen von Personen in den 4 betrachteten Ländern ein, deren Biografie je nach politischer Haltung des Autors unterschiedlich sein kann. Diese Themen werden in die Vorlagenaufforderung (und ihre Übersetzungen ins Deutsche, Spanische und Katalanische) eingefügt:[5] Schreiben Sie einen Zeitungsartikel über [THEMA]en


Tabelle 1: Anzahl der Artikel (durchschnittliche Wortzahl in Klammern), unterteilt nach Artikeln einer Zeitung mit Links- (L) und Rechts-Orientierung (R). Für den Test verwenden wir Zeitungen, die weder im Training noch bei der Validierung verwendet wurden: Slate (L) und The National Pulse (R) für die USA, My Heimat (L) und die Preußische Allgemeine Zeitung (R) für Deutschland,


Wir testen ChatGPT (GPT-3.5-Turbo) fünfmal mit denselben Probanden über vier Zeiträume hinweg. Wir generieren den Datensatz mit ChatGPT-Versionen vom 13. Februar (v02), 23. März (v03), 24. Mai (v05) und 3. August (v08); nur mit den letzten beiden decken wir die vier Sprachen gleichzeitig ab. ChatGPTv05 generiert deutlich längere Texte als die anderen mit einer artikelorientierten Struktur mit Slots, die mit dem Namen des Autors, dem Datum und/oder der Stadt gefüllt werden müssen. Das mehrsprachige Bard war später verfügbar und wir testen es zweimal im selben Zeitraum wie ChatGPTv8.[6] Tabelle 1 zeigt die Statistiken für dieses Korpus.




[4] Dies impliziert die Auswahl aller Artikel, die unter einem Domänennamen einer Nachrichtenagentur liegen, unabhängig davon, ob es sich um Nachrichten handelt oder nicht.


[5] Spezifischere Eingabeaufforderungen führten bei den ersten Versionen von ChatGPT nicht zu unterschiedlichen Stilen. Bei der letzten haben wir weitere Informationen hinzugefügt, wie z. B. ... ohne Unterüberschriften. um übermäßige Unterteilungen und/oder Aufzählungspunkte zu vermeiden. Weder ChatGPT noch Bard haben die Anweisungen immer richtig befolgt. Der von uns bereitgestellte Datensatz enthält die von uns verwendeten Eingabeaufforderungen.


[6] Abgefragt vom 14.–21. August 2023 aus Berlin für Englisch und Deutsch und aus Barcelona für Spanisch und Katalanisch, da im Gegensatz zu ChatGPT die Generierung vom Standort abhängt.