paint-brush
Nachrichten- und Desinformationskonsum in Europa: Materialien und Methodenvon@newsbyte

Nachrichten- und Desinformationskonsum in Europa: Materialien und Methoden

von NewsByte.Tech3m2024/06/07
Read on Terminal Reader

Zu lang; Lesen

In diesem Artikel analysieren Forscher europäische Nachrichtenkonsummuster, Quellen von Fehlinformationen und das Verhalten des Publikums auf Twitter.
featured image - Nachrichten- und Desinformationskonsum in Europa: Materialien und Methoden
NewsByte.Tech HackerNoon profile picture
0-item

Autoren:

(1) Anees Baqir, Ca' Foscari Universität Venedig, Italien;

(2) Alessandro Galeazzi, Ca' Foscari Universität Venedig, Italien;

(3) Fabiana Zollo, Ca' Foscari Universität Venedig, Italien und The New Institute Centre for Environmental Humanities, Italien.

Linktabelle

2. Materialien und Methoden

Datenerhebung und -verarbeitung

Die Daten wurden mithilfe der offiziellen Twitter-API für akademische Forschung [1] erhoben, die zum Zeitpunkt der Datenerhebung für Akademiker kostenlos verfügbar war. Basierend auf der Liste der aus dem NewsGuard-Datensatz abgerufenen Konten (siehe Tabelle 1) haben wir die Twitter-Timelines von Medienquellen mit Sitz in Italien, Deutschland, Frankreich und Großbritannien über drei Jahre von 2019 bis 2021 heruntergeladen. NewsGuard ist ein Tool, das die Zuverlässigkeit von Nachrichtenagenturen anhand von neun journalistischen Kriterien bewertet. Anhand dieser Kriterien weist ein Team aus professionellen und unabhängigen Journalisten jeder Nachrichtenagentur einen „Vertrauenswert“ zwischen 0 und 100 zu. Bewertungen werden nicht für Einzelpersonen, satirische Inhalte oder Social-Media-Plattformen wie Twitter, Facebook und YouTube bereitgestellt. Nachrichtenquellen werden anhand ihres Wertes in zwei Gruppen eingeteilt: Zuverlässig (Vertrauenswert größer oder gleich 60) und Fragwürdig (Vertrauenswert kleiner als 60). Der Schwellenwert wird von NewsGuard basierend auf den Bewertungskriterien festgelegt.


Wir haben nur öffentlich verfügbare Inhalte von öffentlichen Twitter-Konten gesammelt. Der Datensatz umfasste alle Tweets, die von den ausgewählten Konten im Zeitraum vom 1. Januar 2019 bis zum 11. November 2021 veröffentlicht wurden, was mehr als 25 Millionen Tweets ergibt. Tabelle 2 zeigt die Aufschlüsselung der Daten. Der Prozentsatz der Beiträge jedes Landes, die zur Gesamtmenge beitragen, ist in Klammern angegeben.


Um sicherzustellen, dass sich unsere Analyse auf Themen konzentriert, die auf europäischer Ebene diskutiert werden, um länderübergreifende Vergleiche anzustellen, haben wir Schlüsselwortfilter auf unseren ursprünglichen Datensatz angewendet. Wir haben unseren Datensatz in drei einjährige Segmente unterteilt und jedes Segment anhand einer Liste von Schlüsselwörtern gefiltert, die sich auf das am häufigsten diskutierte Thema auf europäischer Ebene in diesem Jahr beziehen. Die Statistiken für die gefilterten Daten finden Sie in Tabelle 3.


Tabelle 1: Aufschlüsselung des NewsGuard-Nachrichtenquellen-Datensatzes nach Land und Zuverlässigkeit


Tabelle 2: Tweetvolumen nach Land und Zuverlässigkeit


Für die Tweets im gefilterten Datensatz haben wir alle Retweets gesammelt. Details zur Anzahl der Original-Tweets und Retweets für jedes Thema finden Sie in Tabelle 3.


Tabelle 3: Aufschlüsselung des gefilterten Datensatzes nach Land und Thema.

Ähnlichkeitsnetzwerke


Schließlich haben wir alle 0-Grad-Knoten ausgeschlossen und alle Kanten mit einem Gewicht unterhalb des Medians aller Kantengewichte gelöscht. Mit diesem Ansatz konnten wir die stärksten Ähnlichkeiten zwischen den Leserkreisen der Nachrichtenagenturen in Bezug auf die ausgewählten Themen im europäischen Kontext erfassen.

Themenmodellierung

Wir haben BERTopic verwendet, ein Tool zur Themenmodellierung, das latente Themen aus einer Sammlung von Dokumenten extrahiert, um die in allen untersuchten Ländern vorherrschenden brisanten Themen zu identifizieren. BERTopic ist ein für vorab trainierte Satztransformatoren verallgemeinertes Top2vec-Modell (Grootendorst, 2022), das kürzlich bei verschiedenen Aufgaben vielversprechende Ergebnisse gezeigt hat. BERTopic generiert kohärente Cluster von Dokumenten in drei Schritten: 1) Extrahieren von Dokument-Embeddings; 2) Clustern von Embeddings; 3) Erstellen von Themendarstellungen mithilfe von klassenbasiertem TF-IDF (Sammut und Webb, 2011) (c-TF-IDF). Im ersten Schritt können beliebige vorab trainierte transformerbasierte Sprachmodelle verwendet werden, was den Einsatz modernster Embedding-Techniken ermöglicht. Der zweite Schritt verwendet Uniform Manifold Approximation and Projection (UMAP), um die Dimension der Einbettungen zu reduzieren (McInnes et al., 2018), und hierarchisches, dichtebasiertes räumliches Clustering von Anwendungen mit Rauschen (HDBSCAN), um semantisch ähnliche Cluster von Dokumenten zu generieren (McInnes et al., 2017). Eines der Themen ist auf „Sonstige“ eingestellt und enthält die Dokumente, die nicht in anderen Themen enthalten sind.



[1] https://developer.twitter.com/en/docs/twitter-api