Consommation d’informations et de désinformation en Europe : matériaux et méthodes

par NewsByte.Tech3m2024/06/07

Trop long; Pour lire

Dans cet article, les chercheurs analysent les modèles de consommation d’informations en Europe, les sources de désinformation et les comportements du public sur Twitter.

featured image - Consommation d’informations et de désinformation en Europe : matériaux et méthodes

Auteurs:

(1) Anees Baqir, Université Ca' Foscari de Venise, Italie ;

(2) Alessandro Galeazzi, Université Ca' Foscari de Venise, Italie ;

(3) Fabiana Zollo, Université Ca' Foscari de Venise, Italie et The New Institute Center for Environmental Humanities, Italie.

Tableau des liens

2. Matériels et méthodes

Collecte et traitement des données

Les données ont été collectées à l'aide de l'API Twitter officielle pour la recherche universitaire [1], disponible gratuitement pour les universitaires au moment de la collecte. Sur la base de la liste des comptes extraits de l'ensemble de données NewsGuard (voir tableau 1), nous avons téléchargé les chronologies Twitter des sources médiatiques basées en Italie, en Allemagne, en France et au Royaume-Uni sur trois ans, de 2019 à 2021. NewsGuard est un outil qui évalue la fiabilité des organes d'information sur la base de neuf critères journalistiques. Suivant ces critères, une équipe de journalistes professionnels et indépendants attribue un « score de confiance » compris entre 0 et 100 à chaque média. Les évaluations ne sont pas fournies pour les individus, le contenu satirique ou les plateformes de médias sociaux comme Twitter, Facebook et YouTube. Les sources d'information sont classées en deux groupes en fonction de leur score : fiable (score de confiance supérieur ou égal à 60) et douteux (score de confiance inférieur à 60). Le seuil est fixé par NewsGuard sur la base des critères d'évaluation.

Nous avons collecté uniquement du contenu accessible au public à partir de comptes Twitter publics. L'ensemble de données comprenait tous les tweets publiés par les comptes sélectionnés entre le 1er janvier 2019 et le 11 novembre 2021, soit plus de 25 millions de tweets. Le tableau 2 présente la répartition des données. Le pourcentage de postes de chaque pays contribuant au montant total est indiqué entre parenthèses.

Pour garantir que notre analyse se concentre sur des sujets débattus au niveau européen à des fins de comparaisons entre pays, nous avons appliqué des filtres par mots clés à notre ensemble de données d'origine. Nous avons divisé notre ensemble de données en trois segments d'un an et filtré chaque segment selon une liste de mots-clés liés au sujet le plus discuté au niveau européen pour cette année-là. Les statistiques pour les données filtrées se trouvent dans le tableau 3.

Pour les tweets de l'ensemble de données filtré, nous avons collecté tous les retweets. Des détails sur le nombre de tweets originaux et de retweets pour chaque sujet sont disponibles dans le tableau 3.

Réseaux de similarité

Enfin, nous avons exclu tous les nœuds à 0 degré et supprimé toutes les arêtes dont le poids était inférieur à la médiane de tous les poids d'arête. Cette approche nous a permis de capturer les similitudes les plus fortes entre les audiences des médias liées aux sujets sélectionnés dans le contexte européen.

Modélisation de sujets

Nous avons utilisé BERTopic, un outil de modélisation de sujets qui extrait les sujets latents d'une collection de documents, pour identifier les sujets brûlants répandus dans tous les pays examinés. BERTopic est un modèle top2vec généralisé pour les transformateurs de phrases pré-entraînés (Grootendorst, 2022) qui a récemment démontré des résultats prometteurs dans diverses tâches. BERTopic génère des groupes cohérents de documents en trois étapes : 1) extraire les intégrations de documents ; 2) regroupement des intégrations ; 3) créer des représentations de sujets à l'aide de TF-IDF basé sur des classes (Sammut et Webb, 2011) (c-TF-IDF). Dans un premier temps, tous les modèles de langage pré-entraînés basés sur un transformateur peuvent être utilisés, permettant l'utilisation de techniques d'intégration de pointe. La deuxième étape utilise l'approximation et la projection multiples uniformes (UMAP) pour réduire la dimension des incorporations (McInnes et al., 2018), et le regroupement spatial hiérarchique d'applications avec bruit basé sur la densité (HDBSCAN) pour générer des groupes de documents sémantiquement similaires (McInnes et coll., 2017). L'un des sujets est défini comme « autres » et inclut les documents qui ne sont pas inclus dans différents sujets.

Cet article est disponible sur arxiv sous licence CC 4.0.

[1] https://developer.twitter.com/en/docs/twitter-api

L O A D I N G
. . . comments & more!

About Author

NewsByte.Tech@newsbyte

byte off more tech news than you can chew, or die coding your own dreams

Read my stories

Consommation d’informations et de désinformation en Europe : matériaux et méthodes

Trop long; Pour lire

Tableau des liens

2. Matériels et méthodes

Collecte et traitement des données

Réseaux de similarité

Modélisation de sujets

About Author

ÉTIQUETTES

Languages

CET ARTICLE A ÉTÉ PARU DANS...

HISTOIRES CONNEXES