paint-brush
Consumo de noticias y desinformación en Europa: materiales y métodospor@newsbyte

Consumo de noticias y desinformación en Europa: materiales y métodos

por NewsByte.Tech3m2024/06/07
Read on Terminal Reader

Demasiado Largo; Para Leer

En este artículo, los investigadores analizan los patrones de consumo de noticias, las fuentes de desinformación y los comportamientos de la audiencia en Twitter en Europa.
featured image - Consumo de noticias y desinformación en Europa: materiales y métodos
NewsByte.Tech HackerNoon profile picture
0-item

Autores:

(1) Anees Baqir, Universidad Ca' Foscari de Venecia, Italia;

(2) Alessandro Galeazzi, Universidad Ca' Foscari de Venecia, Italia;

(3) Fabiana Zollo, Universidad Ca' Foscari de Venecia, Italia y The New Institute Center for Environmental Humanities, Italia.

Tabla de enlaces

2. Materiales y métodos

Recopilación y procesamiento de datos.

Los datos se recopilaron utilizando la API oficial de Twitter para investigación académica [1], disponible gratuitamente para los académicos en el momento de la recopilación. Según la lista de cuentas recuperadas del conjunto de datos de NewsGuard (ver Tabla 1), descargamos las líneas de tiempo de Twitter de fuentes de medios con sede en Italia, Alemania, Francia y el Reino Unido durante tres años, de 2019 a 2021. NewsGuard es una herramienta que evalúa la confiabilidad de los medios de comunicación en base a nueve criterios periodísticos. Siguiendo esos criterios, un equipo de periodistas profesionales e independientes asigna una “puntuación de confianza” entre 0 y 100 a cada medio de comunicación. No se proporcionan calificaciones para individuos, contenido satírico o plataformas de redes sociales como Twitter, Facebook y YouTube. Las fuentes de noticias se clasifican en dos grupos según su puntuación: confiables (puntuación de confianza mayor o igual a 60) y cuestionables (puntuación de confianza inferior a 60). NewsGuard establece el umbral en función de los criterios de evaluación.


Solo recopilamos contenido disponible públicamente de cuentas públicas de Twitter. El conjunto de datos incluyó todos los tweets publicados por las cuentas seleccionadas en el período comprendido entre el 1 de enero de 2019 y el 11 de noviembre de 2021, lo que resultó en más de 25 millones de tweets. El cuadro 2 presenta el desglose de los datos. Entre paréntesis se muestra el porcentaje de puestos de cada país que contribuyen al monto total.


Para garantizar que nuestro análisis se concentrara en temas debatidos a nivel europeo para realizar comparaciones entre países, aplicamos filtros de palabras clave a nuestro conjunto de datos original. Dividimos nuestro conjunto de datos en tres segmentos de un año y filtramos cada segmento según una lista de palabras clave relacionadas con el tema más discutido a nivel europeo para ese año. Las estadísticas de los datos filtrados se pueden encontrar en la Tabla 3.


Tabla 1: Desglose del conjunto de datos de fuentes de noticias de NewsGuard por país y confiabilidad


Tabla 2: Volumen de tweets por país y confiabilidad


Para los tweets del conjunto de datos filtrado, recopilamos todos los retweets. Los detalles sobre el número de tweets y retweets originales para cada tema se pueden encontrar en la Tabla 3.


Tabla 3: Desglose del conjunto de datos filtrado por país y tema.

Redes de similitud


Finalmente, excluimos todos los nodos de 0 grados y eliminamos todos los bordes con un peso por debajo de la mediana de todos los pesos de los bordes. Este enfoque nos permitió capturar las similitudes más fuertes entre las audiencias de los medios de comunicación relacionadas con los temas seleccionados dentro del contexto europeo.

Modelado de temas

Utilizamos BERTopic, una herramienta de modelado de temas que extrae temas latentes de una colección de documentos, para identificar los temas candentes que prevalecen en todos los países examinados. BERTopic es un modelo top2vec generalizado para transformadores de oraciones previamente entrenados (Grootendorst, 2022) que recientemente ha demostrado resultados prometedores en diversas tareas. BERTopic genera grupos coherentes de documentos a través de tres pasos: 1) extracción de incrustaciones de documentos; 2) agrupaciones de incrustaciones; 3) crear representaciones de temas utilizando TF-IDF basado en clases (Sammut y Webb, 2011) (c-TF-IDF). En el primer paso, se puede utilizar cualquier modelo de lenguaje basado en transformadores previamente entrenado, lo que permite el uso de técnicas de integración de última generación. El segundo paso emplea aproximación y proyección múltiple uniforme (UMAP) para reducir la dimensión de las incrustaciones (McInnes et al., 2018) y agrupación espacial jerárquica de aplicaciones con ruido basada en densidad (HDBSCAN) para generar grupos de documentos semánticamente similares (McInnes et al., 2017). Uno de los temas está configurado como "otros" e incluye los documentos que no están incluidos en diferentes temas.


Este documento está disponible en arxiv bajo licencia CC 4.0.


[1] https://developer.twitter.com/en/docs/twitter-api