paint-brush
Consumo de notícias e desinformação na Europa: materiais e métodospor@newsbyte

Consumo de notícias e desinformação na Europa: materiais e métodos

por NewsByte.Tech3m2024/06/07
Read on Terminal Reader

Muito longo; Para ler

Neste artigo, os investigadores analisam os padrões europeus de consumo de notícias, as fontes de desinformação e os comportamentos do público no Twitter.
featured image - Consumo de notícias e desinformação na Europa: materiais e métodos
NewsByte.Tech HackerNoon profile picture
0-item

Autores:

(1) Anees Baqir, Universidade Ca' Foscari de Veneza, Itália;

(2) Alessandro Galeazzi, Universidade Ca' Foscari de Veneza, Itália;

(3) Fabiana Zollo, Universidade Ca' Foscari de Veneza, Itália e The New Institute Center for Environmental Humanities, Itália.

Tabela de Links

2. Materiais e métodos

Coleta e processamento de dados

Os dados foram coletados utilizando a API oficial do Twitter para pesquisas acadêmicas [1], disponível gratuitamente para acadêmicos no momento da coleta. Com base na lista de contas recuperadas do conjunto de dados NewsGuard (ver Tabela 1), baixamos os cronogramas do Twitter de fontes de mídia baseadas na Itália, Alemanha, França e Reino Unido ao longo de três anos, de 2019 a 2021. NewsGuard é uma ferramenta que avalia a confiabilidade dos meios de comunicação com base em nove critérios jornalísticos. Seguindo esses critérios, uma equipe de jornalistas profissionais e independentes atribui uma “pontuação de confiança” entre 0 e 100 a cada meio de comunicação. As classificações não são fornecidas para indivíduos, conteúdo satírico ou plataformas de mídia social como Twitter, Facebook e YouTube. As fontes de notícias são categorizadas em dois grupos com base na sua pontuação: Confiáveis (pontuação de confiança maior ou igual a 60) e Questionáveis (pontuação de confiança inferior a 60). O limite é definido pelo NewsGuard com base nos critérios de avaliação.


Coletamos apenas conteúdo disponível publicamente de contas públicas do Twitter. O conjunto de dados incluiu todos os tweets publicados pelas contas selecionadas no período de 1º de janeiro de 2019 a 11 de novembro de 2021, resultando em mais de 25 milhões de tweets. A Tabela 2 relata a discriminação dos dados. A percentagem de postos de cada país que contribuem para o montante total é apresentada entre parênteses.


Para garantir que a nossa análise se concentrava nos tópicos debatidos a nível europeu para comparações entre países, aplicámos filtros de palavras-chave ao nosso conjunto de dados original. Dividimos o nosso conjunto de dados em três segmentos de um ano e filtramos cada segmento de acordo com uma lista de palavras-chave relacionadas com o tema mais discutido a nível europeu naquele ano. As estatísticas dos dados filtrados podem ser encontradas na Tabela 3.


Tabela 1: Detalhamento do conjunto de dados de fontes de notícias do NewsGuard por país e confiabilidade


Tabela 2: Volume de tweets por país e confiabilidade


Para os tweets no conjunto de dados filtrado, coletamos todos os retuítes. Detalhes sobre o número de tweets e retuítes originais para cada tópico podem ser encontrados na Tabela 3.


Tabela 3: Detalhamento do conjunto de dados filtrado por País e Tópico.

Redes de similaridade


Por fim, excluímos todos os nós de 0 grau e excluímos todas as arestas com peso abaixo da mediana de todos os pesos das arestas. Esta abordagem permitiu-nos captar as semelhanças mais fortes entre as audiências dos meios de comunicação relacionadas com os tópicos selecionados no contexto europeu.

Modelagem de tópico

Utilizamos o BERTopic, uma ferramenta de modelagem de tópicos que extrai tópicos latentes de uma coleção de documentos, para identificar os temas quentes predominantes em todos os países examinados. BERTopic é um modelo top2vec generalizado para transformadores de frases pré-treinados (Grootendorst, 2022) que demonstrou recentemente resultados promissores em diversas tarefas. BERTopic gera clusters coerentes de documentos através de três etapas: 1) extração de embeddings de documentos; 2) agrupamento de incorporações; 3) criação de representações de tópicos usando TF-IDF baseado em classes (Sammut e Webb, 2011) (c-TF-IDF). Na primeira etapa, qualquer modelo de linguagem baseado em transformador pré-treinado pode ser utilizado, permitindo o uso de técnicas de incorporação de última geração. A segunda etapa emprega aproximação e projeção múltipla uniforme (UMAP) para reduzir a dimensão dos embeddings (McInnes et al., 2018) e agrupamento espacial hierárquico de aplicativos com ruído baseado em densidade (HDBSCAN) para gerar clusters de documentos semanticamente semelhantes (McInnes e outros, 2017). Um dos tópicos é definido como 'outros' e inclui os documentos que não estão incluídos em tópicos diferentes.


Este artigo está disponível no arxiv sob licença CC 4.0.


[1] https://developer.twitter.com/en/docs/twitter-api