paint-brush
Новости и потребление дезинформации в Европе: материалы и методык@newsbyte
101 чтения

Новости и потребление дезинформации в Европе: материалы и методы

к NewsByte.Tech3m2024/06/07
Read on Terminal Reader

Слишком долго; Читать

В этой статье исследователи анализируют европейские модели потребления новостей, источники дезинформации и поведение аудитории в Твиттере.
featured image - Новости и потребление дезинформации в Европе: материалы и методы
NewsByte.Tech HackerNoon profile picture
0-item

Авторы:

(1) Анес Бакир, Венецианский университет Ка Фоскари, Италия;

(2) Алессандро Галеацци, Венецианский университет Ка Фоскари, Италия;

(3) Фабиана Золло, Венецианский университет Ка Фоскари, Италия, и Центр экологических гуманитарных наук Нового института, Италия.

Таблица ссылок

2. Материалы и методы

Сбор и обработка данных

Данные были собраны с использованием официального Twitter API для академических исследований [1], который на момент сбора доступен ученым бесплатно. На основе списка учетных записей, полученного из набора данных NewsGuard (см. Таблицу 1), мы загрузили хронологии Twitter медиа-источников из Италии, Германии, Франции и Великобритании за три года с 2019 по 2021 год. NewsGuard — это инструмент, который оценивает надежность новостных агентств на основе девяти журналистских критериев. Следуя этим критериям, команда профессиональных и независимых журналистов присваивает каждому новостному изданию «оценку доверия» от 0 до 100. Рейтинги не предоставляются отдельным лицам, сатирическому контенту или платформам социальных сетей, таким как Twitter, Facebook и YouTube. Источники новостей делятся на две группы в зависимости от их оценки: надежные (оценка доверия больше или равна 60) и сомнительные (оценка доверия менее 60). Порог устанавливается NewsGuard на основе критериев оценки.


Мы собрали только общедоступный контент из общедоступных аккаунтов Twitter. Набор данных включал все твиты, опубликованные выбранными аккаунтами в период с 1 января 2019 года по 11 ноября 2021 года, в результате чего было получено более 25 миллионов твитов. В таблице 2 представлена разбивка данных. Процент должностей каждой страны, вносящих вклад в общую сумму, показан в скобках.


Чтобы гарантировать, что наш анализ сосредоточен на темах, обсуждаемых на европейском уровне для сравнения между странами, мы применили фильтры по ключевым словам к нашему исходному набору данных. Мы разделили наш набор данных на три сегмента по одному году и отфильтровали каждый сегмент в соответствии со списком ключевых слов, связанных с наиболее обсуждаемой темой на европейском уровне в этом году. Статистику отфильтрованных данных можно найти в Таблице 3.


Таблица 1. Разбивка набора данных источников новостей NewsGuard по странам и надежности


Таблица 2. Объем твитов по странам и надежность


Для твитов в отфильтрованном наборе данных мы собрали все ретвиты. Подробную информацию о количестве оригинальных твитов и ретвитов по каждой теме можно найти в Таблице 3.


Таблица 3: Разбивка отфильтрованного набора данных по странам и темам.

Сети сходства


Наконец, мы исключили все узлы с нулевой степенью и удалили все ребра с весом ниже медианы всех весов ребер. Такой подход позволил нам выявить наиболее сильное сходство среди аудиторий новостных агентств, связанных с выбранными темами, в европейском контексте.

Тематическое моделирование

Мы использовали BERTopic, инструмент тематического моделирования, который извлекает скрытые темы из коллекции документов, чтобы выявить острые темы, распространенные во всех исследуемых странах. BERTopic — это модель top2vec, обобщенная для предварительно обученных преобразователей предложений (Grootendorst, 2022), которая недавно продемонстрировала многообещающие результаты в различных задачах. BERTopic генерирует связные кластеры документов в три этапа: 1) извлечение вложений документов; 2) кластеризация вложений; 3) создание представлений тем с использованием TF-IDF на основе классов (Саммут и Уэбб, 2011) (c-TF-IDF). На первом этапе можно использовать любые предварительно обученные языковые модели на основе преобразователей, что позволяет использовать самые современные методы внедрения. На втором этапе используется аппроксимация и проекция однородного многообразия (UMAP) для уменьшения размерности вложений (McInnes et al., 2018), а также иерархическая пространственная кластеризация приложений с шумом на основе плотности (HDBSCAN) для создания семантически схожих кластеров документов (McInnes et al., 2018). и др., 2017). Одна из тем настроена как «другие» и включает документы, не включенные в другие темы.


Этот документ доступен на arxiv под лицензией CC 4.0.


[1] https://developer.twitter.com/en/docs/twitter-api