Авторы:
(1) Анес Бакир, Венецианский университет Ка Фоскари, Италия;
(2) Алессандро Галеацци, Венецианский университет Ка Фоскари, Италия;
(3) Фабиана Золло, Венецианский университет Ка Фоскари, Италия, и Центр экологических гуманитарных наук Нового института, Италия.
Данные были собраны с использованием официального Twitter API для академических исследований [1], который на момент сбора доступен ученым бесплатно. На основе списка учетных записей, полученного из набора данных NewsGuard (см. Таблицу 1), мы загрузили хронологии Twitter медиа-источников из Италии, Германии, Франции и Великобритании за три года с 2019 по 2021 год. NewsGuard — это инструмент, который оценивает надежность новостных агентств на основе девяти журналистских критериев. Следуя этим критериям, команда профессиональных и независимых журналистов присваивает каждому новостному изданию «оценку доверия» от 0 до 100. Рейтинги не предоставляются отдельным лицам, сатирическому контенту или платформам социальных сетей, таким как Twitter, Facebook и YouTube. Источники новостей делятся на две группы в зависимости от их оценки: надежные (оценка доверия больше или равна 60) и сомнительные (оценка доверия менее 60). Порог устанавливается NewsGuard на основе критериев оценки.
Мы собрали только общедоступный контент из общедоступных аккаунтов Twitter. Набор данных включал все твиты, опубликованные выбранными аккаунтами в период с 1 января 2019 года по 11 ноября 2021 года, в результате чего было получено более 25 миллионов твитов. В таблице 2 представлена разбивка данных. Процент должностей каждой страны, вносящих вклад в общую сумму, показан в скобках.
Чтобы гарантировать, что наш анализ сосредоточен на темах, обсуждаемых на европейском уровне для сравнения между странами, мы применили фильтры по ключевым словам к нашему исходному набору данных. Мы разделили наш набор данных на три сегмента по одному году и отфильтровали каждый сегмент в соответствии со списком ключевых слов, связанных с наиболее обсуждаемой темой на европейском уровне в этом году. Статистику отфильтрованных данных можно найти в Таблице 3.
Для твитов в отфильтрованном наборе данных мы собрали все ретвиты. Подробную информацию о количестве оригинальных твитов и ретвитов по каждой теме можно найти в Таблице 3.
Наконец, мы исключили все узлы с нулевой степенью и удалили все ребра с весом ниже медианы всех весов ребер. Такой подход позволил нам выявить наиболее сильное сходство среди аудиторий новостных агентств, связанных с выбранными темами, в европейском контексте.
Мы использовали BERTopic, инструмент тематического моделирования, который извлекает скрытые темы из коллекции документов, чтобы выявить острые темы, распространенные во всех исследуемых странах. BERTopic — это модель top2vec, обобщенная для предварительно обученных преобразователей предложений (Grootendorst, 2022), которая недавно продемонстрировала многообещающие результаты в различных задачах. BERTopic генерирует связные кластеры документов в три этапа: 1) извлечение вложений документов; 2) кластеризация вложений; 3) создание представлений тем с использованием TF-IDF на основе классов (Саммут и Уэбб, 2011) (c-TF-IDF). На первом этапе можно использовать любые предварительно обученные языковые модели на основе преобразователей, что позволяет использовать самые современные методы внедрения. На втором этапе используется аппроксимация и проекция однородного многообразия (UMAP) для уменьшения размерности вложений (McInnes et al., 2018), а также иерархическая пространственная кластеризация приложений с шумом на основе плотности (HDBSCAN) для создания семантически схожих кластеров документов (McInnes et al., 2018). и др., 2017). Одна из тем настроена как «другие» и включает документы, не включенные в другие темы.
Этот документ доступен на arxiv под лицензией CC 4.0.
[1] https://developer.twitter.com/en/docs/twitter-api