Авторы:  (1) Анес Бакир, Венецианский университет Ка Фоскари, Италия;  (2) Алессандро Галеацци, Венецианский университет Ка Фоскари, Италия;  (3) Фабиана Золло, Венецианский университет Ка Фоскари, Италия, и Центр экологических гуманитарных наук Нового института, Италия.  Таблица ссылок   Аннотация и введение   Материалы и методы   Результаты и обсуждение   Выводы и ссылки   Дополнительная информация  2. Материалы и методы  Сбор и обработка данных  Данные были собраны с использованием официального Twitter API для академических исследований [1], который на момент сбора доступен ученым бесплатно. На основе списка учетных записей, полученного из набора данных NewsGuard (см. Таблицу 1), мы загрузили хронологии Twitter медиа-источников из Италии, Германии, Франции и Великобритании за три года с 2019 по 2021 год. NewsGuard — это инструмент, который оценивает надежность новостных агентств на основе девяти журналистских критериев. Следуя этим критериям, команда профессиональных и независимых журналистов присваивает каждому новостному изданию «оценку доверия» от 0 до 100. Рейтинги не предоставляются отдельным лицам, сатирическому контенту или платформам социальных сетей, таким как Twitter, Facebook и YouTube. Источники новостей делятся на две группы в зависимости от их оценки: надежные (оценка доверия больше или равна 60) и сомнительные (оценка доверия менее 60). Порог устанавливается NewsGuard на основе критериев оценки.  Мы собрали только общедоступный контент из общедоступных аккаунтов Twitter. Набор данных включал все твиты, опубликованные выбранными аккаунтами в период с 1 января 2019 года по 11 ноября 2021 года, в результате чего было получено более 25 миллионов твитов. В таблице 2 представлена разбивка данных. Процент должностей каждой страны, вносящих вклад в общую сумму, показан в скобках.  Чтобы гарантировать, что наш анализ сосредоточен на темах, обсуждаемых на европейском уровне для сравнения между странами, мы применили фильтры по ключевым словам к нашему исходному набору данных. Мы разделили наш набор данных на три сегмента по одному году и отфильтровали каждый сегмент в соответствии со списком ключевых слов, связанных с наиболее обсуждаемой темой на европейском уровне в этом году. Статистику отфильтрованных данных можно найти в Таблице 3.   Для твитов в отфильтрованном наборе данных мы собрали все ретвиты. Подробную информацию о количестве оригинальных твитов и ретвитов по каждой теме можно найти в Таблице 3.   Сети сходства   Наконец, мы исключили все узлы с нулевой степенью и удалили все ребра с весом ниже медианы всех весов ребер. Такой подход позволил нам выявить наиболее сильное сходство среди аудиторий новостных агентств, связанных с выбранными темами, в европейском контексте.  Тематическое моделирование  Мы использовали BERTopic, инструмент тематического моделирования, который извлекает скрытые темы из коллекции документов, чтобы выявить острые темы, распространенные во всех исследуемых странах. BERTopic — это модель top2vec, обобщенная для предварительно обученных преобразователей предложений (Grootendorst, 2022), которая недавно продемонстрировала многообещающие результаты в различных задачах. BERTopic генерирует связные кластеры документов в три этапа: 1) извлечение вложений документов; 2) кластеризация вложений; 3) создание представлений тем с использованием TF-IDF на основе классов (Саммут и Уэбб, 2011) (c-TF-IDF). На первом этапе можно использовать любые предварительно обученные языковые модели на основе преобразователей, что позволяет использовать самые современные методы внедрения. На втором этапе используется аппроксимация и проекция однородного многообразия (UMAP) для уменьшения размерности вложений (McInnes et al., 2018), а также иерархическая пространственная кластеризация приложений с шумом на основе плотности (HDBSCAN) для создания семантически схожих кластеров документов (McInnes et al., 2018). и др., 2017). Одна из тем настроена как «другие» и включает документы, не включенные в другие темы.  Этот документ   под лицензией CC 4.0. доступен на arxiv  [1] https://developer.twitter.com/en/docs/twitter-api

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Tech NewsByte

NewsByte

Этот звук создан на языке оригинала истории!

Новости и потребление дезинформации в Европе: материалы и методы

About Author

КОММЕНТАРИИ

БИРКИ

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В

Related Stories

Valhalla Флоки станет ассоциированным спонсором индийского тура по Шри-Ланке

Краткое введение в теорию мозга Больцмана

Раскрытие силы ИИ. Систематический обзор передовых методов: Краткое содержание и введение

Создание криптопродуктов, ориентированных на пользователя: важность отзывов клиентов

Valhalla Флоки станет ассоциированным спонсором индийского тура по Шри-Ланке

Краткое введение в теорию мозга Больцмана

Раскрытие силы ИИ. Систематический обзор передовых методов: Краткое содержание и введение

Создание криптопродуктов, ориентированных на пользователя: важность отзывов клиентов

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps