作者:
(1) Anees Baqir,意大利威尼斯卡弗斯卡里大学;
(2) Alessandro Galeazzi,意大利威尼斯卡福斯卡里大学;
(3) 法比亚娜·佐洛(Fabiana Zollo),意大利威尼斯卡福斯卡里大学及意大利新环境人文研究所中心。
数据是使用官方的 Twitter 学术研究 API [1] 收集的,该 API 在收集时可供学者免费使用。基于从 NewsGuard 数据集中检索到的账户列表(见表 1),我们下载了 2019 年至 2021 年三年间位于意大利、德国、法国和英国的媒体来源的 Twitter 时间线。NewsGuard 是一种根据九项新闻标准评估新闻机构可靠性的工具。按照这些标准,一个由专业和独立的记者组成的团队会为每个新闻机构分配 0 到 100 之间的“信任分数”。个人、讽刺内容或 Twitter、Facebook 和 YouTube 等社交媒体平台不提供评分。新闻来源根据其得分分为两类:可靠(信任分数大于或等于 60)和可疑(信任分数小于 60)。阈值由 NewsGuard 根据评估标准设定。
我们仅收集了公共 Twitter 帐户中公开的内容。数据集包括选定帐户在 2019 年 1 月 1 日至 2021 年 11 月 11 日期间发布的所有推文,总计 2500 多万条推文。表 2 报告了数据的细目。括号中显示了每个国家/地区的帖子占总量的百分比。
为了确保我们的分析集中在欧洲层面讨论的话题上,以便进行跨国比较,我们对原始数据集应用了关键字过滤器。我们将数据集分为三个一年的片段,并根据与该年欧洲层面讨论最多的话题相关的关键字列表过滤每个片段。过滤数据的统计数据可在表 3 中找到。
对于过滤后数据集中的推文,我们收集了所有转发。每个主题的原始推文和转发数量的详细信息可在表 3 中找到。
最后,我们排除了所有 0 度节点,并删除了所有权重低于所有边权重中值的所有边。这种方法使我们能够捕捉到与欧洲背景下选定主题相关的新闻媒体受众之间的最强相似性。
我们利用 BERTopic(一种主题建模工具,可从文档集合中提取潜在主题)来确定所有受检国家/地区中流行的热门主题。BERTopic 是一种针对预训练句子转换器 (Grootendorst, 2022) 进行推广的 top2vec 模型,最近在各种任务中都表现出了良好的效果。BERTopic 通过三个步骤生成连贯的文档集群:1) 提取文档嵌入;2) 对嵌入进行聚类;3) 使用基于类的 TF-IDF(Sammut and Webb, 2011)(c-TF-IDF)创建主题表示。在第一步中,可以使用任何预训练的基于转换器的语言模型,从而允许使用最先进的嵌入技术。第二步采用均匀流形近似和投影 (UMAP) 来降低嵌入的维度 (McInnes et al., 2018),并使用基于密度的层次化空间聚类 (HDBSCAN) 来生成语义相似的文档聚类 (McInnes et al., 2017)。其中一个主题设置为“其他”,并包含未包含在不同主题中的文档。
[1] https://developer.twitter.com/en/docs/twitter-api