该论文可在 arxiv 上根据 CC BY-NC-SA 4.0 DEED 许可获取。
作者:
(1)Cristina España-Bonet,DFKI GmbH,萨尔信息学园区。
我们将任务视为一个包含两个类别的分类问题:左派 (L) 和右派 (R) 政治倾向。这是对真实问题的简化,其中文章也可能是中立的,并且可能存在不同程度的偏见。以前的工作依赖于 3 或 5 个类别,始终包括中立选项(Baly 等人,2020 年;Aksenov 等人,2021 年)。在这些工作中,数据是手动注释的,从而创建了高质量的训练数据,但也在语言和国家/地区方面限制了工作范围。当使用细粒度分类量表时,作者承认分类器对新来源的概括性很差。另一方面,García-Díaz 等人 (2022) 和 Russo 等人 (2023) 排除了中立类,分别对西班牙和意大利政客的推文进行二元或多类左-右分类,但他们的工作不包括较长的文本。二元分类可能是合理的,因为他们研究的是推文,而推文是一种人们更倾向于本能反应的类型,因此可能更加两极分化。在我们的案例中,我们需要确保分类器能够很好地推广到看不见的来源,并且我们坚持 2 类任务,同时尽量减少训练中的中性文章数量(见下文)。
远程监督。据我们所知,只有一个手动注释的英文报纸语料库(Baly 等人,2020 年)和另一个德文报纸语料库(Aksenov 等人,2021 年)可用。我们遵循 Kulkarni 等人(2018 年)和 Kiesel 等人(2019 年)的精神,采取了不同的方法。我们不手动注释任何文章,但我们相信 AllSides、MB/FC、Political Watch 和维基百科(后者仅在前几个网站没有信息的情况下)对报纸偏见的分类。我们提取了美国、德国、西班牙和加泰罗尼亚报纸的这些信息。有了报纸列表、它们的 URL[4] 和它们的立场,我们使用 OSCAR(一个通过过滤 Common Crawl(Ortiz Suárez 等人,2019 年;Abadji 等人,2021 年)获得的多语言语料库)来检索文章。附录 A 列出了本文所使用的资料来源:47 家美国报纸(共 742,691 篇文章)、12 家德国报纸(共 143,200 篇文章)、38 家西班牙报纸(共 301,825 篇文章)和 19 家加泰罗尼亚报纸(共 70,496 篇文章)。
主题建模。并非所有文章都有偏见,有些主题比其他主题更容易出现偏见。虽然报纸的体育版块通常不太容易反映政治偏见,但国际版块的情况则相反。因此,我们使用主题来选择相关训练数据的子集,用于我们的二元分类。我们使用 Mallet(McCallum,2002)对从 OSCAR 中提取的文章进行主题建模,该模型应用了带有吉布斯抽样的 LDA。我们将数据聚类为每种语言的 10 和 15 组,大致对应于报纸的部分数量。附录 B 列出了为每个主题提取的关键字。我们选择属于我们标记为国际、政府、法律与正义、经济、生活科学/生态学的主题的文章,以及特定的语言相关主题,例如英语的移民和暴力、德语的纳粹主义和西班牙语的社会。选择是在检查关键字之后进行的。对于最终数据集,我们将选定的文章合并为 10 和 15 个主题。该过程过滤掉了 49% 的西班牙语冠词、39% 的德语冠词和 31% 的英语冠词。
预处理和清理。在清理之前,我们会丢弃超过 2000 个单词或少于 20 个单词的文章。之后,我们会删除页眉、页脚和检测到的任何样板文本。这些文本可能会误导神经分类器,因为它可能会鼓励分类器学习区分报纸,而不是关注它们的政治立场。我们为每种语言和立场选择一份报纸进行测试,并手动清理其文章。为了为每种语言创建平衡的训练语料库,我们从剩余的集合中随机选择类似数量的左派和右派文章。这个平衡的数据集分为训练和验证,如表 1(顶行)所示。
ChatGPT/Bard Corpus。我们创建了一个包含 101 篇文章的多语言数据集。为此,我们定义了 101 个主题,包括房价、堕胎、烟草、巴拉克·奥巴马等,并将它们手动翻译成 4 种语言(见附录 D)。主题考虑容易有政治立场的话题,例如与女权主义、资本主义、生态主义、技术等相关的话题。我们还包括所考虑的 4 个国家/地区的人的专有名称,他们的传记可能因作者的政治立场而异。这些主题被插入到模板提示中(及其德语、西班牙语和加泰罗尼亚语的翻译):[5] 撰写关于 [SUBJECT]en 的报纸文章
我们使用相同的主题在四个时间段内对 ChatGPT (GPT-3.5-Turbo) 进行了五次提示。我们使用 2 月 13 日 (v02)、3 月 23 日 (v03)、5 月 24 日 (v05) 和 8 月 3 日 (v08) 版本的 ChatGPT 生成数据集;我们仅使用后两种语言同时涵盖这四种语言。ChatGPTv05 生成的文本比其他版本长得多,具有面向文章的结构,其中的空格可填充作者姓名、日期和/或城市。Multilingual Bard 后来推出,我们在与 ChatGPTv8 相同的时间段内对其进行了两次提示。[6] 表 1 显示了此语料库的统计数据。
[4] 这意味着选择某个新闻机构域名下的所有文章,无论它们是否是新闻。
[5] 更具体的提示并没有导致 ChatGPT 的第一个版本风格不同,对于最后一个版本,我们添加了更多信息,例如...没有副标题。以避免过多的子部分和/或项目符号。ChatGPT 和 Bard 都没有始终正确遵循指令。我们提供的数据集包括我们使用的提示。
[6] 2023 年 8 月 14 日至 21 日,柏林发起英语和德语的讨论,巴塞罗那发起西班牙语和加泰罗尼亚语的讨论,与 ChatGPT 相反,生成取决于地点。