paint-brush
多语言媒体粗略政治立场分类:语料库汇编by@mediabias
216

多语言媒体粗略政治立场分类:语料库汇编

在本文中,研究人员使用真实的新闻媒体评级来分析人工智能生成的新闻文章在不同语言中的中立性和立场演变。
featured image - 多语言媒体粗略政治立场分类:语料库汇编
Media Bias [Deeply Researched Academic Papers] HackerNoon profile picture
0-item

该论文可在 arxiv 上根据 CC BY-NC-SA 4.0 DEED 许可获取。

作者:

(1)Cristina España-Bonet,DFKI GmbH,萨尔信息学园区。

链接表

2. 语料库建设

我们将任务视为一个包含两个类别的分类问题:左派 (L) 和右派 (R) 政治倾向。这是对真实问题的简化,其中文章也可能是中立的,并且可能存在不同程度的偏见。以前的工作依赖于 3 或 5 个类别,始终包括中立选项(Baly 等人,2020 年;Aksenov 等人,2021 年)。在这些工作中,数据是手动注释的,从而创建了高质量的训练数据,但也在语言和国家/地区方面限制了工作范围。当使用细粒度分类量表时,作者承认分类器对新来源的概括性很差。另一方面,García-Díaz 等人 (2022) 和 Russo 等人 (2023) 排除了中立类,分别对西班牙和意大利政客的推文进行二元或多类左-右分类,但他们的工作不包括较长的文本。二元分类可能是合理的,因为他们研究的是推文,而推文是一种人们更倾向于本能反应的类型,因此可能更加两极分化。在我们的案例中,我们需要确保分类器能够很好地推广到看不见的来源,并且我们坚持 2 类任务,同时尽量减少训练中的中性文章数量(见下文)。


远程监督。据我们所知,只有一个手动注释的英文报纸语料库(Baly 等人,2020 年)和另一个德文报纸语料库(Aksenov 等人,2021 年)可用。我们遵循 Kulkarni 等人(2018 年)和 Kiesel 等人(2019 年)的精神,采取了不同的方法。我们不手动注释任何文章,但我们相信 AllSides、MB/FC、Political Watch 和维基百科(后者仅在前几个网站没有信息的情况下)对报纸偏见的分类。我们提取了美国、德国、西班牙和加泰罗尼亚报纸的这些信息。有了报纸列表、它们的 URL[4] 和它们的立场,我们使用 OSCAR(一个通过过滤 Common Crawl(Ortiz Suárez 等人,2019 年;Abadji 等人,2021 年)获得的多语言语料库)来检索文章。附录 A 列出了本文所使用的资料来源:47 家美国报纸(共 742,691 篇文章)、12 家德国报纸(共 143,200 篇文章)、38 家西班牙报纸(共 301,825 篇文章)和 19 家加泰罗尼亚报纸(共 70,496 篇文章)。


主题建模。并非所有文章都有偏见,有些主题比其他主题更容易出现偏见。虽然报纸的体育版块通常不太容易反映政治偏见,但国际版块的情况则相反。因此,我们使用主题来选择相关训练数据的子集,用于我们的二元分类。我们使用 Mallet(McCallum,2002)对从 OSCAR 中提取的文章进行主题建模,该模型应用了带有吉布斯抽样的 LDA。我们将数据聚类为每种语言的 10 和 15 组,大致对应于报纸的部分数量。附录 B 列出了为每个主题提取的关键字。我们选择属于我们标记为国际、政府、法律与正义、经济、生活科学/生态学的主题的文章,以及特定的语言相关主题,例如英语的移民和暴力、德语的纳粹主义和西班牙语的社会。选择是在检查关键字之后进行的。对于最终数据集,我们将选定的文章合并为 10 和 15 个主题。该过程过滤掉了 49% 的西班牙语冠词、39% 的德语冠词和 31% 的英语冠词。


预处理和清理。在清理之前,我们会丢弃超过 2000 个单词或少于 20 个单词的文章。之后,我们会删除页眉、页脚和检测到的任何样板文本。这些文本可能会误导神经分类器,因为它可能会鼓励分类器学习区分报纸,而不是关注它们的政治立场。我们为每种语言和立场选择一份报纸进行测试,并手动清理其文章。为了为每种语言创建平衡的训练语料库,我们从剩余的集合中随机选择类似数量的左派和右派文章。这个平衡的数据集分为训练和验证,如表 1(顶行)所示。


ChatGPT/Bard Corpus。我们创建了一个包含 101 篇文章的多语言数据集。为此,我们定义了 101 个主题,包括房价、堕胎、烟草、巴拉克·奥巴马等,并将它们手动翻译成 4 种语言(见附录 D)。主题考虑容易有政治立场的话题,例如与女权主义、资本主义、生态主义、技术等相关的话题。我们还包括所考虑的 4 个国家/地区的人的专有名称,他们的传记可能因作者的政治立场而异。这些主题被插入到模板提示中(及其德语、西班牙语和加泰罗尼亚语的翻译):[5] 撰写关于 [SUBJECT]en 的报纸文章


表 1:按左 (L) 和右 (R) 方向划分的报纸文章数量(括号中为平均字数)。为了进行测试,我们使用在训练或验证中未见过的报纸:美国的 Slate (L) 和 The National Pulse (R),德国的 My Heimat (L) 和 die Preußische Allgemeine Zeitung (R),


我们使用相同的主题在四个时间段内对 ChatGPT (GPT-3.5-Turbo) 进行了五次提示。我们使用 2 月 13 日 (v02)、3 月 23 日 (v03)、5 月 24 日 (v05) 和 8 月 3 日 (v08) 版本的 ChatGPT 生成数据集;我们仅使用后两种语言同时涵盖这四种语言。ChatGPTv05 生成的文本比其他版本长得多,具有面向文章的结构,其中的空格可填充作者姓名、日期和/或城市。Multilingual Bard 后来推出,我们在与 ChatGPTv8 相同的时间段内对其进行了两次提示。[6] 表 1 显示了此语料库的统计数据。




[4] 这意味着选择某个新闻机构域名下的所有文章,无论它们是否是新闻。


[5] 更具体的提示并没有导致 ChatGPT 的第一个版本风格不同,对于最后一个版本,我们添加了更多信息,例如...没有副标题。以避免过多的子部分和/或项目符号。ChatGPT 和 Bard 都没有始终正确遵循指令。我们提供的数据集包括我们使用的提示。


[6] 2023 年 8 月 14 日至 21 日,柏林发起英语和德语的讨论,巴塞罗那发起西班牙语和加泰罗尼亚语的讨论,与 ChatGPT 相反,生成取决于地点。