paint-brush
多语种媒体粗略政治立场分类:政治立场分类经过@mediabias
207 讀數

多语种媒体粗略政治立场分类:政治立场分类

太長; 讀書

在本文中,研究人员使用真实的新闻媒体评级来分析人工智能生成的新闻文章在不同语言中的中立性和立场演变。
featured image - 多语种媒体粗略政治立场分类:政治立场分类
Media Bias [Deeply Researched Academic Papers] HackerNoon profile picture
0-item

该论文可在 arxiv 上根据 CC BY-NC-SA 4.0 DEED 许可获取。

作者:

(1)Cristina España-Bonet,DFKI GmbH,萨尔信息学园区。

链接表

3. 政治立场分类

网络。**我们对 XLM-RoBERTa large (Conneau 等人,2020) 进行了微调,这是一个基于多语言 Transformer 的 Masked LM,经过 100 种语言的训练,包括我们考虑的 4 种语言。网络的详细信息和每个模型的超参数探索在附录 F 中报告。


模型。我们训练了 4 个模型:3 个单语微调模型,使用英语、德语和西班牙语数据,以及一个多语种模型,使用数据进行混洗连接。所有模型均基于多语种嵌入 (RoBERTa),可单语或多语种进行微调。请注意,我们没有训练任何加泰罗尼亚语模型。借助此模型,我们想比较单语和多语种微调的性能,并探索使用多语种模型进行零样本语言迁移的可能性。


报纸文章粗分类。表 2 总结了结果。所有模型在从与训练数据相同的分布中提取的验证集上都实现了超过 95% 的准确率。为了了解模型如何处理未见数据,我们计算了表 1 的测试报纸中被归类为左派 (L) 和右派 (R) 的文章百分比。我们对测试集进行引导重采样,使用 1000 个引导程序获得 95% 水平的置信区间。我们并不期望一份倾向于左派的报纸的所有文章都表现出明显的左派特征,但鉴于没有中立类别,我们预计其中大多数文章会被归类为左派。好的结果不一定是 100%–0%,因为这也不现实。我们认为,如果一份报纸中有超过 50% 的文章被归类为左派/右派政治立场,那么该报纸就被归类为具有左派/右派政治立场。这些情况在表 2 中以粗体显示。


这是我们在所有测试报纸(德国右翼报纸 die Preußische Allgemeine Zeitung (PAZ) 除外)上获得的行为。德国模型仅针对 12 份报纸进行训练,以与 47 份英文报纸和 38 份西班牙文报纸进行比较。错误分类可能表明多样性是最终模型性能的关键方面。多语言性没有帮助,65% 的 PAZ 文章仍然被归类为左翼。我们还评估了英语模型对德语数据(两种相近的语言)的有效性。我们承认美国和德国报纸的主题可能有很大差异,但英语训练数据的高度多样性可能会弥补这一点。英语模型能够正确地将德语 My Heimat 归类为左翼报纸(L:67±3%),将 PAZ 归类为右翼报纸(R:58±5%)。我们再次将差异归因于德国模型是在缺乏多样性的语料库上进行训练的。当我们使用多语言系统时,区分输出的主要因素是语言本身,而不是立场。添加英语数据不足以显著改变分类。当我们使用英语系统时,语言不再发挥作用,只考虑立场特征。当我们将英语模型应用于加泰罗尼亚报纸时,我们并没有获得令人满意的结果(左翼报纸为 95±1%,右翼报纸为 16±3%),这表明跨语言的相关性很重要。然而,多语言模型正确地检测出了加泰罗尼亚报纸的立场,这可能是因为它已经用包含相关语言(西班牙语)的异构语料库进行了训练。当我们处理密切相关的语言时,我们能够执行零样本语言迁移分类。


表 2:(顶部)4 个微调模型在相应验证集上的准确率。(底部)测试报纸和 Bard/ChatGPT 在四个不同时间段生成的文章中被归类为具有左 (L) 和右 (R) 方向的文章百分比(列)(行)。多数立场以粗体显示。


使用 ILM 生成的文章进行粗分类。表 2 的底部详细说明了结果。我们首先关注英语和西班牙语模型,因为德语模型没有正确分类我们的测试报纸。ChatGPT 中最值得注意的方面是 2 月(v02)和 5 月(v05)之间政治立场的强烈变化,随后 8 月(v08)转向中立。我们检查发现这种极性变化不是输出长度的影响——生成文章的主要浅层变化。英语训练数据有 5,730L–6,988 R 文章,其中 584<长度(单词)<624(类似于 ChatPGTv05 长度)和 4,563 L-7,127 R 文章,其中 331<长度<371(类似于 ChatGPtv02)。在这两种情况下,右派立场的文章数量都比较多,但 ChatGPTv02 的预测明显指向左派,拒绝了长度在分类中起作用的假设。西班牙语也发生了类似的事情。根据我们的模型,5 月 24 日的社论路线接近右派意识形态,这与之前版本的意识形态不同。值得注意的是,根据 Chen 等人 (2003) 的说法,这一时期对应于几项任务的下降。德语和加泰罗尼亚语的输出在 v05 中仍然会显示出左派意识形态的印记,但需要更多样化的训练数据来用我们的单语模型证实这一点。有趣的是,如果我们对德语和加泰罗尼亚语使用英语单语模型,我们仍然会得到左派印记(德语为 60±10%,加泰罗尼亚语为 87±7%)。因此,我们有迹象表明 ChatGPT 的政治立场取决于语言,这在数据驱动的系统中并不奇怪。最新版本 ChatGPTv08 产生的文本最为中立,只有德语明显偏左。v08a 和 v08b 这两代表明结果稳健,且与特定代无关。


多语言版 Bard 只有一个版本可以覆盖我们的时间范围。[7] Bard 在不同代际之间的差异比 ChatGPT 更大,但与 v08 版本相比,Bard 在各种语言中更一致地指向左派。Bard 的政治倾向也可以通过其对政治测试或测验问题的答案来确定。政治指南针 (PC) 网站[8] 定义了 62 个命题来识别政治意识形态——具有欧洲/西方观点——在两个轴线上:经济政策(左翼-右翼)和社会政策(威权主义-自由主义),范围都在 [-10,10]。每个命题后面跟着 4 个备选方案:非常同意、同意、不同意和非常不同意。在问卷调查中,[9] Bard 的英语得分为 (-6.50, -4.77),德语得分为 (-8.00, -7.13),西班牙语得分为 (-5.75, -4.15),加泰罗尼亚语得分为 (-6.75, -4.56),其中第一个数字对应经济政策,第二个数字对应社会政策。结果与表 2 一致,并间接验证了我们不依赖直接提问的方法。[10]


ChatGPT 不再能进行这种分析,因为它避免表达意见和偏好,这表明以更间接的方式检测倾向的方法是有意义的。还请注意,这些问卷是众所周知且公开的,因此很容易指示 LM 避免回答问题或以中立的方式对其主张做出反应。以前的研究只使用政治测试和问卷来估计 ChatGPT 的倾向。Hartmann 等人 (2023) 使用 PC、来自投票建议应用程序 Wahl-O-Mat(德国)的 38 条政治声明和来自 StemWijzer(荷兰)的 30 条政治声明得出结论,ChatGPT 在其 2022 年 12 月 15 日版本中的意识形态是支持环境和左翼自由主义的。


曼哈顿政策研究所[11]开展的一项研究报告称,ChatGPT 倾向于给出典型的英语中左翼政治观点的回应(Rozado,2023 年)。作者对 1 月 9 日的 ChatGPT 版本进行了 15 项政治倾向测试。他们的结果与我们对 2 月 13 日模型的评估一致。最后,Motoki 等人(2023 年)进行了一系列基于 PC 的测试,以表明 ChatGPT 强烈偏向左翼。作者没有说明他们使用的版本,但这项工作是在 2023 年 3 月提交的。因此,所有这些结果都是在我们 5 月检测到的向右移动之前得出的。




[7] 请注意,我们使用的版本并不正式支持加泰罗尼亚语,但母语人士证实,各代翻译大多正确、流利,几乎没有语法错误。


[8] https://www.politicalcompass.org/test(2023 年 8 月 13 日至 20 日访问)


[9] 由于问卷不可用,西班牙语问卷被翻译成加泰罗尼亚语。


[10] 尽管与人类似,ILM 可能会说一套话(选择一个命题的选项),但做一套事(写一篇文章)。


[11] 根据维基百科,这是一个保守派智库。