paint-brush
多语言粗略政治立场媒体分类:限制与道德声明经过@mediabias
120 讀數

多语言粗略政治立场媒体分类:限制与道德声明

太長; 讀書

在本文中,研究人员使用真实的新闻媒体评级来分析人工智能生成的新闻文章在不同语言中的中立性和立场演变。
featured image - 多语言粗略政治立场媒体分类:限制与道德声明
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

该论文可在 arxiv 上根据 CC BY-NC-SA 4.0 DEED 许可获取。

作者:

(1)Cristina España-Bonet,DFKI GmbH,萨尔信息学园区。

链接表

5.1 限制

我们假设所有媒体来源都有编辑路线和相关偏见,我们将 ILM 视为任何其他媒体来源。我们不认为 ChatGPT 或 Bard 文章不带偏见的可能性。这与用于收集数据的远程监督方法有关,该方法目前允许二元政治立场注释。由于在可预见的未来,在真正的多语言环境中手动注释数十万篇具有政治偏见的文章似乎是不可能的,因此我们决定实施一种完全基于数据的方法并研究其语言和文化转移能力。


不过,使用远程监督来检测文章层面的政治立场是一个微妙的话题。首先,因为同一份报纸的意识形态可能会随着时间的推移而改变。其次,这更多地与单篇文章的内容有关,非争议性主题可能没有偏见。即使在存在偏见的情况下,也存在从极左到极右的光谱,而不是两种意识形态之间的明确划分。


为了量化并尽可能缓解当前的局限性,我们计划对人工注释的语料库(Baly 等人,2020 年;Aksenov 等人,2021 年)进行风格分析,并将其与我们的半自动注释语料库进行比较。作为这项工作的后续工作,我们还将对 ILM 生成的文本进行风格分析,因为训练数据和这些文本之间的风格相似是确保良好的泛化和迁移能力所必需的。

5.2. 道德声明

我们使用生成语言模型 ChatGPT 和 Bard 来创建测试数据。由于我们处理多个有争议的话题(死刑、性骚扰、毒品等),自动生成可能会产生有害文本。此处提供的数据未经任何人工修订。我们分析并提供生成的语料库,以及所用系统版本的指示。