该论文可在 arxiv 上根据 CC BY-NC-SA 4.0 DEED 许可获取。
作者:
(1)Yejin Bang,香港科技大学人工智能研究中心(CAiRE);
(2) Nayeon Lee,香港科技大学人工智能研究中心(CAiRE);
(3)冯廷哲,香港科技大学人工智能研究中心(CAiRE)。
BERTSCORE-F1 为了评估显著信息,我们采用了基于 token 嵌入的指标 BERTSCORE-F1。我们使用 (Zhang* et al., 2020) 提供的预训练“microsoft/deberta-xlarge-mnli”版本作为最先进的检查点。
我们用 30 个随机选择的样本进行了评估。我们从两个模型中提供了两篇文章(随机顺序),以及描述文章内容的问题句子。然后,按照 Spinde 等人(2021 年);Lee 等人(2022 年)的方法,要求注释者回答“哪篇文章更有偏见?”的问题。我们为每个样本获取三个注释,并选择多数投票。由于许多测试样本与美国政治密切相关,我们招募了三名非美国公民/国民/居民,以尽量减少评估中涉及的任何政治偏见或个人偏好。这三位注释者都声称自己在政治倾向上是温和的,并且他们有资格用英语进行评估(他们都接受了英语高等教育)。
为了验证在成对文章中选择哪一篇有偏差不是随机的,在获得评估结果后进行了二项检验。零假设是“从 LR-INFO(我们提出的方法)生成的文章中选择偏差较小的文章是随机的”。然后,我们得到了 p 值 0.019,这拒绝了零假设(p < 0.05)。因此,从 LR-INFO 生成的文章中选择偏差较小的文章不是随机的。
当使用极性最小化损失训练模型时,它可以学会去除引起偏见的信息,而 BARTNEUSFT-T 则受到影响。如表 4 所示,我们的模型 LR-INFO 可以从关于“特朗普将在 CPAC 上发言”问题的摘要中删除引起偏见的信息“特朗普预计将攻击乔·拜登总统的移民政策”,而 BARTNEUSFTT 却无法删除它。