该论文可在 arxiv 上根据 CC BY-NC-SA 4.0 DEED 许可获取。
作者:
(1)Yejin Bang,香港科技大学人工智能研究中心(CAiRE);
(2) Nayeon Lee,香港科技大学人工智能研究中心(CAiRE);
(3)冯廷哲,香港科技大学人工智能研究中心(CAiRE)。
基线我们与在多新闻数据集 (Fabbri et al., 2019) (BARTMULTI (Lewis et al., 2019) 和 PEGASUSMULTI (Zhang et al., 2019a)) 上训练的现成的多文档摘要 (MDS) 模型作为基线进行比较。这些模型在 MDS 中取得了高性能,也可以应用于总结两极分化的文章。然而,这些模型没有任何关于消除框架偏见或中性写作的学习。我们还与使用 ALLSIDES 数据集微调的最先进的模型 (BARTNEUSFT 和 BARTNEUSFT-T) (Lee et al., 2022) 进行了比较。BARTNEUSFT 仅使用文章进行微调,而 BARTNEUSFT-T 还利用了每篇文章的标题。我们还报告了 PEGASUSNEUSFT。简单的微调可能不足以有效地了解框架偏见。因此,我们将展示与基线和 SOTA 模型相比,极性最小化损失如何有效地减轻框架偏差。
通过极端极性进行有效学习我们发现,极端(左、右)之间的极性最小化比混合中心媒体更有效。这是因为左翼和右翼意识形态是相反的两端,虽然中心媒体并非完全没有偏见,但它们可以比中心媒体更有效地训练关于极端的模型。定性分析结果与定量指标一致。例如,如表 2 所示,极性最小化模型 LR-INFO 和 LRC-AROUSAL 都可以从极化的输入文章中总结出基本信息。特别是 LR-INFO,它是偏见最低的模型,甚至可以使用更中性的词语(例如,对于目标 Y,使用“抗议”而不是“暴乱”)。