作者:
(1) Rafael Rafailo,斯坦福大学,同等贡献;更多初级作者名单前面已列出;
(2)Archit Sharma,斯坦福大学,同等贡献;更多初级作者列于前面;
(3)Eric Mitchel,斯坦福大学,同等贡献;更多初级作者列于前面;
(4)Stefano Ermon,CZ Biohub;
(5)克里斯托弗·曼宁(Christopher D. Manning),斯坦福大学
(6)切尔西·芬恩,斯坦福大学。
数学推导
A.2 根据 Bradley-Terry 模型推导 DPO 目标
A.3 根据 Plackett-Luce 模型推导 DPO 目标
A.4 推导 DPO 目标函数的梯度和 A.5 引理 1 和 2 的证明
C 实验设置的更多细节和 C.1 IMDb 情绪实验和基线细节
D 额外的实证结果
D.1 最佳 N 基线对各种 N 的表现和 D.2 样本响应和 GPT-4 判断
随着规模的扩大,自监督语言模型开始学习零样本 [31] 或少量样本提示 [6, 25, 11] 来完成某些任务。但是,通过在指令和人工完成的数据集上进行微调,可以显著提高它们在下游任务上的表现以及与用户意图的一致性 [23, 36, 13, 39]。这种“指令调整”过程使 LLM 能够推广到指令调整集之外的指令,并普遍提高其可用性 [13]。尽管指令调整取得了成功,但人类对响应质量的相对判断通常比专家演示更容易收集,因此后续研究使用人类偏好数据集对 LLM 进行了微调,提高了翻译 [18]、总结 [38, 49]、讲故事 [49] 和指令遵循 [26, 32] 的能力。这些方法首先优化神经网络奖励函数,使其与偏好模型(如 Bradley-Terry 模型 [5])下的偏好数据集兼容,然后使用强化学习算法(通常是 REINFORCE [45]、近端策略优化(PPO;[37])或变体 [32])对语言模型进行微调,以最大化给定的奖励。一项密切相关的工作利用针对遵循人类反馈的指令进行了微调的 LLM,为安全或无害等目标属性生成额外的合成偏好数据 [2],同时仅使用来自人类的弱监督,以文本评分标准的形式对 LLM 的注释进行监督。这些方法代表了两部分工作的融合:一部分是关于使用强化学习训练语言模型以实现各种目标 [33, 27, 46],另一部分是关于从人类偏好中学习的一般方法 [12, 19]。尽管使用相对的人类偏好很有吸引力,但使用强化学习对大型语言模型进行微调仍然是一个重大的实际挑战;这项工作提供了一种理论上合理的方法来优化不使用 RL 的相对偏好。
在语言环境之外,在老虎机和强化学习环境中,从偏好中学习策略都得到了研究,并提出了几种方法。使用偏好或动作排名(而不是奖励)的情境老虎机学习被称为情境决斗老虎机 (CDB;[48, 14])。在没有绝对奖励的情况下,CDB 的理论分析用冯·诺依曼赢家取代了最优策略的概念,该策略对任何其他策略的预期胜率至少为 50% [14]。然而,在 CDB 设置中,偏好标签是在线给出的,而在从人类偏好中学习时,我们通常从固定的一批离线偏好注释动作对中学习 [47]。同样,基于偏好的强化学习 (PbRL) 从未知“评分”函数生成的二元偏好中学习,而不是从奖励中学习 [9, 35]。目前存在各种 PbRL 算法,包括可以重用离策略偏好数据的方法,但通常需要首先明确估计潜在评分函数(即奖励模型),然后对其进行优化 [16, 9, 12, 34, 19]。我们提出了一种单阶段策略学习方法,直接优化策略以满足偏好。