作者:
(1) 内森·兰伯特 (Nathan Lambert),艾伦人工智能研究所;
(2) 罗伯托·卡兰德拉,德累斯顿工业大学。
基于人类反馈的强化学习 (RLHF) 已成为一种强大的技术,可以使大型语言模型 (LLM) 更容易提示并且在复杂环境中更有能力。 RLHF 的核心是提供一个新的工具包来优化 LLM,而不是下一个令牌预测,从而实现定性培训目标的整合。用户偏好和下游性能之间的尝试匹配(发生在学习奖励模型中)导致训练和评估指标可以出现相关的优化环境。这种明显的相关性可能会导致意想不到的行为和“太多 RLHF”的故事。在 RLHF 中,由于以下子模块彼此不一致而出现挑战:奖励模型训练、策略模型训练和策略模型评估。这种不匹配导致模型有时通过错误的安全标志来避免用户请求,难以引导到预期的特征,或者总是以特定的风格回答。随着聊天模型评估变得越来越细致,对奖励模型得分和下游绩效之间感知联系的依赖会导致客观不匹配问题。在本文中,我们阐述了这个问题的原因,回顾了基于模型的强化学习的相关文献,并讨论了相关的解决方案以鼓励进一步的研究。通过解决 RLHF 中的目标不匹配问题,未来的法学硕士将更精确地与用户说明保持一致,以确保安全性和实用性
来自人类反馈的强化学习(RLHF)是将定性风格和价值观集成到大型机器学习模型中的强大工具(Bai 等人,2022;Christiano 等人,2017;Ouyang 等人,2022)。 RLHF 因其用于将人类价值观集成到大型语言模型 (LLM) 中以调整聊天工具而广受欢迎(Schulman、Zoph、Kim 等,2022)。在此过程中,RLHF 已成为使模型更好地响应用户请求的过程中的一项重要技术,通常称为指令调整、可操纵性、聊天模型等。RLHF 方法通常按以下两步过程运行:训练基本语言模型时,首先他们学习人类偏好模型作为奖励函数,其次他们在强化学习(RL)优化循环中使用该模型。在 RLHF 过程中,这两个步骤通常是独立执行的,根据人类偏好数据训练准确的奖励模型,然后使用 RL 优化器将最大信息提取到聊天模型中。使用 RLHF 训练的现代法学硕士面临的一个常见挑战是难以从模型中提取预期行为。有时,模型会出于安全原因拒绝善意的请求,而有时它们需要巧妙的及时调整才能充分发挥性能。
在本文中,我们详细介绍了现代 RLHF 学习方案中的一个基本挑战:目标不匹配问题。在RLHF中,训练的三个重要部分在数值上解耦:评估指标的设计、奖励模型的训练和生成模型的训练。奖励模型和强化学习训练之间的这种不匹配如图 1 所示,但评估目标和模拟人类价值观之间还存在其他联系。具体来说,有很多途径可以更好地使奖励模型训练与偏好量化中的文献保持一致(Lambert、Gilbert 和 Zick,2023),并且 RLHF 实践中需要解决基本的优化挑战(Casper 等人,2023)。 ChatGPT 是使用 RLHF 训练的最受欢迎的模型,它通过冗长、自我怀疑和拒绝提问、重复短语、对冲等问题显示出这种局限性(Schulman,2023)。这些过度优化的特征是微妙的代理目标问题的结果,目标不匹配为研究和解决提供了一个框架——奖励模型将超额价值归因于对用户利益没有贡献的短语,强化学习优化器会利用这些短语,例如安全标志。另一方面,当前的训练设置与评估工具并不完全一致,因为 RLHF 模型仍然需要复杂的提示技术,例如“一步一步思考”(J. Wei 等,2022)或“深呼吸” ”(Yang 等人,2023)以达到最佳性能。解决目标不匹配问题将消除对这些先进技术的需求,并减少法学硕士超出范围拒绝的可能性。
短语“目标不匹配”源自基于模型的强化学习 (MBRL),其中代理迭代地学习动态模型,随后使用该模型来解决控制任务(Lambert、Amos、Yadan 和 Calandra,2020;R. Wei、Lambert,麦克唐纳、加西亚和卡兰德拉,2023)。在这种情况下,不匹配在于学习准确的动态模型而不是针对高任务奖励进行优化的模型。在 RLHF 中,问题是相关的,但复杂性增加了,因为奖励模型针对封闭分布上的偏好数据进行了优化,而封闭分布与最终用户不匹配。其次,开放式语言生成的任务不像强化学习控制策略那样具体地涉及奖励概念。由于这些原因,正如我们在本文中探讨的那样,客观不匹配问题对于 RLHF 来说更加微妙和关键。
在这份立场文件中,我们做出了三项贡献:
• 清楚地解释聊天调整的法学硕士中客观不匹配的根源和潜在表现,
• 将 NLP 和 RL 文献中关于目标不匹配的相关工作联系起来,
• 提出研究方向以解决不匹配问题并促进更好的RLHF 实践。
本文可在 CC 4.0 许可下在 arxiv 上获取。