直接偏好优化(DPO)是一种新颖的微调技术,由于其简单且易于实施而变得流行。它已成为 (RLHF) 的直接替代方案,用于大语言模型 (LLM) 微调,以符合人类偏好,这归因于其稳定性、性能和计算轻量级性质,无需从LM 微调期间。 DPO 可以达到与现有方法相同或更好的性能水平。 人类反馈强化学习 与利用 RLHF 的现有方法不同,DPO 将语言对齐过程重新构建为一个简单的损失函数,可以使用偏好数据集 {(x,yw,yl)} 直接优化,其中: • x 是提示符 • yw 是首选方法 • yl 是被拒绝的方法 与 RLHF 需要在优化过程中从语言模型中采样响应不同,在 DPO 中,不需要从正在优化的 LM 中采样响应。 DPO 如何运作? DPO的工作过程可以分为两个步骤。 在这一步中,模型根据相关数据进行微调。 有监督微调(SFT): 该模型根据偏好数据进行微调,这些数据最好来自与 SFT 示例相同的分布。 偏好学习: 与 RLHF 首先训练奖励模型进行策略优化不同,DPO 直接将偏好信息添加到优化过程中,而无需训练奖励模型的中间步骤。 DPO 使用 LLM 作为奖励模型,并采用二元交叉熵目标来优化策略,利用人类偏好数据来识别哪些响应是首选的,哪些不是。该政策根据首选反应进行调整,以提高其绩效。 监督微调 我们帮助您为法学硕士开发生成式人工智能应用程序,使它们具有多功能性并适应特定的用例。这涉及到向模型提供数据或示例以供学习和适应,因此我们为设计、测试、部署和提示交付提供及时的工程解决方案。我思。 在监督微调 (SFT) 中, 提供特定输入和所需输出之间的清晰映射。监督微调,尤其是偏好学习,用于塑造或调整模型的输出以匹配人类定义的标准,确保它们与特定要求紧密一致。 LLM 在标记数据集上进行训练,这些数据集 NLP 中的偏好数据 偏好数据是指与特定提示相关的一组精心选择的选项或替代方案。注释者根据某些准则评估这些选项。整个过程旨在根据人类偏好将这些选项从最偏好到最不偏好进行排名。然后,该排名用于微调模型,以生成符合人类期望的输出。 如何创建偏好数据 提示选择 提示是偏好数据的基石。选择提示的方法有多种 - 有些选择预定义的集合,而另一些则使用模板动态生成提示或选择预定义提示与从数据库中获取的随机提示的组合。 响应选择 下一步是确定响应提示的输出。这些响应可以从经过良好训练的模型版本或模型开发中的各种检查点生成。并非所有生成的响应都相同,答案的排名可能会有所不同。在二元排名系统中,每个答案被简单地分类为“最佳”或“最差”,而细粒度排名系统为每个答案分配分数(例如,1-5),从而允许更详细和细致的评估。 注释指南 注释指南对于确保排名系统标准化以最大限度地减少个人偏见和解释至关重要。 DPO 的好处 DPO 与 RLHF 相比具有以下诸多优点: 简单且易于实施 与 收集详细反馈、优化复杂策略和奖励模型训练的多层过程不同,DPO 直接将人类偏好集成到训练循环中。这种方法不仅消除了与过程相关的复杂性,而且更好地与预训练和微调的标准系统保持一致。此外,DPO 不涉及构建和调整奖励函数的复杂性。 RLHF 涉及 无需奖励模型训练 DPO 无需训练额外的奖励模型,从而节省了计算资源并消除了与奖励模型准确性和维护相关的挑战。开发一个有效的奖励模型,将人类反馈解释为人工智能可操作的信号是一项复杂的任务。它需要大量的努力并且需要定期更新才能准确地反映不断变化的人类偏好。 DPO 通过直接利用偏好数据来改进模型,从而完全绕过此步骤。 出众的表演 根据一项题为 。 “直接偏好优化:您的语言模型是秘密奖励模型 结论 直接性能优化是一种稳定、高效的微调技术,不需要过多的计算资源。与 RLHF 不同,DPO 不需要复杂的奖励模型,也不需要在微调时从语言模型中采样。 它不仅仅是一种新算法,而且是人工智能模型微调、简化和增强构建语言模型过程的游戏规则改变者,以更好地理解和满足人类需求。