321 讀數

直接偏好优化:你的语言模型其实是一个奖励模型

by
2024/08/25
featured image - 直接偏好优化:你的语言模型其实是一个奖励模型