382 讀數

对齐上限:来自人类反馈的强化学习中的目标不匹配

by
2024/01/16
featured image - 对齐上限:来自人类反馈的强化学习中的目标不匹配