234 測定値

直接的な嗜好最適化: 言語モデルは実は報酬モデルである

に Writings, Papers and Blogs on Text Models5m2024/08/25

長すぎる; 読むには

直接嗜好最適化 (DPO) は、言語モデルを人間の嗜好に合わせるための強化学習に代わる、よりシンプルで安定した代替手段を導入します。報酬モデリングや複雑なトレーニング手順の必要性を排除することで、DPO は、特に感情変調、要約、対話タスクにおいて、PPO ベースの RLHF などの既存の方法と同等かそれ以上のパフォーマンスを実現する効率的な微調整を提供します。

featured image - 直接的な嗜好最適化: 言語モデルは実は報酬モデルである

著者:

（１）ラファエル・ラファイロ、スタンフォード大学、同等の貢献；より若い著者は前述；

（２）スタンフォード大学のアーチット・シャルマ氏と同等の貢献。さらに若い著者は先に挙げた。

（３）エリック・ミッチェル、スタンフォード大学、同等の貢献。さらに若手著者は前述。

（4）ステファノ・エルモン、CZバイオハブ

（５）クリストファー・D・マニング、スタンフォード大学

（6）チェルシー・フィン、スタンフォード大学

リンク一覧

数学的導出

A.1 KL制約付き報酬最大化目標の最適値の導出

A.2 ブラッドリー・テリーモデルによるDPO目標の導出

A.3 プラケット・ルースモデルによるDPO目標の導出

A.4 DPO目的関数の勾配の導出とA.5 補題1と2の証明

A.6 定理1の証明

B DPO実装の詳細とハイパーパラメータ

C 実験設定の詳細とC.1 IMDb感情実験とベースラインの詳細

C.2 要約と対話勝率を計算するためのGPT-4プロンプト

C.3 可能性の低いベースライン

D 追加の実証結果

D.1 さまざまなNに対するBest of NベースラインのパフォーマンスとD.2 サンプル応答とGPT-4判定

D.3 ヒト研究の詳細

抽象的な

大規模な教師なし言語モデル (LM) は、幅広い世界知識とある程度の推論スキルを学習しますが、トレーニングが完全に教師なしであるため、その動作を正確に制御することは困難です。このような操縦性を獲得するための既存の方法では、モデル生成の相対的な品質の人間によるラベルを収集し、多くの場合、人間からのフィードバックによる強化学習 (RLHF) を使用して、これらの好みに合わせて教師なし LM を微調整します。ただし、RLHF は複雑で不安定な手順であり、最初に人間の好みを反映する報酬モデルを適合させ、次に強化学習を使用して大規模な教師なし LM を微調整し、元のモデルから大きくずれることなくこの推定報酬を最大化します。この論文では、RLHF の報酬モデルの新しいパラメーター化を紹介します。これにより、対応する最適なポリシーをクローズドフォームで抽出できるようになり、標準的な RLHF 問題を単純な分類損失のみで解決できます。結果として得られるアルゴリズムは、直接嗜好最適化 (DPO) と呼ばれ、安定しており、高性能で、計算量も軽量であるため、微調整中に LM からサンプリングしたり、大幅なハイパーパラメータ調整を実行したりする必要がなくなります。私たちの実験では、DPO は LM を微調整して、既存の方法と同等かそれ以上に人間の好みに合わせることができることが示されています。特に、DPO による微調整は、世代の感情を制御する能力において PPO ベースの RLHF を上回り、要約とシングルターンの対話における応答品質に匹敵するか、それを向上させる一方で、実装とトレーニングが大幅に簡素化されています。

1 はじめに

非常に大規模なデータセットでトレーニングされた大規模な教師なし言語モデル（LM）は、驚くべき能力を獲得します [11、7、40、8]。しかし、これらのモデルは、さまざまな目標、優先順位、スキルセットを持つ人間によって生成されたデータでトレーニングされています。これらの目標とスキルセットの一部は、模倣することが望ましくない場合があります。たとえば、AIコーディングアシスタントに一般的なプログラミングミスを理解して修正してもらいたいと思うかもしれませんが、コードを生成する際には、トレーニングデータに存在する（まれな可能性のある）高品質のコーディング能力にモデルを偏らせたいと考えます。同様に、言語モデルに、50%の人が信じている一般的な誤解を認識させたいかもしれませんが、それに関するクエリの50%でこの誤解が真実であると主張することは絶対に望ましくありません。言い換えれば、非常に幅広い知識と能力からモデルの望ましい応答と動作を選択することは、安全でパフォーマンスが高く、制御可能なAIシステムを構築する上で非常に重要です [26]。既存の手法では、強化学習（RL）を使用してLMを人間の好みに合わせて誘導するのが一般的ですが、

既存の方法で使用されている RL ベースの目的関数は、単純なバイナリクロスエントロピー目的関数で正確に最適化でき、好みの学習パイプラインを大幅に簡素化できることを示します。

大まかに言えば、既存の方法は、人間が安全で役立つと感じる行動の種類を表す厳選された人間の好みのセットを使用して、望ましい行動を言語モデルに植え付けます。この好みの学習段階は、大規模なテキストデータセットに対する大規模な教師なし事前トレーニングの初期段階の後に発生します。好みの学習に対する最も直接的なアプローチは、人間による高品質の応答のデモンストレーションに対する教師ありの微調整ですが、最も成功しているクラスの方法は、人間 (または AI) のフィードバックからの強化学習です (RLHF/RLAIF; [12、2])。RLHF 方法は、報酬モデルを人間の好みのデータセットに適合させ、次に RL を使用して言語モデルポリシーを最適化し、元のモデルから大きく離れることなく、高い報酬が割り当てられた応答を生成します。RLHF は優れた会話機能とコーディング機能を備えたモデルを生成しますが、RLHF パイプラインは教師あり学習よりもかなり複雑で、複数の LM をトレーニングし、トレーニングのループで LM ポリシーからサンプリングする必要があるため、かなりの計算コストがかかります。

本稿では、明示的な報酬モデリングや強化学習を使用せずに、言語モデルを直接最適化して人間の好みに合わせる方法を示します。本稿では、既存の RLHF アルゴリズム (KL ダイバージェンス制約による報酬最大化) と同じ目的を暗黙的に最適化するアルゴリズムである直接選好最適化 (DPO) を提案しますが、実装が簡単でトレーニングも簡単です。直感的に、DPO 更新により、好まれる応答と好まれない応答の相対的な対数確率が増加しますが、動的な例ごとの重要度重みが組み込まれているため、単純な確率比目的で発生するモデルの劣化を防止できます。既存のアルゴリズムと同様に、DPO は、特定の報酬関数が経験的な選好データとどの程度一致しているかを測定する理論的な選好モデル (Bradley-Terry モデルなど) [5] に依存しています。ただし、既存の方法では、選好モデルを使用して選好損失を定義し、報酬モデルをトレーニングしてから、学習した報酬モデルを最適化するポリシーをトレーニングしますが、DPO では変数の変更を使用して、ポリシーの関数として選好損失を直接定義します。したがって、モデル応答に対する人間の好みのデータセットが与えられると、DPO は単純なバイナリクロスエントロピー目標を使用してポリシーを最適化し、好みデータに適合する暗黙の報酬関数に最適なポリシーを生成することができます。

私たちの主な貢献は、好みから言語モデルをトレーニングするための単純な RL フリーアルゴリズムである Direct Preference Optimization (DPO) です。私たちの実験では、最大 60 億のパラメータを持つ言語モデルを使用して、感情変調、要約、対話などのタスクで好みから学習する場合、DPO は PPO ベースの RLHF を含む既存の方法と少なくとも同等に効果的であることが示されています。