著者:
(1)ラファエル・ラファイロ、スタンフォード大学、同等の貢献;より若い著者は前述;
(2)スタンフォード大学のアーチット・シャルマ氏と同等の貢献。さらに若い著者は先に挙げた。
(3)エリック・ミッチェル、スタンフォード大学、同等の貢献。さらに若手著者は前述。
(4)ステファノ・エルモン、CZバイオハブ
(5)クリストファー・D・マニング、スタンフォード大学
(6)チェルシー・フィン、スタンフォード大学
数学的導出
A.4 DPO目的関数の勾配の導出とA.5 補題1と2の証明
C 実験設定の詳細とC.1 IMDb感情実験とベースラインの詳細
D 追加の実証結果
D.1 さまざまなNに対するBest of NベースラインのパフォーマンスとD.2 サンプル応答とGPT-4判定
規模の拡大する自己教師あり言語モデルは、いくつかのタスクをゼロショット [31] または少数のプロンプト [6, 25, 11] で完了することを学習します。ただし、下流タスクでのパフォーマンスとユーザーの意図との整合性は、指示と人間が書いた補完のデータセットを微調整することで大幅に改善できます [23, 36, 13, 39]。この「指示調整」手順により、LLM は指示調整セット外の指示に一般化でき、一般的に使いやすさが向上します [13]。指示調整の成功にもかかわらず、応答品質に関する人間の相対的な判断は、専門家のデモンストレーションよりも収集しやすい場合が多く、そのためその後の研究では、人間の好みのデータセットを使用して LLM を微調整し、翻訳 [18]、要約 [38, 49]、ストーリーテリング [49]、および指示に従うこと [26, 32] の熟練度を向上させました。これらの方法は、まず、Bradley-Terry モデル [5] などの選好モデルの下で、選好データセットとの互換性のためにニューラルネットワークの報酬関数を最適化し、次に、強化学習アルゴリズム、一般的には REINFORCE [45]、近似ポリシー最適化 (PPO; [37])、またはその変種 [32] を使用して、指定された報酬を最大化するように言語モデルを微調整します。密接に関連する一連の作業では、人間のフィードバックを伴う指示に従うように微調整された LLM を利用して、安全性や無害性などの対象属性に対する追加の合成選好データを生成します [2]。この作業では、LLM の注釈に対するテキスト ルーブリックの形で人間による弱い監督のみが使用されます。これらの方法は、2 つの作業の収束を表しています。1 つは、さまざまな目的で強化学習を使用して言語モデルをトレーニングする作業 [33、27、46] であり、もう 1 つは人間の選好から学習する一般的な方法に関する作業です [12、19]。相対的な人間の選好を使用することは魅力的ですが、この研究は、RL を使用せずに相対的な好みを最適化するための理論的に正当化されたアプローチを提供します。
言語の文脈以外では、嗜好からのポリシーの学習は、バンディット学習と強化学習の両方の設定で研究されており、いくつかのアプローチが提案されています。報酬ではなく、嗜好や行動のランキングを使用するコンテキストバンディット学習は、コンテキストデュエルバンディット(CDB; [48, 14])として知られています。絶対的な報酬がない場合、CDBの理論的分析では、最適なポリシーの概念をフォンノイマン勝者、つまり他のポリシーに対する期待勝率が少なくとも50%であるポリシーに置き換えます[14]。ただし、CDB設定では、嗜好ラベルはオンラインで付与されますが、人間の嗜好から学習する場合、通常は、オフラインで嗜好が注釈付けされたアクションペアの固定バッチから学習します[47]。同様に、嗜好ベースRL(PbRL)は、報酬ではなく、未知の「スコアリング」関数によって生成されたバイナリ嗜好から学習します[9, 35]。 PbRLにはさまざまなアルゴリズムが存在し、オフポリシーの好みデータを再利用できる方法も含まれていますが、一般的には、最初に潜在的なスコアリング関数(つまり報酬モデル)を明示的に推定し、その後それを最適化する必要があります[16、9、12、34、19]。代わりに、好みを満たすようにポリシーを直接最適化する単一段階のポリシー学習アプローチを提示します。
この論文は、CC BY-NC-ND 4.0 DEED ライセンスの下でarxiv で公開されています。