著者:
(1) ネイサン・ランバート、アレン AI 研究所。
(2) ロベルト・カランドラ、ドレスデン工科大学。
ヒューマン フィードバックからの強化学習 (RLHF) は、大規模言語モデル (LLM) をプロンプトしやすく、複雑な設定での機能を向上させる強力な手法として登場しました。 RLHF の中核は、次のトークンの予測以外の LLM を最適化するための新しいツールキットを提供し、定性的なトレーニング目標の統合を可能にします。ユーザーの好みと下流のパフォーマンスの間の一致の試行は、学習された報酬モデルで発生し、その結果、トレーニングと評価の指標が相関しているように見える最適化環境が生まれます。明らかな相関関係は、予期せぬ行動や「RLHF が多すぎる」というストーリーにつながる可能性があります。 RLHF では、報酬モデルのトレーニング、ポリシー モデルのトレーニング、およびポリシー モデルの評価というサブモジュールが相互に一貫していないため、課題が生じます。この不一致により、モデルは誤った安全性フラグによってユーザーのリクエストを回避したり、意図した特性に導くことが困難になったり、常に特定のスタイルで応答したりすることになります。チャット モデルの評価がますます微妙になるにつれて、報酬モデルのスコアと下流のパフォーマンスの間の認識されたリンクへの依存が、目標の不一致の問題を引き起こします。この論文では、モデルベースの強化学習に関する関連文献をレビューしてこの問題の原因を説明し、さらなる研究を促進するために関連する解決策について説明します。 RLHF の目的の不一致を解決することで、将来の LLM は安全性と有用性の両方でユーザーの指示にさらに正確に適合するようになります。
ヒューマンフィードバックからの強化学習(RLHF)は、定性的なスタイルと値を大規模な機械学習モデルに統合するための強力なツールです(Bai et al., 2022; Christiano et al., 2017; Ouyang et al., 2022)。 RLHF は、チャット ツールを調整するために人間の価値観を大規模言語モデル (LLM) に統合するために使用されることで普及しました (Schulman、Zoph、Kim、他、2022)。そうすることで、RLHF は、ユーザー要求への応答性を向上させるモデルを作成するプロセスにおける重要な手法となりました。これは、多くの場合、命令調整モデル、ステアビリティモデル、チャットモデルなどと呼ばれます。RLHF メソッドは、通常、次の 2 段階のプロセスで動作します。基本言語モデルのトレーニングでは、最初に報酬関数として機能する人間の好みのモデルを学習し、次にこのモデルを強化学習 (RL) 最適化ループ内で使用します。 RLHF プロセスでは、これら 2 つのステップが独立して実行されることが多く、正確な報酬モデルが人間の嗜好データに基づいてトレーニングされ、RL オプティマイザーを使用して最大限の情報がチャット モデルに抽出されます。 RLHF でトレーニングされた現代の LLM に共通する課題は、モデルから意図された動作を抽出することが難しいことです。安全上の理由からモデルが無害なリクエストを拒否する場合もあれば、最大限のパフォーマンスを引き出すために賢明で迅速な調整が必要な場合もあります。
この論文では、現代の RLHF 学習スキームにおける基本的な課題、つまり目標の不一致問題について詳しく説明します。 RLHF では、評価メトリクスの設計、報酬モデルのトレーニング、生成モデルのトレーニングというトレーニングの 3 つの重要な部分が数値的に分離されています。報酬モデルと RL トレーニングの間のこの不一致は、図 1 に視覚化されていますが、評価の目標と人間の価値のシミュレーションの間には、さらに別の関連性が存在します。具体的には、報酬モデルのトレーニングを選好の定量化における文献とよりよく整合させるための手段は数多くあり (Lambert, Gilbert, & Zick, 2023)、基本的な最適化の課題は RLHF の実践で解決する必要があります (Casper et al., 2023)。 RLHF でトレーニングされた最も人気のあるモデルである ChatGPT は、冗長さ、自己疑念と質問の拒否、繰り返しのフレーズ、ヘッジなどの問題を通じてこの制限の兆候を示しています (Schulman、2023)。過剰最適化のこれらの特性は、目標の不一致が研究と解決のための枠組みを提供する微妙な代用目標問題の結果です。報酬モデルは、ユーザーの利益に寄与しないフレーズに超過価値を帰属させ、RL オプティマイザーは安全フラグなどを利用します。一方で、現在のトレーニング設定は評価ツールと完全には一致していません。RLHF のモデルには依然として「段階的に考える」(J. Wei et al., 2022)や「深呼吸をする」などの高度なプロンプト手法が必要であるためです。 」 (Yang et al., 2023) を使用して、最大のパフォーマンスを達成します。目的の不一致を解決すると、これらの高度なテクニックの必要性がなくなり、LLM から範囲外の拒否が発生する可能性が減ります。
目標の不一致というフレーズは、エージェントが後で制御タスクを解決するために使用するダイナミクス モデルを反復的に学習するモデルベースの強化学習 (MBRL) に由来しています (Lambert, Amos, Yadan, & Calandra, 2020; R. Wei, Lambert,マクドナルド、ガルシア、カランドラ、2023)。この文脈では、高いタスク報酬を得るために最適化されたモデルではなく、正確なダイナミクス モデルを学習する間に不一致が生じます。 RLHF では、この問題は関連していますが、報酬モデルがエンドユーザーと一致しない閉鎖分布よりも嗜好データに最適化されているため、複雑さが増します。第 2 に、オープンエンド言語生成のタスクは、RL 制御ポリシーのタスクほど報酬の概念に限定されません。このような理由から、この文書で検討するように、目標の不一致の問題は RLHF にとってより微妙で重要です。
このポジションペーパーでは、私たちは 3 つの貢献を行います。
• チャット調整された LLM における目的の不一致の原因と潜在的な兆候を明確に説明する。
• 目的の不一致に関して NLP および RL 文献からの関連研究を接続します。
• 不一致を解決し、より良い RLHF 実践を促進するための研究の方向性を提案する。
この論文は、CC 4.0 ライセンスに基づいてarxiv で入手できます。