Direct Preference Optimization (DPO) は、そのシンプルさと実装の容易さにより人気のある新しい微調整手法です。これは、安定性、パフォーマンス、計算量の軽量化に起因する人間の好みに合わせて大規模言語モデル (LLM) を微調整するためのヒューマン フィードバック (RLHF) の直接的な代替手段として登場し、言語モデルからのサンプリングの必要性を排除します。微調整中のLM。 DPO は、既存の方法と同等以上のパフォーマンス レベルを達成できます。 からの強化学習 RLHF を利用する既存の方法とは異なり、DPO は言語調整プロセスを、好みのデータセット {(x,yw,yl)} を使用して直接最適化できる単純な損失関数として再構成します。 • x はプロンプトです • yw が推奨される方法です • yl は拒否されたメソッドです 最適化プロセス中に言語モデルから応答をサンプリングする必要がある RLHF とは異なり、DPO では、最適化されている LM から応答をサンプリングする必要はありません。 DPO はどのように機能しますか? DPO の作業プロセスは 2 つのステップに分けることができます。 このステップでは、関連するデータに基づいてモデルが微調整されます。 教師あり微調整 (SFT): モデルは、理想的には SFT の例と同じ分布から得られた好みデータに基づいて微調整されます。 好みの学習: ポリシーの最適化のために最初に報酬モデルがトレーニングされる RLHF とは異なり、DPO では、報酬モデルをトレーニングする中間ステップを行わずに、優先情報を最適化プロセスに直接追加します。 DPO は、LLM を報酬モデルとして使用し、バイナリ クロス エントロピー目標を採用してポリシーを最適化し、人間の嗜好データを活用してどの応答が好まれ、どの応答が好まれないかを特定します。ポリシーは、パフォーマンスを向上させるために優先される応答に基づいて調整されます。 監視付き微調整 当社は、LLM 用の生成 AI アプリケーションの開発を支援し、汎用性があり、特定のユースケースに適応できるようにします。これには、学習および適応するモデルにデータまたはサンプルを提供することが含まれるため、設計、テスト、展開、およびプロンプトの配信のための迅速なエンジニアリング ソリューションを提供します。コギト。 教師あり微調整 (SFT) では、特定の入力と目的の出力の間の明確なマッピングを提供する 。特に優先学習を伴う教師あり微調整は、人間が定義した基準に一致するようにモデルの出力を形成または調整するために採用され、特定の要件と厳密に一致するようにします。 ラベル付きデータセットで LLM がトレーニングされます NLP のプリファレンス データ プリファレンス データは、特定のプロンプトに関して慎重に選択されたオプションまたは代替案のセットを指します。アノテーターは、特定のガイドラインに従ってこれらのオプションを評価します。全体的なプロセスは、人間の好みに基づいて、これらのオプションを最も好ましいものから最も好ましいものまでランク付けすることを目的としています。その後、ランキングを使用してモデルを微調整し、人間の期待に沿った出力を生成します。 プリファレンスデータの作成方法 プロンプト選択 プロンプトは嗜好データの基礎です。プロンプトを選択するにはいくつかの方法があります。事前定義されたセットを選択する方法もあれば、テンプレートを使用してプロンプトを動的に生成する方法や、事前定義されたプロンプトとデータベースから取得したランダムなプロンプトの組み合わせを選択する方法もあります。 応答の選択 次のステップでは、プロンプトに対する応答の出力を決定します。これらの応答は、モデルの十分にトレーニングされたバージョン、またはモデル開発のさまざまなチェックポイントから生成できます。生成されるすべての応答が同じであるわけではなく、応答のランキングは異なる場合があります。バイナリ ランキング システムでは、各回答は単純に「最高」または「最低」のいずれかに分類されますが、詳細なランキング システムでは各回答にスコア (1 ~ 5 など) が割り当てられ、より詳細で微妙な評価が可能になります。 注釈のガイドライン 注釈ガイドラインは、ランキング システムが標準化されて個人の偏見や解釈が最小限に抑えられるようにするために不可欠です。 DPO のメリット DPO には、RLHF に比べて次のような多くの利点があります。 シンプルさと実装の容易さ 詳細なフィードバックの収集、複雑なポリシーの最適化、報酬モデルのトレーニング の多層プロセスとは異なり、DPO は人間の好みをトレーニング ループに直接統合します。このアプローチは、プロセスに関連する複雑さを排除するだけでなく、事前トレーニングと微調整の標準システムとの整合性を高めます。さらに、DPO には、報酬関数の構築と調整という複雑な操作が含まれません。 を含む RLHF 報酬モデルのトレーニングは不要 DPO により、追加の報酬モデルをトレーニングする必要がなくなり、計算リソースが節約され、報酬モデルの精度とメンテナンスに関連する課題が解消されます。人間のフィードバックを AI にとって実用的な信号に解釈する効率的な報酬モデルを開発するのは複雑な作業です。進化する人間の好みを正確に反映するには多大な労力が必要であり、定期的な更新が必要です。 DPO は、モデルの改善にプリファレンス データを直接活用することで、このステップを完全にバイパスします。 優れた性能 「 。 直接優先最適化: あなたの言語モデルはこっそりご褒美モデル 結論 直接的なパフォーマンスの最適化は、過剰な計算リソースを必要としない安定した効率的な微調整手法です。 RLHF とは異なり、DPO は複雑な報酬モデルや微調整中に言語モデルからのサンプリングを必要としません。 これは単なる新しいアルゴリズムではなく、AI モデルの微調整、簡素化、および人間のニーズをよりよく理解し、ニーズに応える言語モデルの構築プロセスを強化するという大きな変革をもたらします。