大きな言語モデル(LLMs)は信じられないほど強力な一般主義者ですが、それらを専門的な専門家に変えることは大きな課題です。 企業内部の文書や複雑な推論タスクなどの新しい、特定の知識に基づいてモデルを訓練するプロセスは、著しく高価で時間がかかり、落とし穴に満ちています。 我々は、テクノロジーの巨人のコンピューティング予算なしでドメインをマスターすることができるより小さい、より効率的なモデルを望んでいます。 より小さなモデルをスマートにするためのコアアイデアは、「蒸留」と呼ばれるコンセプトです。このプロセスでは、より小さな「学生」モデルは、より大きな、より有能な「教師」モデルから学びます。 しかし、これまで、エンジニアは困難な妥協に直面してきました。1つのアプローチ、ポリシー上の強化学習(RL)は、学生が自分自身の間違いから学ぶことを強制し、それは関連性がありますが痛々しく遅いです。代替、ポリシー外の蒸留は、より速く、しかし危険に欠けています。学生は、教師の理想的な例から学び、それはしばしば学生が決して独自に出会うことのない文脈で発生し、エラーを結合させます。 「オンポリシー蒸留」と呼ばれる強力なテクニックは、両方の世界の最善を組み合わせています。教師モデルが学生モデルの自らの試みについて密集した、トークン-by-トークンフィードバックを提供することにより、私たちはトレーニングの効率性と能力の進歩を達成することができます。 スマートなフィードバックループがAIトレーニングを100倍安くする Reinforcement Learning(RL)とDestillationの根本的な違いは、フィードバックの密度にあります。 On-policy RL は、あなたが試合の終わりに勝ったか、負けたかだけを教えられることによってチェスを学ぶのと同じです. フィードバックはあなたの行動に直接関連していますが、それは希少です. あなたはあなたが負けたことを知っていますが、それはあなたの開幕、ゲームの真ん中間のミス、または弱いエンドゲームのせいかどうかを知りません。 あなたは素晴らしい動きを観察しますが、それらは複雑なボードポジションで行われ、あなたは、初心者として、あなた自身がほとんど見つからないでしょう。 ポリシー上の蒸留は、両方の世界のベストを提供します. それはあなた自身のゲームであなたのすべての動きを評価し、動きが「間違った」、「不正確さ」または「素晴らしい」かどうかを教えてくれる専門コーチを持っているようなものです. フィードバックは密集し、あなたの現在のスキルレベルに完全に関連しています。 このよりスマートなフィードバックループは、効率性に大きな影響を与えます。RLを通じて訓練された教師から学んだ学生のモデルが直接バックバックに比較された場合、ポリシー上の蒸留は、学生がグレディントステップの点で教師のパフォーマンスレベルを7〜10倍速く達成することを可能にしました。 この劇的なスピードアップの理由は、ポリシー上の蒸留が、モデルが学ぶためにより有用な情報(エピソードごとにより多くの「ビット」)を提供するためです。この密集したトークンレベルのフィードバックは、グレディントの騒音を減らすため、より短い文脈とより小さい、より効率的なバッチサイズのトレーニングを可能にし、全体的な計算コストをさらに削減します。 新しい知識を教えることで「AIアムネシア」を治すことができます AIにおける共通で困難な問題は「災害的な忘却」です。事前訓練されたモデルを採用し、新しい専門情報(あなたの会社の内部知識ベースのような)にそれを調節すると、それはしばしば指示に従う能力など、そのオリジナルの一般的なスキルを劣化したり、完全に忘れてしまうことがあります。 「内部アシスタント」を作成するための実験を検討します。研究者はQwen3-8Bモデルで始まり、強力な指示に従って85%のスコアを持っていました。 文書に関する知識が大幅に向上した(QA評価で18%から36%)。 しかし、その指示に従うスキルは、85%から79%に低下した。 ソリューションは、初期の精密調節の後、短い段階のポリシー蒸留であった。教師としてモデルのオリジナルのバージョンを使用することで、研究者は失われた行動を回復することができました。 指示に従うパフォーマンスはほぼ完全に回復し、83%に戻った。 重要なのは、新しく得た知識を失うことなく、知識のスコアがわずかに41%にまで向上したことだ。 この発見は、「継続的な学習」のためのゲーム変更剤であり、時間とともに新しい情報でモデルを更新する能力で、コストの高い、完全な規模の再訓練をゼロから実行する必要がなく、AIに新しい事実を教える信頼できる方法を提供します。 AIはたった1つの例から推理スキルを習得できます。 ほとんどのAIトレーニング方法では、同じプロンプトでモデルを繰り返しトレーニングすることは失敗のレシピであり、モデルは根本的なスキルを学ぶ代わりに答えを単に記憶する。 研究者らは、数学推論のタスクで学生のモデルを訓練し、単一のランダムに選択されたプロンプトを使用しました。 驚くべき結果は従来の知恵を頭に置く:学生モデルは、AIME'24の数学基準の専門教師モデルのパフォーマンスにほぼ匹敵することができたが、その問題を見たことがあるだけだった。 これは、ポリシー上の蒸留がモデルに教えるため、教師の全体の思考プロセスに近づくようにします; 次の最高のトークンがどのステップでも何であるべきかという完全な確率分布ではなく、最終的な答えを単に記憶することを意味します。 なぜ独自のサンプルで「練習」することがAIをバカにするのか モデルが高品質な出力を生成する場合、良い行動を強化するためにその出力をトレーニングデータに戻すことができるのは、論理的であるように思えます。 しかし、研究者は、彼らが自分のサンプルで構成されたデータセットを使用してモデルを訓練したとき、指示に従う評価でのパフォーマンスは実際に劣化しました。 この失敗の技術的な理由は微妙だが重要である。モデルの独自の出力のデータセットは平均的に完全にオンポリシーであるかもしれないが、データのすべての限られたバッチはわずかに異なる配布を示している。これらのバッチのトレーニングは、モデルの内部ポリシーを元の状態から離れさせる。 対照的に、オンポリシー蒸留は、この自己蒸留シナリオでは完全に安定しています。教師のモデルが固定的で一貫したターゲットであるため、生徒は、劣化することなく、望ましい行動に強力に近づくことができます。 AIの未来は、より小さく、より速く、そしてより個人的なものです。 On-policyの蒸留は、単に別のトレーニングテクニックではなく、私たちが専門的で専門的なAIを作成する方法の根本的な転換です。 利点は明らかである:巨大なコンピューティングの節約、災害的な忘却のための治療法、信じられないほどのデータ効率です。これは、入力の障壁を低下させ、より多くのチームが深いドメイン知識を持つカスタムモデルを構築し、維持する能力を解除し、コア能力を犠牲にすることなく、この専門家のAIの民主化は、新しいビジネスモデルを燃料にし、以前は国境研究所に留められた競争上の利点を作成します。 Podcast : Podcast : Apple:こちら Spotify:こちら ここ ここ