AI地震に備えましょう! UCLA の研究者チーム ( @zxche n 、 @Yihe__Deng 、 @HuizhuoY 、 @Kaixuan_Ji_19 、 @QuanquanGu ) は、AGI にいくつかの主要な鍵をドロップしました。これは、真剣に人間のような音声の AI を実現するためのコードだけではなく、すべてをオープンソース化しました。
人間が注釈を付けた新しいデータを大量に供給する必要がなく、より優れた LLM を開発できるようになりました。
まず、ここでのゲームチェンジャーである自己学習言語モデルに焦点を当てましょう。
この方法を使用すると、外部から厳選された大量の新しいデータを必要とせずに、言語モデルが自動的に学習し、ますます優れたものになります。
私は徹底的に深く掘り下げるモードに入りました – 彼らの論文 (「セルフプレイ ファインチューニングは弱い言語モデルを強い言語モデルに変換する」) を読み、 HackerNews 、 X 、 Redditなどのフォーラムで Google Gemini Ultra と GPT-4 を使って洞察を調べました。ターボ – そして SPIN の核となるコンセプトは、テクノロジーを愛する私の比喩的なソックスを打ちのめしました。
基本的なスキル (会話のエチケットなど) を習得した言語モデルから始めることを想像してください。 SPIN を使用すると、モデルは内部の「会話」を生成し、すでに知っている内容からデータセットを構築します。
瞬時に知識が広がります!
ステップ 2 では、新しいモデルを解放し、それに 1 つのタスクを与えます。それは、 機械が生成したチャットと本物の人間のコミュニケーションの違いを見つけることです。これにより、元のモデルは、検出を避けるために応答するたびにますます人間らしくなり、ゲーム性が向上します。
ここからが興味深いことになります。これらはzephyr-7b-sft-fullから始まりました (すでにUltraChat コーパスで微調整されています)。 SPIN は、この基本モデルを使用した反復トレーニング システムを解放し、外部で作成された大量の新しいデータに依存することなく指数関数的に改善しました。
私たちは通常、機械学習、特にこれらの巨大な言語モデルの場合、慎重に選別されラベル付けされた大量のデータが必要であると考えています。 Direct Preference Optimization (DPO)手法では、トレーニングのために人間が AI の応答を相互に丹念に評価します。これには労力がかかるだけでなく、データセットが大きくなるにつれてコストも膨らみます。
Direct Preference Optimization (DTO) は、プリファレンスのデータセットを使用してモデルを微調整するトレーニング方法で、多くの場合、モデルが生成した応答のどれが優先されるかを決定する人間の判断が含まれます。この方法では、これらの設定に基づいて各部分にラベルが付けられた新しいデータを収集する必要があり、リソースを大量に消費する可能性があります。
対照的に、SPIN は反復セルフプレイを利用し、新しいデータの必要性を大幅に減らします。
最初の反復までに、 SPIN のパフォーマンスはほとんどの場合ですでに DPO のパフォーマンスを上回っており、既存のデータを活用してモデルのパフォーマンスを強化する際の効率と有効性が強調されています。
SPIN は、より広範なデータセットでトレーニングされたモデルと同等のパフォーマンスを達成することでその強みを示します。反復トレーニングのプロセスでは、複数回の反復にわたってモデルのパフォーマンスを系統的に強化し、特に TruthfulQA や GSM8k などの難しいベンチマークで大幅な改善を示します。
そのため、SPIN は、人間による追加の注釈付きデータを必要とせず、セルフプレイを通じて生成された合成データセットを効率的に活用することで、DPO を含む従来のトレーニング方法よりも優れたパフォーマンスを発揮します。
SPIN はセルフプレーのダイナミックな変化球を投げます。
これは、言語ボクシングのリングで言語モデルがスパーリングし、各ラウンドで新しいトリックを教えられるようなものだと考えてください。
SPIN のデータ効率により、人間が注釈を付けた新しいデータセットの必要性が回避されます。
しかし、より重要なことは、改善ループが加速され、モデルが人間のようなテキストを生成することにますます熟練するようになるということです。
SPIN は、より大規模な外部データセットでトレーニングされたモデルと一致しているように見えるだけでなく、本質的に独自の出力を研究するため、その反復能力は一貫した利益を意味します。
驚くべきことですよね?
Nous Research の共同創設者@Teknium1の指摘も一理あります。これらの古い言語モデルは、無料でより賢くなるわけではありません。 SPIN を使用した反復的な再トレーニングには、毎回、教師あり微調整 (SFT) という高価なプロセスが含まれます。
ただし、「それだけの価値はあると思います!」とも述べています。また、進化のスピードが速くなり、人間が注釈を付けたデータへの依存度が低くなる可能性があるという長期的なメリットが初期投資を上回りますか?それは興味深い質問です。
ちょうど昨日、UCLA のコンピュータ サイエンス准教授で ByteDance の AI 研究ディレクターであるQuanquan Gu 氏が、誰でも SPIN モデルとデータセットを使用できるようになったと発表しました。これはコードとデータセットだけを意味するのではなく、独自の AI の旅を開始するための事前トレーニングされたモデルを意味します。
SPIN は人間の思考プロセスを反映しています。
SPIN は人間味のあるテキストを生成することで、将来の AI が実行できる推論の基本的な要素を示唆します。一部の LLM 出力がいかにロボットのように感じられるかご存知ですか?まあ、SPINは違います。それは実際に人間の考え方を反映しています。その書き方はとても自然で、将来の AI がどのように自分自身を推論できるようになるかを覗いているかのようです。
これは、チャットボットの音声を良くするだけではありません。
それは、私たちと同じように機能する一種のデジタル思考を生み出すことです。この種の AI ははるかに柔軟で、真の理解が可能になります。
SPIN は、言語モデルをより自然に聞こえるようにするという点で大きな進歩ですが、興奮してその意味を過大評価しがちです。
AI が生成するテキストは印象的ですが (データベースを参照してください)、AI には真の独立した推論能力がまだ備わっていないことを覚えておくことが重要です。
SPIN は真のAGIではありませんが、人間のような文章を模倣する方法は、AI が将来言語を処理および使用する方法における目覚ましい進歩を示しています。
それでも、AI と言語が将来どのように発展するかについて、驚くべき可能性を示唆しています (私たちがホッケースティックの始まりにいるということを思い出していただければ、未来は今日からそれほど遠くありません...)
波及効果は非常に大きくなります。アクセス パスは次のとおりです。
要約すると、その反復的な自己改善方法論は、真に人間のようなコミュニケーションを行うことができる LLM の作成に向けた大きな進歩です。
元々は私のX アカウントで共有されていました。