AI地震に備えましょう! UCLA の研究者チーム ( n 、 、 、 ) は、AGI にいくつかの主要な鍵をドロップしました。これは、真剣に人間のような音声の AI を実現するためのコードだけではなく、すべてをオープンソース化しました。 @zxche @Yihe__Deng @HuizhuoY @Kaixuan_Ji_19 、 @QuanquanGu 人間が注釈を付けた新しいデータを大量に供給する必要がなく、より優れた LLM を開発できるようになりました。 まず、ここでのゲームチェンジャーである自己学習言語モデルに焦点を当てましょう。 この方法を使用すると、外部から厳選された大量の新しいデータを必要とせずに、言語モデルが ますます優れたものになります。 自動的に学習し、 SPIN の紹介: セルフプレイ微調整により弱い言語モデルを強力な言語モデルに変換 私は徹底的に深く掘り下げるモードに入りました – 彼らの論文 (「 」) を読み、 、 、 などのフォーラムで Google Gemini Ultra と GPT-4 を使って洞察を調べました。ターボ – そして SPIN の核となるコンセプトは、テクノロジーを愛する私の比喩的なソックスを打ちのめしました。 セルフプレイ ファインチューニングは弱い言語モデルを強い言語モデルに変換する HackerNews X Reddit 「会話パートナー」のトリック 基本的なスキル (会話のエチケットなど) を習得した言語モデルから始めることを想像してください。 SPIN を使用すると、モデルは すでに知っている内容からデータセットを構築します。 内部の「会話」を生成し、 瞬時に知識が広がります! ステップ 2 では、新しいモデルを解放し、それに 1 つのタスクを与えます。それは、 と本物の人間のコミュニケーションの違いを見つけることです。これにより、元のモデルは、検出を避けるために応答するたびにますます 、ゲーム性が向上します。 機械が生成したチャット 人間らしくなり ここからが興味深いことになります。これらは から始まりました (すでに で微調整されています)。 SPIN は、この基本モデルを使用した反復トレーニング システムを解放し、外部で作成された大量の新しいデータに依存することなく指数関数的に改善しました。 zephyr-7b-sft-full UltraChat コーパス SPIN vs. 従来の AI トレーニング (DPO): 新しいチャンピオン? 私たちは通常、機械学習、特にこれらの巨大な言語モデルの場合、慎重に選別されラベル付けされた大量のデータが必要であると考えています。 手法では、トレーニングのために人間が AI の応答を相互に丹念に評価します。これには労力がかかるだけでなく、データセットが大きくなるにつれてコストも膨らみます。 Direct Preference Optimization (DPO) Direct Preference Optimization (DTO) は、プリファレンスのデータセットを使用してモデルを微調整するトレーニング方法で、多くの場合、モデルが生成した応答のどれが優先されるかを決定する人間の判断が含まれます。この方法では、これらの設定に基づいて各部分にラベルが付けられた新しいデータを収集する必要があり、リソースを大量に消費する可能性があります。 対照的に、SPIN は を利用し、新しいデータの必要性を大幅に減らします。 反復セルフプレイ 最初の反復までに、 、既存のデータを活用してモデルのパフォーマンスを強化する際の効率と有効性が強調されています。 SPIN のパフォーマンスはほとんどの場合ですでに DPO のパフォーマンスを上回っており SPIN は、 を達成することでその強みを示します。 のプロセスでは、複数回の反復にわたってモデルのパフォーマンスを系統的に強化し、特に TruthfulQA や GSM8k などの難しいベンチマークで 。 より広範なデータセットでトレーニングされたモデルと同等のパフォーマンス 反復トレーニング 大幅な改善を示します そのため、SPIN は、人間による追加の注釈付きデータを必要とせず、セルフプレイを通じて生成された合成データセットを効率的に活用することで、DPO を含む従来のトレーニング方法よりも優れたパフォーマンスを発揮します。 SPIN の強みとコストは何ですか? SPIN はセルフプレーのダイナミックな変化球を投げます。 これは、言語ボクシングのリングで言語モデルがスパーリングし、各ラウンドで新しいトリックを教えられるようなものだと考えてください。 SPIN のデータ効率により、人間が注釈を付けた新しいデータセットの必要性が回避されます。 しかし、より重要なことは、 、 。 改善ループが加速され モデルが人間のようなテキストを生成することにますます熟練するようになるということです SPIN は、より大規模な外部データセットでトレーニングされたモデルと一致しているように見えるだけでなく、本質的に独自の出力を研究するため、その反復能力は一貫した利益を意味します。 驚くべきことですよね? さて、部屋の中の象について話しましょう – 費用 Nous Research の共同創設者 の指摘も一理あります。これらの古い言語モデルは、無料でより賢くなるわけではありません。 SPIN を使用した反復的な再トレーニングには、毎回、教師あり微調整 (SFT) という高価なプロセスが含まれます。 @Teknium1 ただし、「それだけの価値はあると思います!」とも述べています。また、進化のスピードが速くなり、人間が注釈を付けたデータへの依存度が低くなる可能性があるという長期的なメリットが初期投資を上回りますか?それは興味深い質問です。 ブーム!オープンソース AI の時代が来た ちょうど昨日、UCLA のコンピュータ サイエンス准教授で ByteDance の AI 研究ディレクターである が、 と発表しました。これはコードとデータセットだけを意味するのではなく、独自の AI の旅を開始するための事前トレーニングされたモデルを意味します。 Quanquan Gu 氏 誰でも SPIN モデルとデータセットを使用できるようになった SPIN は人間の思考プロセスを反映しています。 SPIN は人間味のあるテキストを生成することで、将来の AI が実行できる推論の基本的な要素を示唆します。一部の LLM 出力がいかにロボットのように感じられるかご存知ですか?まあ、SPINは違います。それは実際に人間の考え方を反映しています。その書き方はとても自然で、将来の AI がどのように自分自身を推論できるようになるかを覗いているかのようです。 これは、チャットボットの音声を良くするだけではありません。 それは、私たちと同じように機能する一種のデジタル思考を生み出すことです。この種の AI ははるかに柔軟で、真の理解が可能になります。 SPIN は、言語モデルをより自然に聞こえるようにするという点で大きな進歩ですが、 。 興奮してその意味を過大評価しがちです AI が生成するテキストは印象的ですが (データベースを参照してください)、AI には真の独立した推論能力がまだ備わっていないことを覚えておくことが重要です。 SPIN は真の ではありませんが、人間のような文章を模倣する方法は、AI が将来言語を処理および使用する方法における目覚ましい進歩を示しています。 AGI それでも、AI と言語が将来どのように発展するかについて、驚くべき可能性を示唆しています (私たちがホッケースティックの始まりにいるということを思い出していただければ、未来は今日からそれほど遠くありません...) 波及効果は非常に大きくなります。アクセス パスは次のとおりです。 コード: で入手可能: GitHub https://github.com/uclaml/SPIN データ: でホストされているこのデータセットは、SPIN 手法を適用したい人にとって簡単にアクセスできます: Hugging Face https://huggingface.co/collections/UCLA-AGI/datasets-spin-65c3624e98d4b589bbc76f3a… モデル: 事前トレーニングされたモデルも利用可能で、SPIN で強化された言語モデルの実験を有利にスタートできます: https://huggingface.co/collections/UCLA-AGI/zephyr-7b-sft-full-spin-65c361dfca65637272a02c40… プロジェクト ページ: 包括的な洞察と詳細情報については、プロジェクト ページが貴重なリソースです: https://uclaml.github.io/SPIN/ 要約すると、その反復的な自己改善方法論は、真に人間のようなコミュニケーションを行うことができる LLM の作成に向けた大きな進歩です。 元々は私の で共有されていました。 X アカウント