2,701 測定値

AGIブループリント? UCLA の研究者がオープンソースの SPIN — 自己改善型言語モデルを公開

に Muratcan Koylan5m2024/02/12

長すぎる; 読むには

UCLA の研究者は、人間のようなテキスト生成で AI に革命をもたらす自己学習言語モデルである SPIN を紹介します。 SPIN のオープンソースリリースは、その機能への前例のないアクセスを提供し、自然言語処理の進歩と、真に人間のようなコミュニケーションが可能な AI モデルの開発への道を開きます。

featured image - AGIブループリント? UCLA の研究者がオープンソースの SPIN — 自己改善型言語モデルを公開

AI地震に備えましょう！ UCLA の研究者チーム ( @zxche n 、 @Yihe__Deng 、 @HuizhuoY 、 @Kaixuan_Ji_19 、 @QuanquanGu ) は、AGI にいくつかの主要な鍵をドロップしました。これは、真剣に人間のような音声の AI を実現するためのコードだけではなく、すべてをオープンソース化しました。

人間が注釈を付けた新しいデータを大量に供給する必要がなく、より優れた LLM を開発できるようになりました。

まず、ここでのゲームチェンジャーである自己学習言語モデルに焦点を当てましょう。

この方法を使用すると、外部から厳選された大量の新しいデータを必要とせずに、言語モデルが自動的に学習し、ますます優れたものになります。

SPIN の紹介: セルフプレイ微調整により弱い言語モデルを強力な言語モデルに変換

私は徹底的に深く掘り下げるモードに入りました – 彼らの論文 (「セルフプレイファインチューニングは弱い言語モデルを強い言語モデルに変換する」) を読み、 HackerNews 、 X 、 Redditなどのフォーラムで Google Gemini Ultra と GPT-4 を使って洞察を調べました。ターボ – そして SPIN の核となるコンセプトは、テクノロジーを愛する私の比喩的なソックスを打ちのめしました。

「会話パートナー」のトリック

基本的なスキル (会話のエチケットなど) を習得した言語モデルから始めることを想像してください。 SPIN を使用すると、モデルは内部の「会話」を生成し、すでに知っている内容からデータセットを構築します。

瞬時に知識が広がります！

ステップ 2 では、新しいモデルを解放し、それに 1 つのタスクを与えます。それは、機械が生成したチャットと本物の人間のコミュニケーションの違いを見つけることです。これにより、元のモデルは、検出を避けるために応答するたびにますます人間らしくなり、ゲーム性が向上します。

ここからが興味深いことになります。これらはzephyr-7b-sft-fullから始まりました (すでにUltraChat コーパスで微調整されています)。 SPIN は、この基本モデルを使用した反復トレーニングシステムを解放し、外部で作成された大量の新しいデータに依存することなく指数関数的に改善しました。

SPIN vs. 従来の AI トレーニング (DPO): 新しいチャンピオン?

私たちは通常、機械学習、特にこれらの巨大な言語モデルの場合、慎重に選別されラベル付けされた大量のデータが必要であると考えています。 Direct Preference Optimization (DPO)手法では、トレーニングのために人間が AI の応答を相互に丹念に評価します。これには労力がかかるだけでなく、データセットが大きくなるにつれてコストも膨らみます。

Direct Preference Optimization (DTO) は、プリファレンスのデータセットを使用してモデルを微調整するトレーニング方法で、多くの場合、モデルが生成した応答のどれが優先されるかを決定する人間の判断が含まれます。この方法では、これらの設定に基づいて各部分にラベルが付けられた新しいデータを収集する必要があり、リソースを大量に消費する可能性があります。

対照的に、SPIN は反復セルフプレイを利用し、新しいデータの必要性を大幅に減らします。

最初の反復までに、 SPIN のパフォーマンスはほとんどの場合ですでに DPO のパフォーマンスを上回っており、既存のデータを活用してモデルのパフォーマンスを強化する際の効率と有効性が強調されています。

SPIN は、より広範なデータセットでトレーニングされたモデルと同等のパフォーマンスを達成することでその強みを示します。反復トレーニングのプロセスでは、複数回の反復にわたってモデルのパフォーマンスを系統的に強化し、特に TruthfulQA や GSM8k などの難しいベンチマークで大幅な改善を示します。

そのため、SPIN は、人間による追加の注釈付きデータを必要とせず、セルフプレイを通じて生成された合成データセットを効率的に活用することで、DPO を含む従来のトレーニング方法よりも優れたパフォーマンスを発揮します。

SPIN の強みとコストは何ですか?

SPIN はセルフプレーのダイナミックな変化球を投げます。

これは、言語ボクシングのリングで言語モデルがスパーリングし、各ラウンドで新しいトリックを教えられるようなものだと考えてください。

SPIN のデータ効率により、人間が注釈を付けた新しいデータセットの必要性が回避されます。

しかし、より重要なことは、改善ループが加速され、モデルが人間のようなテキストを生成することにますます熟練するようになるということです。

SPIN は、より大規模な外部データセットでトレーニングされたモデルと一致しているように見えるだけでなく、本質的に独自の出力を研究するため、その反復能力は一貫した利益を意味します。

驚くべきことですよね？

さて、部屋の中の象について話しましょう – 費用

Nous Research の共同創設者@Teknium1の指摘も一理あります。これらの古い言語モデルは、無料でより賢くなるわけではありません。 SPIN を使用した反復的な再トレーニングには、毎回、教師あり微調整 (SFT) という高価なプロセスが含まれます。

ただし、「それだけの価値はあると思います！」とも述べています。また、進化のスピードが速くなり、人間が注釈を付けたデータへの依存度が低くなる可能性があるという長期的なメリットが初期投資を上回りますか?それは興味深い質問です。

ブーム！オープンソース AI の時代が来た

ちょうど昨日、UCLA のコンピュータサイエンス准教授で ByteDance の AI 研究ディレクターであるQuanquan Gu 氏が、誰でも SPIN モデルとデータセットを使用できるようになったと発表しました。これはコードとデータセットだけを意味するのではなく、独自の AI の旅を開始するための事前トレーニングされたモデルを意味します。

SPIN は人間の思考プロセスを反映しています。

SPIN は人間味のあるテキストを生成することで、将来の AI が実行できる推論の基本的な要素を示唆します。一部の LLM 出力がいかにロボットのように感じられるかご存知ですか?まあ、SPINは違います。それは実際に人間の考え方を反映しています。その書き方はとても自然で、将来の AI がどのように自分自身を推論できるようになるかを覗いているかのようです。

これは、チャットボットの音声を良くするだけではありません。

それは、私たちと同じように機能する一種のデジタル思考を生み出すことです。この種の AI ははるかに柔軟で、真の理解が可能になります。

SPIN は、言語モデルをより自然に聞こえるようにするという点で大きな進歩ですが、興奮してその意味を過大評価しがちです。

AI が生成するテキストは印象的ですが (データベースを参照してください)、AI には真の独立した推論能力がまだ備わっていないことを覚えておくことが重要です。

SPIN は真のAGIではありませんが、人間のような文章を模倣する方法は、AI が将来言語を処理および使用する方法における目覚ましい進歩を示しています。

それでも、AI と言語が将来どのように発展するかについて、驚くべき可能性を示唆しています (私たちがホッケースティックの始まりにいるということを思い出していただければ、未来は今日からそれほど遠くありません...)

波及効果は非常に大きくなります。アクセスパスは次のとおりです。

コード: GitHubで入手可能: https://github.com/uclaml/SPIN
データ: Hugging Faceでホストされているこのデータセットは、SPIN 手法を適用したい人にとって簡単にアクセスできます: https://huggingface.co/collections/UCLA-AGI/datasets-spin-65c3624e98d4b589bbc76f3a…
モデル: 事前トレーニングされたモデルも利用可能で、SPIN で強化された言語モデルの実験を有利にスタートできます: https://huggingface.co/collections/UCLA-AGI/zephyr-7b-sft-full-spin-65c361dfca65637272a02c40…
プロジェクトページ: 包括的な洞察と詳細情報については、プロジェクトページが貴重なリソースです: https://uclaml.github.io/SPIN/

要約すると、その反復的な自己改善方法論は、真に人間のようなコミュニケーションを行うことができる LLM の作成に向けた大きな進歩です。