さて、ChatGPT がリリースされてから 1 年以上が経過しました。この転換点の前に、研究コミュニティと業界のリーダーはすでに、特にコンピューター ビジョンの分野で生成 AI に積極的に取り組んでおり、一連の安定した普及に関する発見と応用が行われていました。簡単に要約すると、2022 年は安定した普及の年、2023 年は大規模言語モデル (LLM) の年と考えることができます。
2023 年の初めは LLM の優位性を示し、ChatGPT が広範な導入とイノベーションの先頭に立っていました。今年は、LLM がさまざまな分野に浸透し、理論研究と実際の産業応用の間のギャップを効果的に埋めることができました。 2023 年の LLM の状況を形作った主要なマイルストーンとトレンドを探ってみましょう。また、それらが私たちのテクノロジーとの関わり方にどのような変革をもたらしたのかについても洞察してみましょう。
オープンソース LLM の年
2023 年は、オープンソースの大規模言語モデル (LLM) にとって注目に値する年となりました。最も重要なリリースは Meta の LLaMa シリーズで、その後の頻繁なリリースの前例となり、毎月、毎週、時には毎日新しいモデルが登場しました。 Meta、EleutherAI、MosaicML、TIIUAE、StabilityAI などの主要企業は、公開データセットでトレーニングされたさまざまなモデルを導入し、AI コミュニティ内の多様なニーズに応えています。これらのモデルの大部分はデコーダのみのトランスフォーマーであり、ChatGPT によって確立された傾向を継続しています。今年発売された注目のモデルをいくつかご紹介します。
LLaMa by Meta: LLaMa ファミリーにはさまざまなサイズのモデルがあり、最大のモデルは 650 億のパラメーターを誇り、1 兆 4000 億のトークンでトレーニングされています。特に、小規模なモデル、特に 1 兆のトークンでトレーニングされた 130 億のパラメーターを持つモデルは、より多くのデータでトレーニング期間を延長することで優れたパフォーマンスを示し、一部のベンチマークでは大規模なモデルを上回りました。 13B LLaMa モデルは、ほとんどのベンチマークで GPT-3 を上回り、最大のモデルはリリース時に新しい最先端のパフォーマンス ベンチマークを打ち立てました。
Eleuther AI による Pythia: Pythia は、154 の部分的にトレーニングされたチェックポイントを備えた 16 のモデルのスイートで構成されており、オープンにアクセスでき、透過的にトレーニングされた LLM に関する管理された科学的研究を促進するように設計されています。このシリーズは、LLM をトレーニングするための詳細な論文と包括的なコードベースを提供することで、研究者を大いに支援します。
MosaicML による MPTそしてTIIUAE の Falcon シリーズ:どちらも、1T から 1.5T トークンまでの多様なデータ ソースでトレーニングされ、7B および 30B パラメーターを備えたバージョンを生成しました。特に、今年の後半に、TIIUAE はこれまで最大のオープンソース モデルである 180B モデルをリリースしました。
ミストラル、 ファイそしてシャチ:これらのモデルは、限られたハードウェアと予算の制約に適した、より小型で効率的なモデルのトレーニングに焦点を当てた、2023 年の別のトレンドを浮き彫りにし、AI モデル開発におけるアクセシビリティと実用性への大きな移行を示しています。
小型で効率的なモデル
2023 年には、小型で効率的なモデルが数多くリリースされることになります。この傾向の主な理由は、ほとんどの研究グループにとって大規模モデルのトレーニングにかかるコストが法外に高いことです。さらに、大規模なモデルは、トレーニングと展開のコストが高くつき、メモリと計算能力も大量に必要となるため、多くの実世界のアプリケーションには適さないことがよくあります。したがって、小型で効率的なモデルが今年の主なトレンドの 1 つとして浮上しました。前述したように、ミストラル シリーズとオルカ シリーズはこの傾向の中心人物です。 Mistral は、ほとんどのベンチマークで大型モデルを上回る 7B モデルでコミュニティを驚かせましたが、Phi シリーズはさらに小型でパラメータが 1.3B ~ 2.7B しかありませんが、それでも印象的なパフォーマンスを実現します。
もう一つの革新的なアプローチは、 Orca 2: 小さな言語モデルに推論方法を教えるこれには、GPT-4 などのより大きなモデルから小さなモデルに知識を抽出することが含まれます。より大きなモデルの出力を再現するために主に模倣学習に依存していた以前の研究とは異なり、Orca 2 は、「より小さな」LLM、特に 7B および 13B パラメータを持つ LLM に、ステップバイステップ分析やリコールなどのさまざまな推論方法を装備することを目的としています。 -その後、テクニックを生成します。このアプローチにより、これらのモデルは各タスクに最適な方法を特定して適用できるため、Orca 2 は同様のサイズのモデルを大幅に上回り、さらには 5 ~ 10 倍大きいモデルと競合することができます。
小規模で効率的なモデルの成功は、データの品質と迅速な注意のコツに大きく依存します。ミストラルはトレーニング データの詳細を明らかにしていませんが、効果的なモデルをトレーニングするにはデータの品質が重要であることがさまざまな研究やモデルで示されています。今年最も注目すべき発見の一つは、リマ: 「調整には少ない方が良い」これは、わずか 1,000 のトレーニング サンプルで構成される人間が生成した高品質のデータセットを微調整に使用すると、ChatGPT で生成された 50,000 の応答で微調整された同じモデルよりも優れたパフォーマンスを発揮できることを実証しました。
低ランク適応チューニング
さて、話しましょうLoRAこれは、昨年導入されたパラメータ効率の高い微調整手法の中で最も輝かしいスターとして輝いています。 Low-Rank Adaptation (LoRA) は、LLM を効率的に微調整するためのゲームチェンジャーとして登場しました。 LoRA は、事前トレーニングされたモデルに低ランクの行列近似を導入することにより、パラメーター効率の高い微調整を可能にし、計算負荷とストレージ要件を大幅に軽減します。このアプローチにより、リソースが節約されるだけでなく、基本モデルのコア機能を損なうことなく、さまざまなアプリケーションに合わせたカスタマイズが可能になります。
LoRA は基本的に、事前トレーニングされたモデルの重みを凍結し、トレーニング可能な層 (ランク分解行列) を注入します。これらの行列はコンパクトでありながら、モデルの動作に必要な適応を近似できるため、元のモデルの知識の完全性を維持しながら効率的な微調整が可能になります。 LoRA の最も頻繁に使用される亜種の 1 つは次のとおりです。 QLoRA (量子化された低ランク適応) 。これは、低ランク行列を量子化することにより、バニラ LoRA のメモリ効率を向上させたバージョンです。このアプローチにより、メモリ フットプリントを増やすことなく、計算量を少なくすることなく、微調整プロセスで低ランクの行列を使用できるようになります。
専門家の混合
の専門家の混合 (MoE)このアプローチは、昨年の LLM アーキテクチャの大きな進歩を表しています。 MoE は長い歴史を持つ機械学習パラダイムであり、複雑な問題をより小さく管理しやすいサブ問題に分割することで簡素化し、それぞれのサブ問題に特化したサブモデルまたは「専門家」が対処します。これは、各メンバーが特定の分野で優れているスペシャリストのチームを持つことに似ています。 MoE モデルでは、各専門家はデータまたはタスクの特定のサブセットに集中します。特定の入力に対してどのエキスパートを使用するかは、トラフィック ディレクタとして機能する「ゲート メカニズム」によって決定され、タスクを最も適切なエキスパートにルーティングします。この方法により、MoE モデルは広範囲のタスクを効率的かつ正確に処理できるようになります。 MoE は、多様なモデルの長所を組み合わせて、単一の均一なモデルでは対処するのが難しい複雑なタスクのパフォーマンスの向上につながるため、特に有益です。これは、必要な専門知識を持つ担当者が問題のあらゆる側面を確実に管理し、より洗練された効果的なソリューションを生み出すことができる、自由に使える専門家のチームを持つことに似ています。
昨年リリースされた最も注目すべき MoE モデルの 1 つは、ミストラル-8x-7Bこれは、MoE アプローチを使用して、それぞれ 7B パラメータを持つ 8 つの小型モデルを組み合わせることで、印象的なパフォーマンスを達成しました。 GPT-4 は、それぞれ 2,200 億個のパラメータを持つ 8 つのエキスパート モデルで構成される MoE モデルである可能性があるという噂もあります。
言語から一般基礎モデルまで
LLM は汎用基盤モデルに進化しており、その機能は言語処理を超えて拡張されています。この移行は、テキストだけでなくコード、ビジュアル コンテンツ、オーディオなどを理解して生成できるモデルへの移行を意味します。昨年、次のようなモデルが導入されました。 LLaVA視覚用の GPT-4 は、視覚的なコンテンツを理解する際に優れた機能を提供します。これは、一般基礎モデルの分野で有望な研究を引き起こしました。近い将来、一般財団モデルは周囲の世界を見て、聞いて、理解できるようになり、人間とのより自然で直感的な対話が可能になるでしょう。
ツールを装備したエージェント
LLM とさまざまなツールやプラットフォームの統合により、AI がよりアクセスしやすく、日常的に使用できるようになります。これらのツールを備えたエージェントは、コーディング支援からクリエイティブライティングに至るまで、特定のタスクに合わせて調整されており、AI は多くのプロフェッショナルなワークフローに不可欠な要素となっています。この開発は、LLM の推論能力と行動能力によって可能になりました。このタイプの機能は、多くの場合、関数呼び出しと呼ばれます。反応するフレームワーク。この機能を有効にする関数呼び出しを含むデータセットでトレーニングされたモデルも多数あります。この機能により、開発者は幅広い単純なタスクやワークフローを自動化できる LLM エージェントを作成できます。
OpenAI は依然として業界の状況を支配している
OpenAI は引き続き業界を支配し、研究と応用の面でリーダーシップを維持しています。 GPT-4と新しいGPTストアChatGPT の機能は引き続き業界標準であり、現時点では競合他社が存在せず、比類のないユニークな高品質の生成 AI アプリケーションを提供します。 OpenAI はまた、最初の組織化によりユーザー コミュニティへの多大なサポートを実証しました。 OpenAI 開発日Anthropic は、主力の LLM であるにもかかわらず、最も有望な競合他社の 1 つとして浮上しています。クロード、まだ広く普及していません。もう一つのテクノロジー巨人であるGoogleがリリースしたジェミニレポートによると、これは OpenAI の GPT シリーズと比較して非常に印象的でした。しかし、コミュニティ内ではまだ十分な支持を集めていません。彼らが Gemini の最大バージョンをリリースする予定の 2024 年に何が起こるか見てみましょう。
結論
2023 年は、大規模言語モデル (LLM) の分野で大きな成長と革新の時期を迎えました。オープンソース モデルによる AI の民主化から、より効率的で特化したシステムの開発に至るまで、これらの進歩は単なる技術的な偉業ではなく、AI をよりアクセスしやすく、さまざまな領域に適用できるようにするための一歩でもあります。将来を見据えると、これらのテクノロジーが産業を変革し、人間の能力を向上させる可能性は、引き続き刺激的な見通しです。 2024 年には、Meta が LLaMA-3 をトレーニングする計画を発表し、それをオープンソース化する計画があるなど、さらに注目に値するマイルストーンが期待されています。業界の状況では、Google のような巨大企業や Anthropic のような新興企業が OpenAI を超えることができるかどうかにも強い関心が寄せられています。
その他の記事については、私の個人ブログにアクセスして購読してください。