生成型 AI は、まさにテクノロジーの旋風です。GPT-4 のようなモデルは、人間の会話を模倣したテキストを生成したり、エッセイを書いたり、コードを書いたり、かなり複雑なタスクに独創的な解決策を考え出したりするという、非現実的な能力で世界を席巻しました。私たちは、デジタル アシスタントが私たちのニーズを難なく理解し、それに応えてくれる AI 支援の未来に、着実に近づいています。誰もが信じるようになるには十分ですよね?
まあ、ほぼ…だけど、まだちょっと違う。
GPT の派手な出力と文法の巧妙さの裏には、多くの技術者を悩ませる根本的な限界があります。生成 AI は、特にワンショット学習のシナリオでは、まったく新しい情報を処理するのに苦労します。この一見単純な (しかしイライラする) 問題は、現在の AI システムの中心的なギャップを明らかにしています。数十億のデータポイントから印象的な文章を合成できるにもかかわらず、実際に新しいもの (これまでに見たこともトレーニングしたこともない) を課されると、GPT スタイルのモデルは固有の壁にぶつかります。
これは、私が「ワンショット一般化パラドックス」と呼んでいるものの図を描き出しています。つまり、GPT のような AI システムがどれほど強力で、どれほど「スマート」に見えても、1 つまたは少数の目に見えない例から迅速に一般化する必要がある場合、システムは崩壊します。
このパラドックスを少し紐解き、その背後にある理由を探ってみましょう。でも心配しないでください。これは純粋に哲学的な話に留まるものではありません。技術的な泥沼に入り込み、現世代の AI が未知のものに直面したときに人間が持つ魔法のような柔軟性に匹敵できないのはなぜなのかを探っていきます。
GPT-4 のようなモデルの核となる素晴らしさは、言語モデルから視覚タスクまであらゆるものを動かすことで有名な、洗練されたTransformer アーキテクチャにあります。この記事の早い段階で専門用語で読者を煩わせたくはありませんが (まだ始まったばかりです)、亀裂がどこで、なぜ現れ始めるのかを理解するには、いくつかの技術レイヤーを解明する必要があります。
まず、GPT はシーケンスベースのモデルファミリーに属し、任意のテキスト内の次の単語またはトークンを予測するようにトレーニングされています。どのようにして、GPT はこれほど優れた能力を発揮するのでしょうか。その大きな理由は、 Transformerに組み込まれた自己注意メカニズムです。このメカニズムにより、これらのモデルは大量のテキストをふるいにかけ、基本的に文の重要な部分に「焦点を当てる」と同時に、シーケンス全体の単語を調べることができます。このグローバル注意メカニズムは、テキストの大部分で文脈に応じた意味を捉えるための基盤として急速に定着しました。
しかし、ここにパラドックスの核心があります。生成 AI はこのトレーニング データに大きく依存しています。生成 AI は、以前に見たデータ内のトークン間のパターンと統計的関係を認識するのに優れていますが、本質的にそのデータに依存しています。モデルがリリースされたとき、GPT-4 は実際には推論したり世界を理解したりすることを学習していませんでした。むしろ、オンライン (書籍、Wikipedia、Reddit スレッド、学術論文など) で見つかった数十億のテキスト例から取得した関連性を活用しています。
したがって、GPT は、首尾一貫した、時には洞察に満ちたテキストを生成する、すべてを見通す神託のように感じられるかもしれませんが、実際に行っているのは、確率的パターン マッチングの印象的なゲームをプレイすることです。つまり、何か新しいもの (量子力学に関する最新の科学論文やニッチな業界特有の専門用語など) が登場すると、それを意味のある形で理解するのに苦労します。
それは...理解できません。
さて、ここで人間と機械は大きく異なります。初めて自分の専門分野を全く超えた概念について読んでいるところを想像してください。あなたは機械工学の世界を進む技術系スタートアップの創業者かもしれません。もちろん、最初に読んだだけではすべての点が結びつかないかもしれませんが、いくつかの例や図をざっと見ただけで、直感的にひらめくことがあるでしょう。ああ、これは制御システムだ!これはあれにつながる!そして、なんと、理解できたのです(少なくとも大部分は)。
このニュアンスはワンショット一般化と呼ばれ、最小限の例に基づいてパターンをすばやく拾い上げたり、まったく新しい情報を理解したりする能力です。これは人間が非常に得意とするものです。私たちは、小さな知識を取り上げ、それをすでに知っているより広いテーマ、構造、または類推に直感的にマッピングします。言い換えれば、ひらめきを得るのに、100 万の例や過去の膨大なデータは必要ありません。
対照的に、生成モデルには世界についての本質的な理解がまったくありません。統計空間をランダムウォークし、どの単語や構造が共起する可能性が最も高いかに基づいて予測を行います。そのため、まったく新しいもの(まったく新しい科学用語、オンラインで公開されたことのない真新しい理論など)を扱うように求められると、真っ先に壁にぶつかってしまいます。簡単に言えば、これまでに遭遇したことがなく、未知の領域を飛び越えるための真の概念的枠組みが欠けているのです。
さて、それはかなり抽象的です。これをさらに詳しく説明しましょう。
生成 AI モデルは、既存のデータ ポイント間を補間することで学習します。つまり、既に見たポイントと使い慣れたパターンの間のギャップを埋めることに関してはエキスパートになりますが、外挿、つまりトレーニング データに前例がない場合に新しい概念に基づいて予測を立てることは苦手です。たとえば、GPT-4 は、何百万もの例があるため、日常言語の「通常の」言語構造をうまく処理できます。しかし、物理学におけるソリトン ファイバー レーザーの最近の進歩の詳細など、新しく非常に専門的なアイデアを求めると、まったく意味不明な言葉になってしまいます。なぜでしょうか。GPT には、このようなニッチで新しい用語に対する統計的な参照点がありません。本質的には、流暢さではもっともらしいものの、構文の正確さのために真の一貫性を犠牲にした、知識に基づいた推測があります。
さて、もう少し技術的なことに詳しい方は、この制限がなぜそれほど頑固なのか、そしてワンショット学習の試行中に内部で何が起こっているのかについて、さらに詳しく調べてみましょう。
ワンショット一般化に関する中心的な問題の 1 つは、自己教師ありトレーニング中にモデルが内部的に表現する情報に関するものです。GPT スタイルのモデルは、制限内で動作しているときはかなり適切に動作します。これは、分布内学習と呼ばれる現象です。十分に広大なトレーニング例を見たトピックの境界内では、GPT-4 でさえ不気味なほど洞察に満ちた出力を生み出すことができます。これは、モデルの構造により、単語と概念の関連性を捉える密なベクトル表現 (コンテキスト化された埋め込みの形式)を介して情報をエンコードできるためです。
しかし、ここで事態は混乱します。モデルが分布外一般化を必要とする状況、つまり、これまでトレーニングされたことのない概念に遭遇する状況に対処しなければならない場合、システムは人間のような推論をしません。このように考えてみましょう。これらのモデルは本質的にパターン マシンであり、統計的な「直感」に依存しています。データを超えて作成または推論する組み込みの能力はありません。
たとえば、GPT が文法規則を学習する方法を考えてみましょう。これは、英語の文章で単語が使用される何千もの方法を暗記するために誰かが座っているようなものです。十分な観察の後、システムは「ああ、主語の後に動詞が来て、次に目的語が来るかもしれない、そして必要に応じて冠詞や前置詞を投げ込む」ことを認識する内部マップを構築します。しかし、まったく新しい言語やまったく新しい文構造が提示されると、この能力は、すでに見た潜在的な(または暗黙的な) 関係のみを認識することに制限されるため、機能しなくなります。
残念ながら、これには限界があります。量子重力二重性のようなあまり知られていない物理学のトピックにおける画期的な発見など、未発表の主題について首尾一貫したテキストを生成する必要があるタスクを考えてみましょう。このモデルには、古い知識を再解釈して新しい可能性を推測するために必要な構成性が欠けています。人間の脳には、柔軟性を与える高レベルの表現(概念、理論、類推!)が常にあります。しかし、GPTにはそれがありません!創造的な飛躍ではなく、予測可能性に基づいて結果を生成します。
これは、前世紀のルートのみをあらかじめプログラムした地図を使って運転するのと似ています。工事中や、過去 6 か月間に発生した曲がりくねった道を進むのには役立ちません。
制限を理解するための第一歩は、密な表現と疎な表現の役割を認識することです。
これはどういう意味でしょうか?
従来のトランスフォーマー モデルは、高密度ベクトル埋め込みで動作します。文中の各トークンは高次元ベクトルで表現され、これらのベクトルは、統語構造、意味、位置のダイナミクスなど、単語間のさまざまな関係を捉えます。しかし、これらの表現は高密度であるため、柔軟で適応的な一般化につながるような抽象化をサポートするには十分に分離されていません。
高密度埋め込みは、モデルのトレーニング中にバイアスと分散のトレードオフによって制限されます。このトレードオフは重要です。1 つのこと (一般的な統計能力) を最適化することで、モデルは他の何か (まったく新しい状況で推論する能力) を犠牲にします。すでに経験した世界に正確に一致するようにメンタル モデルを常に調整していると想像してください。トレードオフは、予測できないシナリオによって完全に混乱することです。複雑でありながらも厳格な統計モデルは、当然のことながら、小さな 1 回限りのケースには苦労します。これは、これらのモデルが「平均的なシナリオ」を繰り返すことに長けており、学習したルールの例外に直面して固まってしまうためです。
ここでの潜在的な重要な解決策は、スパース表現、つまりさまざまな特徴を異なる解釈レベルで分離する次元を作成する技術です。スパース ネットワークは、より柔軟で一般化された方法で情報を表現および取得します。これは、人間が結果を予測する際に、細かい詳細にこだわるのではなく、主要な中核的な特徴に焦点を当てるのとよく似ています。
したがって、ワンショット一般化の問題の 1 つは、現代のネットワーク構造がそのような分離タスクを重視していないことです。つまり、高密度のデータ駆動型パターンに大きく依存しているのです。そのため、最小限のコンテキストでまったく新しい独自の素材を一般化するように求められた場合、ネットワーク構造は失敗します。
幸いなことに、アイデアが尽きたわけではありません。AI 研究者 (私も含めて!) は、AI のワンショット一般化能力を向上させるいくつかの方法について理論化を始めています。最も興味深いアプローチのいくつかは、メタ学習アーキテクチャを中心に展開されています。これらのアーキテクチャは、今日のモデルとは根本的に異なり、システムがパラメータを動的に適応させて新しいデータ タイプに迅速に適合させる学習機能を可能にします。これは、人間のような動作に非常によく似ています。
たとえば、モデルに依存しないメタ学習 (MAML)では、モデルは最小限のトレーニング例で新しいタスクを学習するように調整されます。メモリ拡張ニューラル ネットワーク (MANN) は、学習したコンテキストを複数のインスタンスに保持することで同様に機能します。これは、過去の重要な教訓を記憶し、新しい同様の状況に遭遇したときに直感的に再利用するのと似ています。
シンボリック推論機能をディープラーニング モデルに統合することも、有望なアプローチの 1 つです。シンボリック コンポーネントを備えたモデルは、統計的なオーバーレイに頼るだけでなく、ロジックを通じて「推論」できます。ニューロ シンボリック AIなどの分野では、コネクショニスト モデルとルール ベース システムのハイブリッドが提供され、特に抽象的な推論シナリオで AI が高次の思考をエミュレートできるようになります。
では、これらすべては AI の将来にとって何を意味するのでしょうか。確かに、GPT-4 は、流暢なカスタマー サービス インタラクションを提供したり、一般的な質問に答えたりするときには魔法のように感じられますが、単なる記憶エンジンではないモデルを開発する必要があります。私たちは、転移学習、メタ学習、ニューロ シンボリック アーキテクチャが融合して、より適応性の高い学習者を生み出す未来に向かっています。
ワンショット一般化パラドックスは、AI にとって終末的な行き止まりではありません。これは、知性と柔軟性に関する根本的な前提を再考させる障害です。データだけではこの問題を解決できないため、モデルには、単に記憶するだけでなく、抽象化から学習し、類推を作成し、コア機能を記憶する能力が必要になります。
知識の統合に関しては、将来のモデルは機械よりも人間的である必要があります。そして、最先端の研究者、開発者、イノベーターとして、私たちはまだ、真に柔軟で新しい世界で AI が自ら学習するということの意味を定義する初期段階にあります。
これは単なる技術的な課題ではありません。哲学的な課題です。