人工知能の分野は前代未聞のイノベーションの激増を経験しているが、公的議論はしばしば大規模言語モデル(LLMs)に固定されている。 そして メタのCEOは、現在のAIの進歩の層を覆い、トークン予測をはるかに超えるビジョンを明らかにした。 ビル・ダリー ヤン・レクン 言語の境界を越えて Yann LeCunは、彼が もうLLMには興味がない。 . not so interested in LLMs anymore LeCunは、より多くのデータ、コンピューティング、および合成データの生成を通じて margins で改善し続ける一方で、これらを「単純な推論の見方」と見ています。 物理世界を理解する:機械はどのようにして現実世界の物理学と相互作用の色合いを把握できるのか? Persistent Memory: 長期的でアクセス可能なメモリの能力を持つAIシステムを開発する。 推論:LLMsにおける現行の、しばしば初期的な推論の形を超えて、より複雑で直感的な方法に移行します。 計画:人間の認知プロセスに似た特定の目標を達成するための行動のシーケンスを計画することを可能にする。 LeCunは、現在LLMに焦点を当てているテクノロジーコミュニティは、5年以内にこれらの「暗い学術論文」に興奮する可能性があると示唆している。 現実世界の課題:なぜトークンが短くなるのか LeCunによると、現在のLLMの根本的な制限は、トークンベースのアプローチにあります。トークンは、通常、限られた可能性のセット(LLMのための約10万)を表していますが、言語のような分離されたデータに適しています。 人間は人生の最初の数カ月間に「世界モデル」を取得し、原因と結果を理解することを可能にします - たとえば、上からボトルを押すと、底から押すと、それが滑る可能性があります。 ピクセルレベルでビデオのような高次元の継続的なデータを予測することによって世界を理解するためのシステムを訓練しようとする試みは、ほとんど失敗しました。そのようなシステムは、予測不能な詳細を発明しようとするリソースを枯渇させ、「完全なリソースの無駄遣い」につながります。破損したバージョンの画像を再構築することによって動作する自律的な学習技術でさえ、代替アーキテクチャと同様に機能しませんでした。 JAPA(Joint Embedding Predictive Architectures):世界モデルの未来 この課題に対する答えは、JAPA(Joint Embedding Predictive Architectures)にあり、ピクセルレベルの再構築を試みる生成モデルとは異なり、JAPAはデータの「抽象的表現」を学ぶことに焦点を当てている。 How JAPA Works: 入力の一部(例えば、ビデオの一部または画像)は、抽象的な表現を生成するために、エンコーダーを通して実行されます。 入力の継続または変換されたバージョンも、エンコーダを通じて実行されます。 したがって、このシステムは、原始入力空間ではなく、この「表現空間」内で予測をしようとします。 このアプローチは、システムが入力を無視し、恒久的で非情報的表現を生成する可能性がある崩壊問題を回避し、それを克服するのに何年もかかった障害です。 JAPA は、推論と計画をすることができるエージェントシステムのために、強力なメカニズムを提供します。世界の現在の状態を観察すると、「私が考えている行動を取るかもしれない世界の次の状態を予測できる予測器を想像してください」これは、望ましい結果を達成するための一連の行動を計画することを可能にし、人間が本質的に考え、計画する方法を反映します。 JAPA for Reasoning and Planning: LeCun は、これを「プログラムを書く方法を知らずにプログラムを書く」ことと強く対照させます - 短いシーケンスを超えるすべてのための「完全に絶望的な」方法は、長さと膨大にスケールするので、その代わりに、真の推論は抽象的な精神状態で起こります。 JAPAの潜在能力の実用的な例は、現在Metaで開発中のVJA(Video Joint Embedding Predictive Architecture)プロジェクトです。短いビデオセグメントで仮面版から完全なビデオの表示を予測するために訓練されたVJAシステムは、ビデオが「物理的に可能かどうか」を検出する能力を示しています。予測エラーを測定することで、自発的に現れるまたは消える物体や物理学に挑戦する物体などの「異常な」イベントを標識することができます。 Advanced Machine Intelligence(AMI)への道 LeCunは、人工一般知能(AGI)に先進機械インテリジェンス(AMI)という用語を好むと、人間の知能の高度に専門化された性質を引用している。 人間レベルのAIが10年以内に到着する可能性がある。 人間レベルのAIが10年以内に到着する可能性がある。 しかし、彼は、AIにおける過剰な楽観主義の歴史的パターンに対して警告するが、それぞれの新しいパラダイムが10年以内に人間レベルのインテリジェンスへの道として宣言されている。 大きなボトルネックはデータです。LLMsは膨大な量のテキスト(例えば、30兆トークン、400,000年の読書に相当する)で訓練されています。それとは対照的に、4歳の子供はわずか16000時間で視覚を通じて同等の量のデータを処理し、視覚学習の巨大な効率性を示しています。 LeCunによると、AMIを解除するための鍵は、JAPAアーキテクチャを規模でトレーニングするための「良いレシピ」を発見することである。JAPAが深層ニューラルネットワークとトランスフォーマーを効果的にトレーニングするために、ResNetのようなエンジニアリングのトリック、非線形性、およびイノベーションの正しい組み合わせを見つけるのに時間がかかったように、JAPAにも同様の突破が必要です。 AIの影響:命を救うツールから生産性ツールへ 将来のパラダイムに焦点を当てるにもかかわらず、LeCunは、AIがすでに持っている巨大なポジティブな影響を強調しています。 科学と医学:AIは薬物の設計、タンパク質の折りたたみ、および生命のメカニズムを理解することを変革しています。医療イメージングでは、深層学習システムは腫瘍のためのマモグラムをプレスクリーン化し、AIはより少ないデータから高解像度の画像を回復することで、MRIスキャン時間を4つの要因で短縮します。 自動車:ヨーロッパで義務化された自動緊急ブレーキと運転支援システムは、衝突を40%削減し、命を救う。 生産性と創造性:AIは人々を置き換えるのではなく、プログラミングアシスタントとして、医学や芸術活動において、個人をより生産的かつ創造的にする「パワーツール」として機能します。 しかし、広範囲に広がる展開への道は常に滑らかではない。自動運転などのアプリケーションにおける「正確性と信頼性」の必要性(エラーが致命的になる可能性がある)は、AIシステムのフィールドアップと展開を「ほとんどの人々が考えたよりも困難に」させる。これが、AIがしばしば失敗する場所です - 基本的な技術やデモではなく、既存のシステムに信頼できるように統合することです。 マタの経験は、LLMの可用性にもかかわらず、彼らはソーシャルネットワーク上に投稿される生成コンテンツの「大きな増加」を見ていないことを示唆しています、または少なくとも悪質な方法ではありません。彼は「Galactica」エピソードを語ります、メタの科学文学のオープンソースLLMは「vitriol」と出会い、恐怖のせいでダウンロードされましたが、チャットGPTが数週間後に祝われることを信じています。 オープンソースとグローバルコラボレーションの不可欠な役割 LeCunの哲学の核心は、オープンソースのAIプラットフォームの絶対的な必要性であると彼は強調し、「良いアイデアは多くの人の相互作用とアイデアの交換から生まれる」という。 PyTorchとLLaMAによって例えられたMetaのオープンソースへのコミットメントは、スタートアップの繁栄するエコシステムを育成し、最も多くのスマートな人々が不可欠な機能の構築に貢献できるという信念によって推進されています。 Why Open Source AI is Crucial for the Future: AIアシスタントの多様性:AIがほとんどすべてのデジタルインタラクション(例えば、スマートメガネ)を媒介する未来では、一部の企業が必要な多様なアシスタントを提供できない。 分散型トレーニング: すべての世界のデータをすべての言語で収集する単一のエンティティはなく、将来のモデルは、分散型に訓練されたオープンソース・ファウンダム・モデルであり、データセンターは世界的にデータのサブセットにアクセスして「コンセンサス・モデル」を訓練する。 LLaMA のようなオープンソースモデルは、企業が独自のデータをアップロードすることなくダウンロードし、アップロードすることを可能にし、専門の垂直アプリケーションやスタートアップビジネスモデルをサポートします。 LeCunは、AIサービス(Metaの広告モデルのような)に収益が関連しているわけではない企業は、オープンソースのモデルを導入することで損失が少なくなり、より多くの利益を得ることができ、これはGoogleのような企業と異なります。 ハードウェア:Fueling the Next AI Revolution GPUは信じられないほどの進歩(ケプラーからブラックウェルに至るまで能力の5000〜1万倍の増加)を経験しているが、抽象空間での推論の計算コストは「我々はハードウェアで得られるすべての競争力が必要になる」ことを意味する。 LeCunは、近い将来、一般的なAIタスクのためのニューロモルフハードウェア、光学コンピューティング、および量子コンピューティングに大いに懐疑的である。彼は、デジタル半導体産業は、代替テクノロジーが追いつくために巨大な挑戦に直面するような「深い地元の最小限」にあることを指摘します。 しかし、プロセッサ・イン・メモリ(PIM)やアナログ・デジタル・プロセッサ・メモリ・テクノロジーは、スマートメガネの低電力視覚処理などの特定の「エッジ・コンピューティング」シナリオに期待を寄せている。 それを視覚皮質に送る前に圧縮し、コンピューティング自体ではなくデータをシャフリングすることはしばしば最もエネルギーを消費することを示しています。 センサーについて The Future: A Staff of Super-Intelligent Virtual People(スーパーインテリジェントな仮想人間のスタッフ) 最終的に、LeCunは、AIシステムが人間の能力を高めるのではなく、それらを置き換える「パワーツール」である未来を予測します。未来のAIとの関係はコマンドのひとつであり、私たちは彼らの「ボス」になり、「私たちのために働く超スマートな仮想人間のスタッフ」になります。 基本的に、AIの未来は突然現れる単一のブラックボックスの実体ではありません。代わりに、それは、それぞれの建築家、建築家、エンジニアがユニークな専門知識を共有された青図に貢献し、高度な機械知能の活気のある多様な大都市へと導くような、コラボレーションの繰り返しプロセスです。