人間はLLMの形でAIのための「脳皮質」の類似物を創造したが、脳の創造は別々の問題である 結局のところ、熱力学と現代のバッテリーの密度は、ロボットを囲むハイペースのこの騒がしく加速した電車全体を駆逐する準備ができている この記事では、ロボットのための完全な脳を作成する問題におけるその解決の課題と方法を分析しようとします。 ChatGPTの爆発的なリリースとその後の大規模な言語モデルのレース(LLMs)の後、テクノロジーの世界の想像力は、完全に論理的な結論に達した: 「もし我々がすでにチューリングのテストを合格し、作業コードを書き、可動ソネットを構成するAIを持っているなら、ヒューマノイドロボットの時代は避けられないものであり、文字通り明日の朝、コーヒーの直後に到着するだろう」 表面上では、この論理は具体的で、浸透しきれないように見える。 私たちは「Mind」(OpenAI、Anthropic、Googleの最も強力なモデル)を所有しています。 私たちは「ボディ」を持っています(ボストン・ダイナミクス、テスラ・オプティマス、図のメカニズム)。 投資家は真摯に、子供っぽく信じている:それは単純にワイヤーを接続し、そして2030年までに、ロボットバトラーがきれいに洗濯物を折りたてて、ラットを作ります。しかし、私はこの激しいハイプのキャンプの火に氷水のボウルを注ぎます。問題は人工知能ではありません。問題はソフトウェアではありません、コードではありません、論理ではありません。問題は思考(コルテックス)と運動(セレベル)の違いの根本的な、最も深い誤解にあります。 人類はデジタルアインシュタインを作り出したが、議論はないが、我々は狂気の頑固さをもって、彼を靴のロープの平凡な結合のために、私を許して、背後にポータブルな原子力発電所を必要とする身体に押しつけようとしている。我々は「鉄の壁」を無視している――熱的、エネルギー的、物理的。パイソンで何らかの量のコードによって回避できない壁。 The "Couch Problem" — Why Physics Is Harder Than Poetry 「ソファの問題」―なぜ物理学は詩よりも難しいのか AIの世界では、私たちはしばしばモラベックのパラドックスを賢明な見方で引用します:「コンピュータをインテリジェンステストやチェックアウトで成人レベルのパフォーマンスを表示させることは比較的簡単で、感覚と移動性に関して1歳の子供のスキルを与えるのは難しいまたは不可能です」 厳しい思考実験を実行しましょう 2030モデルの高度なヒューマノイドロボットを想像してください。しかし、これはソフトボディダイナミクスと最も複雑な逆転キネマティクスの分野からの数学的悪夢です。 以下は、アダムの不幸な「Cerebellum」(動き処理ユニット)がリアルタイムで計算しなければならないもので、遅延(ピン)が2ミリ秒未満で、そうでなければ災害が起こります。 Approaching the couch, his vision system must instantly identify the surface. What is this? Is it leather? Is it velvet? Is it a rigid wooden bench with a thin cushion or a deep, sinking beanbag chair? He cannot simply "guess." If he calculates the coefficient of friction of the leather incorrectly, he will slip. If he underestimates the compressibility of the cushions, he will fall backward. Material Analysis: Unlike walking on concrete (a hard, predictable surface), a couch is a deformable object. When Adam begins to lower his heavy, 80-kilogram metal frame, the surface changes shape. His onboard computer must solve partial differential equations in real time to predict exactly how the foam rubber will compress under his "rear end," in order to find a new center of gravity. "Crash" Simulation: This is the most complex part. A human has thousands of tactile sensors in the skin. When you sit down, your body instantly, at the level of spinal reflexes, micro-corrects muscle tension based on the pressure that you feel. Adam requires thousands of pressure sensors on the entire chassis. The flow of data from them is huge. He needs to process gigabytes of tactile data per second, combine them with gyroscope data, and send commands to dozens of actuators (motors) to balance. Feedback Loop: 「枕を感じた」と「エンジンに適用された電流」の間の遅れが5〜10ミリ秒を超えると、アダムは自ら刺激する振動のサイクルに入る。彼は震え始める、そして彼は崩壊する。これをスムーズにすること - 人間の恵みと一緒に座り、タイルの袋のように落ちない - 現代のデータセンターに匹敵する現地の計算力が必要です。 Thermal Nightmare: A Server Rack on Legs 「Thermal Nightmare: A Server Rack on Legs」 「Couch Problem」を解決するには、ビジョン、ヴォクセルワールドビルディング、柔らかい体の物理的シミュレーション、リアルタイムで40エンジンの制御は、スマートフォンチップの話ではありません。モバイルプロセッサを忘れてください。我々は、NVIDIA H100レベルの少なくとも2つのGPU(またはその将来の類似体B200)に相当する計算力について話している可能性があります。 エネルギー消費量(TDP):高度なAI加速器はピーク負荷下で700から1000Wの消費量を消費します。楽観主義者になり、奇跡的で超効率的な2ナノメートルチップが現れたと仮定します。ロボットの「脳」は世界を高度な詳細で処理するためにわずか1500W(1.5 kW)を消費します。これに狂気のセンサー(LiDAR、高解像度カメラ)とパワーモーター自体(歩行には膨大なエネルギーが必要です)を追加します。我々は、単に存在し、落ちないために2,5から3 kWの継続的な電力を消費するマシンを見ています。 熱力学:熱力学は知られているように、騙されることはできません。チップが1500Wを消費する場合、それは正確に1500Wの熱を放出します。あなたは1000Wの電源ユニットを持つ強力なゲームPCを見たことがありますか?それは巨大なラジエーターとフラワーファンが必要です。今、純粋に精神的に、このような冷却システムを人間の頭部または薄いトルコのボリュームに押し付けることを試みます。これは物理的に不可能です。空気冷却は単に十分ではありません。ロボットの頭部は離陸ボーイング747のタービンのようにフラッシュし、わずか数分でプラスチックケースを溶解します。あなたは液体冷却、ポンプ、タンク、およびラジエーター Battery Limit 次に、エネルギー密度の問題です。テスラモデルSは、バッテリー(容量約100kWh)で構成される巨大な平らな底を持っています。ヒューマノイドロボットは、小さな胸の穴だけを持っています。次の世代の素晴らしい固体電池でさえ、あなたは現実的に体内に2〜3kWhのエネルギーを押し込むことができます。そうでなければ、ロボットは歩くのに重すぎて、自分の関節を砕くでしょう。 エネルギー経済を計算してみましょう: 容量:3kWh 消費電力:3kW 作業時間:1時間 もしロボットが複雑なことをしているなら(負荷で階段を登るか、そのソファの物理を計算する)自律運用時間は20〜30分にまで減るだろう。 The Memory Bottleneck: The World Weighs A Lot The Memory Bottleneck: The World Weighs A Lots (メモリー・ボトレネック) 問題はプロセッサの中だけではなく、問題は記憶の中にもあります。LLM(Large Language Models)は、私たちが慣れているテキストで作業しています。テキストは軽い物質です。物理世界は重い。ロボットが混乱したアパートで自らを指向するためには、ダイナミックなVoxelマップ(世界の詳細な3Dグリッド)が必要です。 遠いフィールド(10m+):低解像度(メーター) 近いフィールド(1m):高解像度(センチメートル) コンタクトフィールド (0m): マイクロ解像度(ミリメートル/マイクロン) ロボットが薄いガラスの水のトンプラーを手で手に入れるときは、トンプラーの正確な摩擦率と形状、テーブルの濡れた滑らかな点、および指の位置を1ミリメートルまで正確に覚えなければなりません。これは超コンピュータのメモリアーキテクチャを持ち込む自律的なモバイルデバイスを要求します。 The Dotcom Bubble in Robotics 「Dotcom Bubble in Robotics」 私たちはすでにこのパターンを見たことがあるが、歴史は周期的なものである。1999年に、狂ったドットコムバブルの時、投資家はウェブワン(食料品配達)のような企業に数十億ドルを注ぎ込んだ。アイデアは正しかった、発明的だった。オンライン商取引は本当に未来だった。しかしタイミングは間違っていた。1999年に私たちはスマートフォンを持っていなかった、安い4G/5Gはなかった、最適化された倉庫物流はなかった。インフラストラクチャは物理的にこのビジョンをサポートすることができなかった。Uber、Instacart、アマゾンのためのさらに15年の「ハードウェア」の進歩が必要でした。 今日、2026年、私たちはロボティクスバブルに陥っています。我々は人類型のアイデア(ビジョン)に投資し、完全に不快な事実を無視し、可能なハードウェア(エネルギー密度、効率的な熱消化、消費量の低い神経細胞チップ)が約15~20年遅れています。我々は2040年のオペレーティングシステムを2026年のハードウェア上で実行しようとしています。まさにこれが、来る10年に、スターウォーズ映画のR2-D2に似たロボットがC-3POに勝利することになる理由です。C-3PO(人類型)は、常に2つの足でバランスを取ることにエネルギーを費やさなければなりません。R2-D2(専門的なボ "Avatar Protocol" — How to Break the Iron Wall 「アバター・プロトコル」 How to Break the Iron Wall それでは、これはすべてですか? 私たちは、冷蔵庫からビールを持ち込むことができ、途中で落ちないロボットのための条件年2045まで待つことになるのでしょうか? 私たちは、アンドロイドの夢が科学小説の棚に塵を集める間、永遠に「スマートな真空」に閉じ込められていますか? もし私たちが現在の道を歩き続けるならば、スーパーコンピュータを自動ロボットの緊密な頭蓋骨に閉じ込めようとするならば、おそらくそうでしょう。シリコンの物理学は私たちを打ち負かすでしょう。 しかし...穴があります。私は、熱の制限を乗り越え、バッテリーの制限を越えて、このコンセプトを構築することを可能にするエンジニアリング Concept: Split-Brain Architecture テーマ:Split Brain Architecture 現在のアプローチ(テスラ・オプティマス、図、等)の根本的な誤りは、ロボット内部の全神経系を圧迫しようとする試みである可能性があります。 両方のコルテックス(論理、計画)、Cerebellum(物理、バランス)、および脊椎線(反射)です。 「アバター・プロトコル」は、激しい外科的介入を提案します:私たちは体外のより高い脳機能を移動します。 このアーキテクチャでは、ロボットは自律的な生き物であることをやめます。 彼はターミナルとなっています - センサーとアクティベーターのハイテクの「人形」で、超高速の外部スーパーコンピュータへの接続の見えない線に縛られています。 1. Body (Local Level / The Edge) 店の床を歩く人間型ロボットは、計算の面で最大限に柔らかい。 Inside the robot stands only a low-power, cold specialized chip (for example, based on FPGA or an energy-efficient ARM processor). "Spinal Cord" on board: It does not think. It does not plan the route. It does not calculate the physics of the couch. Its tasks are exclusively Reflexes and Safety. Functions of the Spinal Cord: Maintaining a vertical position at rest. Stabilization (PID controllers): This is critically important. If the connection with the External Brain is interrupted for even 50 milliseconds, the Spinal Cord instantly intercepts control and transfers the robot into a safe pose (for example, crouch and freeze) so that it does not fall. Emergency Stop (Dead Man's Switch): The robot consumes minimum energy on calculations. The entire battery goes to the motors, which increases the operating time by 3-4 times. Result: 2. Brain (Remote Level / The Core) ロボットから100~500メートルの半径(倉庫の隅、建物のサーバールーム、または建設現場のモバイルコンテナ)に、コンピュータノードが立っている。これはバージニア州のどこかにあるアマゾン雲ではない。 Infinite Energy: Here we place those very hot and ravenous NVIDIA H100/B200 cards. We have terabytes of RAM. 無限のエネルギー:ここに私たちは、非常に熱くて狂ったNVIDIA H100/B200カードを置きます。 Functions of the External Brain: Construction of that very super-detailed 3D map of the world in real time. Voxel Mapping: The Brain receives data from the robot's sensors and runs thousands of simulations of "sitting on the couch" per second, choosing the optimal trajectory. Physical Simulation (Isaac Sim): It sends the robot not a high-level command "Sit," but a low-level stream of data: "In 10ms bend knee actuator No. 4 by 1.2 degrees with force X." Movement Generation: 外部脳は、バッテリーや熱によって制限されていません。我々は10キロワットのコンピューティングパワーをそこに置くことができます。我々は、ボードチップにアクセスできない数兆のパラメータを持つニューラルネットワークを開始することができます。 3. Umbilical Cord (Communication Channel) 「アバター」が機能するためには、「眼の」と「足の曲がり」の間の遅延は最小限でなければなりません。 Ping(Round Trip Time)は10~15ミリ秒未満でなければなりません。 技術:通常のオフィスWi-Fiは適合しません。産業ソリューションが必要です:Wi-Fi 7(802.11be)またはプライベート5G / 6G(mmWave)。 ロボット・アバターがソフトソファに近づく。 How does this solve the "Couch Problem" in practice? Sensorics (T=0ms): ロボットの体のカメラとリダルは、原料データを収集します。 送信(T+5ms):データは5G経由で部屋の角にあるサーバーキャビネットに送信されます。 思考(T+20ms): 外部脳(Cerebellum)はデータを受け取ります. 強力なGPUはソファの物理モデルを構築し、ロボットの重さの下でその変形を予測し、次の100msの動きのための40の筋肉アクティベーターのための理想的な緊張シーケンスを生成します。 コマンド(T+25ms):指示パッケージがロボットに戻ります。 アクション(T+30ms):現地の脊髄は指示を受け取り、モーターコントローラに送信します。 捕獲はどこにありますか? 30msの遅延さえ、理想的なバランスを保つために非常に多いかもしれません。したがって、外部の脳は単に反応するのではなく、予測します。 時間の小さな予測でコマンドを送信します。 現地の脊髄は、最後のミリ秒で現実に対する予測をチェックし、マイクロ修正を行います。 Economic and Strategic Justification 経済的・戦略的正当化 「人工知能 - Cerebellum」の作成:なぜサーバー、産業ネットワーク、重いインフラストラクチャからこのルーブ・ゴールドバーグマシンを構築するのか?単に座って新しいチップを待つのではなく? 答えは戦術にあるのではない。 答えは...あるいは、より正確に言えば、答えの基礎は、AI開発のグローバル戦略にある。 われわれわれはオプティクスを根本的に変える必要がある。 われわれわれは、漫画から「鉄人」を作るという任務としてロボットを観るのをやめなければならない。 1. Laboratory without Constraints (Freedom from Constraints) 自動ロボットの緊密で過熱した頭蓋骨の中で完璧なモーターインテリジェンスを開発しようとすることは、本質的にシシシフィアの仕事です。これは計算機でGPT-4をトレーニングしようとしているのと同じです。これは死んだ終わりです。 技術の死んだ終わりです。 「アバター・プロトコル」は「高等科学学校」の条件を作り出す。 脳をクールでデスクトップサーバーのラックに移すことで、我々はエネルギーと計算力のすべての物理的制限を完全に取り除きます。 我々は科学者やエンジニアに無限のリソースを与えます。 Carte blanche. It is precisely in this environment, in this digital incubator, that we can create, grow a true AI-Cer 2. Body Polymorphism: From Humanoid to Factory 最も重要なことは、最初の見方で無視することができる:このアーキテクチャでは、ヒューマノイドは単に特別なケースです. これは可能な体のうちの1つに過ぎません. 私たちがサーバーキャビネットに強力な集中された「Cerebellum」を作成すると、私たちにとって何をコントロールするかはまったく重要ではありません. 体は置き換え可能な周辺装置になります. シナリオA:これは複雑なヒューマノイド救助者破片の一つかもしれない。 シナリオB:これはアマゾンの倉庫で100台のシンプルで安価な車輪のロボットの群れかもしれない。彼らは自分の脳を必要としません、彼らは「バカ」です。彼らは倉庫の隅に1人の「ドライバー」によってコントロールされ、彼らの動きを単一の生物として調整し、衝突を排除し、自律的な孤独者には絶対にアクセスできない効率でルートを最適化します。 シナリオC(産業):このAIの体は一つの工場になる可能性があります。CNCライトまたは最も複雑なフライスインストールを想像してください。もし彼らを「外部の脳」に接続すると、マシンは文字通り金属を「感じる」ようになります。それはリアルタイムでミリ秒で切断を修正し、マイクロ振動と材料の不均一性を感知し、経験豊富なマスターがシゼルで木を感じるように。 このコンセプトでは、工場はロボットとなり、機械はその肢体となる。 3. The "Spillover Effect" of Discoveries これは、アポロ月面プログラムのような大規模な科学プロジェクトの古典的な原則です. 遠隔でヒューマノイドを制御するという超複雑で野心的な任務に取り組むことで、我々は必然的にビジネスにすでに必要とされているテクノロジーを作り出します。 超高速で保証されたタクティルデータ転送プロトコル(タクティルインターネット) 産業機器を制御するためのリアルタイムの適応システム。 物理データを圧縮する新しい方法 理想的な、完全に自動的なアンドロイドが2040年にのみ現れる場合でも、「アバター・プロトコル」のテクノロジーは明日すでに報酬を払い、スマート工場、テレメディカル、複雑な物流で利益をもたらし始めます。 Conclusion: We Are Building a Mind, Not Just a Doll 「アバター・プロトコル」は、プロセッサの過熱を回避するための単に賢いエンジニアリング方法ではありません。これはパラダイムの転換です。私たちはロボットを孤独で孤立したデバイスとして考えることに慣れています。しかし、未来は、自律的な孤立者ではなく、集中的なモーターインテリジェンスです。私たちは困難な選択に直面しています: 物理の「鉄の壁」に向かって頭を叩き続け、破壊できないものを小さなバッテリーに縛り付けようとし、出力時に「スマートな真空」を受け取る。 あるいは、心(CortexとCerebellumの両方)がエネルギーと涼しさがある場所に住むべきであることを正直に認め、体は単に世界との相互作用の代替可能なツールにすぎない。 私は第2の道を提案します。粗量計算力の道。この「ビッグキャビネット」を構築しよう。世界で最も完璧な「Cerebellum」を作り出すようにしましょう。そして今日、明日、それは高精度の機械を制御します。我々は未来を待つ必要はありません。我々は単に脳を方程式から取り出す必要があります。 免責申告:私はロボット会社のディレクターや大企業のCTOではありません。私はこの話題に魅了され、現在のアプローチの物理的限界を見ている金融アナリストです。上記のコンセプトは、理論的アーキテクチャであり、テクノロジーのダークエンドから抜け出そうとする試みです。 私はロボット会社のディレクターや大企業のCTOではありません。私はこの話題に魅了され、現在のアプローチの物理的限界を見ている金融アナリストです。上記のコンセプトは、理論的アーキテクチャであり、テクノロジーのダークエンドから抜け出そうとする試みです。 Disclaimer: