AIは同じ壁に衝突し続ける あるいは、彼らはそうするかもしれないし、時速60マイルで彼らの車が解釈的なダンスルーチンをやっているのを見るのを楽しむだけです。 Apparently, not even Tesla - with its 1.4 Trillion valuation and army of PhDs - knows about this math. いずれにせよ、あなたがYouTubeで見た最高のヒットコレクションは以下です。 The Tesla Self-Driving Blooper Reel: ↓↓↓ なぜなら、影は21世紀の高速道路の安全に対する第一の脅威だからです。 - ファンタジーブレーキ ファンタジーブレーキ ファンタジーブレーキ ↓↓↓ 完全なスピードで曲がり、その後、「OH SHIT A CURVE!」と行き、あなたの首を除くすべての人のためのコメディー、ミニ・ハリケーンをどこからでも投げ出す。 - サプライズパーティー Turn サプライズパーティー Turn サプライズパーティー Turn ↓↓↓ 車が存在危機に直面していると思われるほどの激しい調整を運転する 左、右、左、右...それは運転ではない、それは 高速道路の下 - 「Seizure Shuffle」 バイブレーション 「Seizure Shuffle」 「Seizure Shuffle」 「Why Did It Do That?」は、AIの研究者たちでさえも、ログを見ているだけで「たぶん、階段の下がり」を揺るがすような説明ができている。 ── The “Why Did It Do That?” 「なぜそうしたのか」の「Why did it do that?" 「なぜそうしたのか」の「Why did it do that?" “gradient descent, probably. たぶん、階段下がりです。 AIの隠れた側について興味がありますか? 詳しくは、José Crespo博士のページを参照してください。 The Fix That Nobody's Using 誰も使わない テスラはこの問題を簡単に解決でき、二次産物(ヘッシャン・ベクトル製品、またはクールな子供のためのHVP)を使用する。 Google、Meta、OpenAI、およびほぼすべての企業が「AI戦略」のPowerPointデッキを持っています。 下のテーブルをご覧ください - パターンに気付きますか? 待て!これらは異なる問題ですよね。 異なる症状ですが、同じ病気です。 彼らは皆、数学を使って「どの道を進むべきか?」と答えることができます。 Which Way Should I Go but not “ ” How sharply is this about to change? 「NO」 ” これがどれだけ急激に変化するのか。 これがどれだけ急激に変化するのか。 It’s like asking a GPS for directions but never checking if there’s a cliff ahead. 原題:The Root Cause: Your Great-Grand-Grand-Father's 計算 計算 As said, in the case of Tesla what is happening is that their cars are reacting to what’s happening right now, not anticipating what’s about to happen. 何が起こるのか予想しない。 何が起こるのか予想しない。 それは、現在のボードのポジションだけを見ることによってチェスをするのと同じです - 計画なし、戦略なし、ただ “I see a piece, I move a piece.” Chess players call this “beginner level.” Tesla calls it “Full Self-Driving.” チェス選手はこれを「初心者レベル」と呼ぶが、テスラはそれを「完全自動運転」と呼ぶ。 テスラのエンジニアは、シリコンバレーの他の人々と同様に、まだ19世紀の限界計算を使用しています - 電報機でNetflixをストリーミングしようとする数学的等価です。 同時に、このソリューションは60年間、棚に座っています: . dual/jet numbers 真剣に言えば、誰が大学のCSプログラムで教えていない「ワッコ、エキゾチックな数学」に迷惑をかけているのか。 それにもかかわらず、これらのハイパーリアル関連のアルジェブラ(ダブルとジェット)は、二次由来(HVP)を二次元オペレーター(JVP VJP)の優雅な構成を通じて計算的に微妙な操作にする。 それにもかかわらず、これらのハイパーリアル関連のアルジェブラ(ダブルとジェット)は、二次由来(HVP)を二次元オペレーター(JVP VJP)の優雅な構成を通じて計算的に微妙な操作にする。 それにもかかわらず、これらのハイパーリアル関連のアルジェブラ(ダブルとジェット)は、二次由来(HVP)を二次元オペレーター(JVP VJP)の優雅な構成を通じて計算的に微妙な操作にする。 Hold Up - Are You Telling Me... 「ゴールド・スタンダード」のh-limit 計算は、デュアル/ジェット数と同時にスロッグを作り、伝統的な h-limit 計算では、多くの Ivy-League コースが、ゴールド・スタンダードがデュアル/ジェット数と同様に、デュアル/ジェット数と同様に、これらのクルー関連の問題のほとんどを修正できるものだということを知っていますか? h-limit 計算 デュアル/ジェット 従来の h-limit calculus で計算できない デュアル・ジェット・ナンバー(Double/Jet Numbers) いやいや、まさにそれ。 And it gets worse. The Hyperreal Revolution: Your Calculus Professor Never Told You 大学で学んだ計算 - 差異方程式、最適化理論、機械学習コースを通じてあなたを導いたもの - ・・・それは単に . isn’t wrong incomplete それは数値学を学ぶのと同じですが、倍増は単なる繰り返しの加算であることを教えられません. You can still do math, but you are doing it the hard way. Here’s the specific problem: Traditional calculus (the h-limit approach): ☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆ この定義 Derivatives as Limits - つまり: 制限 数学的に厳格な 理論を証明するための素晴らしい方法 オリジナルタイトル: Computational nightmare for anything beyond first derivatives ファースト・デリバティブ以外のすべてのためのコンピュータ的悪夢 : なんで? なぜなら、第二の衍生産を計算するには、制限の限界を取る必要があるからである。 なんで? 制限の限界 f'(x+h) = lim[h'→0] (f(x+h+h') - f(x+h)) / h' しかし コンピュータ自体が必要: f'(x+h) ☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆ あるいは、あなたは結局、 2 ステップサイズ 不安定に相互作用するか、あるいはあなたが ステップサイズとノイズに敏感で、両方とも 二次元(二次元) ( ) into a true second derivative - you’re instead of . So, summing up: nested limits (h,h′) higher-order stencils lose derivative structure JVP → VJP don’t compose rebuilding guesses carrying derivatives (h,h′) 第三の由来とは? 高級スタンダードを使います。 Three nested limits or or either nest k layers より幅広いスタンダードを使用する - , truncation depends on stencil order, and you still したがって、JVP→VJPは、FDパイプライン内のHVPに構成されません。 For the k-th derivative: または noise blows up as O(h^-k) lose derivative structure So your self-driving car keeps crashing against sun-set lit walls. そして、GPT-5の約18兆個のパラメータについて。 Computational impossibility. シャープの読者は注目するだろう: 「もし、我々が関数fを知っているならば、我々は単に分析的にf'とf'を計算できないだろうか? なぜ我々はこの限界や二重数を必要とするのか?」 f F」 F」 Great question! Here’s why that doesn’t work for neural networks: 問題:ニューラルネットワークはブラックボックス 単純な関数を書くと、衍生品を分析的に計算できます。 シンプルなケース - 分析衍生製品はうまく機能します。 f(x) = x2 + 3x + 5 f'(x) = 2x + 3 # 手で引くのは簡単 f''(x) = 2 # Even easier But a neural network with 1.8 trillion parameters looks like this: ☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆ どこ: 各「W」は数十億のパラメータを持つマトリックスです。 各「σ」は非線形活性化関数である。 数百のレイヤー(GPTスタイル) 構成はランタイム中にダイナミックに計算されます。 文字通り、f'(x)の分析形態を記述することはできません。 1. 機能は、パラメータを更新するたびに変更されます(各トレーニングステップ) 2.象徴的に表現するには大きすぎる 3. It contains billions of nested compositions. それは何十億もの組み合わせを含んでいる。 ### 伝統的な計算がここで失敗する理由 h-limit 公式: ☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆ 評価する必要がある f'(x+h)`は、以下を意味します。 ☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆ And here’s the trap: 分析的に f' を計算できない(機能が複雑すぎる) したがって、あなたは限られた差異(h-limit)を使用してそれに近づきます。 Now you need f'(x+h) for the second derivative. 次に次に次に次に次に次に次に次に次に次に次に次に次に次に次に次に次に次に次に次に次へ。 したがって、あなたは別の限られた差(ステップサイズh’)を使用して、その差を近づける。 準差を用いて接近する あの あなたは近づきに近づいている - . Result: errors compound catastrophically The skeptical reader might continue objecting: ”But can’t we use something like SymPy or Mathematica to compute derivatives symbolically?” 理論的にはそうですが、実践では同じような問題に直面しています。 For a 1.8 trillion parameter model!: f'の象徴的表現は、モデル自体よりも大きい。 コンピュータは、何年もかかるだろう。 保存するには、既存のメモリよりも多くのメモリが必要になります。 単純化すれば、コンピュータ的に不具合になるだろう。 たとえ小さな3層のネットワークであっても、1つの層あたり1000個のニューロンを持つ場合: Example: 数百万の用語で象徴的なfの土地。 象徴的なfは数十億の用語に飛び込む。 成長は深さと幅の組み合わせであり、一般的なサブ表現のトリックはあなたを十分に節約しません。 忘れろよ For hundred of layers? もうクリア? Let’s Bring Back Our Hyperreals Flavor for AI Computing and let’s see what happens when hyperreals face similar scenarios: Double/Jet Numbers Do Differently: Automatic Differentiation (デュアル/ジェット・ナンバーの違い) Dual numbers don’t use limits at all. Instead, they: Encode the differentiation rules in the arithmetic. 数学における差異のルール derivative information を持ち込む特殊な数字で f を評価する Derivatives Emerge Through Rule-Following Arithmetic(ルールに従う算法) k-jets carry truncated Taylor lanes up to order k (nilpotent ε^k+1=0), so higher-order derivatives in one pass. Jets generalize this. fall out ここに鍵があります: 計算のルール(パワールール、チェーンルールなど)は、ジェット数値操作に組み込まれており、象徴的に適用されていません! したがって、それらを使用せずに分析ソリューションのすべての利点を得ることができます! 計算ルール(パワールール、チェーンルールなど)は、 , 象徴的に適用されない! だからあなたはそれらを使用せずに分析ソリューションのすべての利点を得る! Here’s the key: built into the jet arithmetic operations 3 基本的な違い Symbolic Rule Application (impractical at modern AI scale) Process: 関数: f(x) = x3 パワールール: d/dx[xn] = n·xn−1 それを象徴的に適用する: f’(x) = 3x2 両方の公式を別々に保存する Must build the entire derivative expression — exponential memory explosion. For neural networks: Traditional h-Limit Calculus: Numerical Approximation Process: Choose a step size h (guesswork) 評価: (f(x+h) - f(x))/h Get an Approximation with Error(エラーで接近する) Problems: 正確ではない(常にトランクションまたはラウンドオフエラー) Can’t compose cleanly Breaks down at higher orders Dual/Jet Numbers Algebra: Evaluation with Augmented Arithmetic (practical at modern AI scale) Process: 数値システムを ε で拡張し、 ε2 = 0 この数値を使用して(x + ε)で f を評価します。 automatically Derivatives appear as ε-coefficients ナンバーシステムの拡張 ε2 = 0 No expression built — just evaluate once with special numbers. 線形メモリスケーリング。 For neural networks: How It Actually Works: The Binomial Magic with Dual Numbers デュアルナンバー ゲームの例として、パワールールが何の計算も使わずに現れる方法を見てみましょう。 Example: compute derivative of f(x) = x³ Step 1: Evaluate at augmented input f(x + ε) = (x + ε)³ (combinatorics, not calculus) Step 2: Expand using binomial theorem (x + ε)³ = x³ + 3x²ε + 3xε² + ε³ (e2 = 0) Step 3: Apply nilpotent algebra = x³ + 3x²ε + 0 + 0 = x³ + 3x²ε Step 4: Read the dual number x³ + 3x²ε = (x³) + ε·(3x²) ↑ ↑ value derivative The derivative f’(x) = 3x² emerged through: Binomial expansion (algebra) Nilpotent simplification (ε2 = 0) Coefficient 読み方 NOT through: ❌ Power rule application h-limit 公式 象徴的差異 あなたはパワールールを適用しない - あなたはバイノミー拡張がそれを明らかにすることを許します。 あなたはパワールールを適用しない - あなたはバイノミー拡張がそれを明らかにすることを許します。 あなたはパワーのルールを適用しない── . you let binomial expansion reveal it you let binomial expansion reveal it なぜ象徴的差異化ができないのか シンボリック差別化(分析) With AI working with neural networkd you must build expressions: Layer 1 Derivative: Thousand Terms(レイヤー1) Layer 2 Derivative: Million Terms (Combinatorial Explosion) expression size grows in depth/width; even with common-subexpression elimination it becomes to construct, store, or simplify. Hundreds of layers: exponentially intractable Memory required: More than all atoms in the universe 👀 デュアル・ナンバー評価: Never builds expressions: 各インストラクターテンサーが保存する値 + ε·derivative Memory: 2× base model (for k=1) または Jets を含む 3× ベース モデル (for k=2 with second derivative) For GPT-5 (1.8T parameters): k=1: ~14.4 TB → 18.0 TB (完全に実用的) k=2: ~14.4 TB → 21.6 TB ( ~34 H100 ノードに適合) ~14.4 TB → 18.0 TB (totally practical) ~14.4 TB → 21.6 TB ( ~34 H100 ノードに適合) あなたは、AI数学のファーストクラスで飛んでいます。 And there’s still more. ダブル/ジェット番号のアルジェベラは、あなたが使用することを可能にします。 (Yup、あなたが自分自身に役に立って、実際に働くAIを書きたいなら、 ( ) composition of functions learn category theory now! Here’s your genius move: 機能の構成によって、我々は得ることができる。 second derivatives for the price of a first derivative!! Just by using 制限ベースの計算では構造的に不可能である。 How? composition of functions 原題:Why Composition Fails with h-Limits なぜなら: Traditional calculus can’t do JVP∘VJP = HVP JVP through finite differences gives you a number (an approximation of f’(x)·v) for VJP to differentiate That number has no derivative structure You must start again with a new finite-difference approximation. あなたは新しい限られた差のアプローチから始めなければなりません。 The operations do not chain - each discards the structure the next one needs. 各操作は連鎖しない。 なぜなら: Dual numbers CAN do JVP∘VJP = HVP JVP with duals gives you a dual number (f(x), f'(x)·v) この二重数は、そのコレクター εに由来構造を持ちます。 VJP は、入力として扱うことによってそれを直接区別できます。 オペレーションチェーンは自然に - 各々は、構造の次のニーズを維持します。 Dual numbers are algebraically closed under composition. 実践的な結果 what the new paradigm can compute that the old one can’t: なぜこれがAIの修正の鍵なのか Current AI (k=1 only): 答えは「どの方向に向かうべきか」です。 答えられない「この方向がどれだけ急激に変化しているか」 結果:反応的でなく予測的 With composition (JVP∘VJP): 第2次衍生品のコスト×第2次衍生品のコスト 曲線を予測し、軌道の変化を検出できる 結果:多くの例の1つ - テスラは幽霊ブレーキを止め、AIは幻覚を止める。 テスラは幽霊ブレーキを止め、AIは幻覚を止める。 テスラは幽霊ブレーキを止め、AIは幻覚を止める。 With explicit k=3 jets: Get Third Derivatives for 3× the Cost(コスト) Can verify topological consistency (winding numbers) Result: Mathematically certified AI outputs The Functors + Composition Advantage シンポジウム And why Hyperreal Algebra Matters: Without it (finite differences): Each derivative order requires starting from scratch Errors accumulate with each nesting 利用するための構造構造なし With it (dual numbers): Higher Order Derivatives = Compose Lower Order Operations より低いオーダーのオペレーション 正確(フローティングポイント内) Automatic (chain rule built into ε-arithmetic) だからこそ: デュアル・ナンバー・スケール(Double Numbers Scale to Hundred Layers) 構成作業(JVPVJP = HVP自動) ✅ ジェット番号でアクセスできるより高いオーダー( k=3, k=4実行可能) だからこそ: だからこそ: ✅ Dual numbers scale to hundred of layers (linear memory) ✅ Composition works (JVP∘VJP = HVP automatically) ✅ ジェット番号でアクセスできるより高いオーダー( k=3, k=4実行可能) And why: Symbolic Differentiation Explodes (Exponential Expressions) (象徴的差異化が爆発する) Finite Differences Can't Compose (No Functionality) ❌ h-limit methods break at higher orders (error compounds) SUMMING UP The entire AI industry is stuck at first-order optimization because: They learned calculus as h-limits (does not scale) (彼らは計算をh-limitsとして学びました。 They implement derivatives as finite differences (does not compose) 彼らは、由来を有限の差として実装します。 彼らはグループ理論とハイパーリアルナンバーについて学んだことがありません(CSカリキュラムではありません) Meanwhile: Dual numbers make derivatives algebraic objects (not approximations) デリバティブはアルジェビア的オブジェクト(approximations) Jets make higher orders linear in cost (not exponential) (ジェットはコストでより高いオーダーを作る) 機能構成により、二次衍生製品は安くなる(JVPVJP) The math to fix Tesla’s phantom braking, OpenAI’s hallucinations, and Meta’s moderation chaos has been sitting in textbooks since 1960s. 誰かが2つの点を結びつけるのを待っている:バイノミー理論(約400年)、ニルポッタンアルジェベラ(約150年)、機能構成+ハイパーリアル(約60年)。 To the biggest unsolved problems in AI. Now you know what Silicon Valley doesn’t and see what they cannot. 注:この記事では、「伝統的な計算」とは、実践で使用される有限差(h-limit)の実装を意味します - hを選択し、およそ、繰り返し - 非分析的/象徴的由来。 注:この記事では、「伝統的な計算」とは、実践で使用される有限差(h-limit)の実装を意味します - hを選択し、およそ、繰り返し - 非分析的/象徴的由来。 AIの隠れた側について興味がありますか? 詳しくは、José Crespo博士のページを参照してください。 特集画像:テスラが壁に衝突し、日没によって部分的に点灯 - 人間のドライバーによって容易に避けられる。 Image created by the author with Stable Diffusion で作成した画像です。 Featured image: Tesla crashing through a wall, partially lit by sunset - easily avoidable by a human driver.