AI terus menabrak dinding yang sama Atau mungkin mereka melakukannya, dan hanya menikmati menonton mobil mereka melakukan rutinitas tarian interpretatif pada 60 mph. Apparently, not even Tesla - with its 1.4 Trillion valuation and army of PhDs - knows about this math. Bagaimanapun, di sini adalah kompilasi hits terbesar yang pernah Anda lihat di seluruh YouTube: The Tesla Self-Driving Blooper Reel: Karena tampaknya, bayangan adalah ancaman # 1 untuk keselamatan jalan raya di abad ke-21. - Penghalang Hantu Penghalang Hantu Penghalang Hantu Mengambil kurva dengan kecepatan penuh, kemudian pergi “OH SHIT A CURVE!” dan melemparkan mini-pelecehan dari mana-mana, komedi untuk semua orang, kecuali leher Anda. - Pertunjukan Surprise Party Pertunjukan Surprise Party Pertunjukan Surprise Party Mengendalikan penyesuaian begitu jerky Anda akan berpikir mobil memiliki krisis eksistensial. kiri, kanan, kiri, kanan.. itu tidak mengemudi, itu turun dari jalan raya. - Penangkapan Shuffle Vibrasi Penangkapan Shuffle Penangkapan Shuffle “Mengapa Itu Lakukan Itu?” - Melakukan sesuatu yang tidak dapat dijelaskan sehingga bahkan para peneliti AI yang menonton log hanya menggeleng dan menggelengkan “kelanjutan gradien, mungkin.” - yang The “Why Did It Do That?” “Mengapa dia melakukan itu?” “Mengapa dia melakukan itu?” “gradient descent, probably. “Kemungkinan besar akan turun. Penasaran dengan sisi tersembunyi dari AI? temukan lebih lanjut di halaman José Crespo, PhD. Perbaikan yang Tidak Ada yang Gunakan Tesla dapat menyelesaikan ini - dengan mudah - dengan menggunakan derivatif kedua (produk Hessian-vektor, atau HVP untuk anak-anak yang keren). Jadi bisa Google, Meta, OpenAI, dan hampir setiap perusahaan dengan “Strategi AI” PowerPoint deck. Lihat tabel di bawah ini - perhatikan pola? Tunggu - Ini adalah masalah yang berbeda, bukan? Ini adalah gejala yang berbeda, tetapi penyakit yang sama. Mereka semua menggunakan matematika yang dapat menjawab "Ke arah mana saya harus pergi?" Jalan mana yang harus saya jalani but not “ ” How sharply is this about to change? Tapi tidak” ” Seberapa tajam ini akan berubah? Seberapa tajam ini akan berubah? It’s like asking a GPS for directions but never checking if there’s a cliff ahead. The Root Cause: Your Great-great-grandfather’s Perhitungan Perhitungan As said, in the case of Tesla what is happening is that their cars are reacting to what’s happening right now, not anticipating what’s about to happen. Tidak memprediksi apa yang akan terjadi. Tidak memprediksi apa yang akan terjadi. Ini seperti bermain catur hanya dengan melihat posisi papan saat ini - tidak ada perencanaan, tidak ada strategi, hanya “Aku melihat sepotong, aku memindahkan sepotong.” Chess players call this “beginner level.” Tesla calls it “Full Self-Driving.” Para pemain catur menyebutnya “tingkat pemula.” Tesla menyebutnya “Driving Self-Driving.” Insinyur Tesla, seperti orang lain di Silicon Valley, masih menggunakan kalkulus batas abad ke-19 - setara matematika dengan mencoba streaming Netflix pada mesin telegraf. Sementara itu, solusi telah duduk di rak selama 60 tahun: . dual/jet numbers Serius, siapa yang peduli dengan “wacko, matematika eksotis” yang tidak mereka ajarkan di program CS universitas? Namun, aljabar hyperreal-related ini (dual dan jet) membuat derivatif kedua (HVP) operasi komputasi trivial melalui komposisi elegan dari dua operator urutan pertama (JVP VJP). Namun, aljabar hyperreal-related ini (dual dan jet) membuat derivatif kedua (HVP) operasi komputasi trivial melalui komposisi elegan dari dua operator urutan pertama (JVP VJP). Namun, aljabar hyperreal-related ini (dual dan jet) membuat derivatif kedua (HVP) operasi komputasi trivial melalui komposisi elegan dari dua operator urutan pertama (JVP VJP). “Hold Up – Are You Telling Me... bahwa kalkulus h-limit "standar emas" menjadikannya serpihan, sementara dual / jet membuatnya trivial ... bahwa apa yang tidak dapat diatasi secara komputasi dengan kalkulus h-limit tradisional sehingga banyak kursus Ivy-League memperlakukan standar emas sebagai trivial dengan nomor dual / jet, yang dapat memperbaiki sebagian besar masalah yang terkait dengan kurva jahat di AI kita saat ini? Perhitungan H-limit Pesawat / Jet Menggunakan kalkulus h-limit tradisional Trivial dengan bilangan dual/jet, Ya, itu persis yang And it gets worse. Revolusi Hyperreal: Profesor Perhitungan Anda Tidak Pernah Katakan Ini Perhitungan yang Anda pelajari di perguruan tinggi - yang membawa Anda melalui persamaan diferensial, teori optimasi, dan kursus pembelajaran mesin - Itu hanya . isn’t wrong incomplete Ini seperti belajar aritmatika tetapi tidak pernah diajarkan bahwa multiplikasi hanyalah pengambilan berulang. Here’s the specific problem: Traditional calculus (the h-limit approach): f'(x) = lim[h→0] (f(x+h) - f(x)) / h Ini menentukan derivatif sebagai batas – yang berarti: Batas Matematika yang ketat Sangat baik untuk membuktikan teori Mimpi buruk komputasi untuk apa pun di luar derivatif pertama Mimpi buruk komputasi untuk apa pun di luar derivatif pertama : Why? Karena untuk menghitung derivatif kedua, Anda perlu mengambil batas batas Mengapa ya? Batas dari suatu batas f'(x+h) = lim[h'→0] (f(x+h+h') - f(x+h)) / h' Namun Komputer yang dibutuhkan : f'(x+h) f'(x+h) = lim[h'→ 0] (f(x+h+h') - f(x+h)) / h' Atau Anda berakhir dengan Dua langkah besar yang berinteraksi tidak stabil, atau Anda menggunakan yang sangat sensitif terhadap ukuran langkah dan kebisingan. , sehingga dua pasang derivatif pertama ( ) yang menjadi derivatif kedua yang nyata - Anda adalah Sebaliknya untuk . So, summing up: nested limits (H atau H) higher-order stencils lose derivative structure JVP → VJP don’t compose rebuilding guesses carrying derivatives (H atau H) For a third derivative? Gunakan stencil yang lebih tinggi. Three nested limits or atau atau nest k layers Gunakan stencil yang lebih luas - , truncation tergantung pada urutan stencil, dan Anda masih , sehingga JVP→VJP tidak akan berkomposisi menjadi HVP dalam pipa FD. For the k-th derivative: atau noise blows up as O(h^-k) lose derivative structure So your self-driving car keeps crashing against sun-set lit walls. Dan untuk GPT-5 sekitar 1,8 triliun parameter? Computational impossibility. Pembaca Sharp akan memperhatikan: “Jadi, jika kita tahu fungsi f, kita tidak bisa hanya menghitung f’ dan f’ secara analitis? f f’ f” Great question! Here’s why that doesn’t work for neural networks: Masalah: Jaringan saraf adalah kotak hitam Ketika Anda menulis fungsi sederhana, Anda dapat menghitung derivatif secara analitis: # Kesederhanaan - derivatif analitis bekerja dengan baik f(x) = x2 + 3x + 5 f'(x) = 2x + 3 # Mudah untuk dihasilkan dengan tangan f''(x) = 2 # Even easier But a neural network with 1.8 trillion parameters looks like this: f(x) = σ(W175·σ(W174·σ(...σ(W2·σ(W1·x))...))) di mana : - Setiap 'W' adalah matriks dengan miliaran parameter - Setiap 'σ' adalah fungsi aktivasi nonlinear - Ada ratusan lapisan (GPT gaya) Komposisi dinamis dihitung selama runtime Anda secara harfiah tidak dapat menuliskan bentuk analitis f'(x) karena: Fungsi berubah setiap kali Anda memperbarui parameter (setiap langkah pelatihan) Terlalu besar untuk dinyatakan secara simbolis Ini berisi miliaran komposisi yang terpasang ## Mengapa Perhitungan Tradisional Gagal Di Sini The h-limit formula: f''(x) = lim[h→0] (f'(x+h) - f'(x)) / h Meminta Anda untuk mengevaluasi f’(x+h)’, yang artinya : f'(x+h) = lim[h'→0] (f(x+h+h') - f(x+h)) / h' And here’s the trap: Anda tidak dapat menghitung f' secara analitis (fungsi terlalu kompleks) Jadi Anda mendekati dengan menggunakan perbedaan terbatas (h-limit) Sekarang Anda membutuhkan f' (x + h) untuk derivat kedua (with step size h’) So you approximate using another finite difference that Menggunakan perbedaan yang terbatas that Anda sedang mendekati pendekatan - . Result: errors compound catastrophically Pembaca yang skeptis mungkin terus menentang: "Tapi tidak bisa kita menggunakan sesuatu seperti SymPy atau Mathematica untuk menghitung derivatif secara simbolis?" Secara teoritis, ya, dalam praktek, kita menghadapi masalah yang sama. For a 1.8 trillion parameter model!: Ekspresi simbolik untuk f' akan lebih besar dari model itu sendiri. Komputer akan memakan waktu bertahun-tahun Penyimpanan akan membutuhkan lebih banyak memori daripada yang ada Sederhananya, itu akan menjadi tidak terkontrol secara komputasi. Even for a tiny 3-layer network with 1000 neurons per layer: Example: Simbolik f' tanah dalam jutaan istilah. Simbolik f" melompat ke miliaran istilah. Pertumbuhan adalah kombinasi dengan kedalaman / lebar; trik subekspresi umum tidak menghemat Anda cukup. Lupa saja ya. For hundred of layers? Sudah jelas sekarang? Let’s Bring Back Our Hyperreals Flavor for AI Computing and let’s see what happens when hyperreals face similar scenarios: What Dual/Jet Numbers Do Differently: Automatic Differentiation Bilangan ganda tidak menggunakan batas sama sekali. sebaliknya, mereka: Mengidentifikasi aturan diferensiasi dalam aritmatika Evaluate f with special numbers that carry derivative info Derivatif muncul melalui aritmatika yang mengikuti aturan k-jet membawa jalur Taylor yang dipotong sampai urutan k (nilpotent ε^k+1=0), jadi derivat urutan yang lebih tinggi dalam satu perjalanan. Jets generalize this. fall out The calculus rules (power rule, chain rule, etc.) are , not applied symbolically! So you get all the advantages of analytical solution without using them! Here’s the key: built into the jet arithmetic operations Aturan kalkulus (aturan kekuatan, aturan rantai, dll) adalah , tidak diterapkan secara simbolis! Jadi Anda mendapatkan semua keuntungan dari solusi analitis tanpa menggunakannya! Here’s the key: built into the jet arithmetic operations Tiga perbedaan mendasar Calculus dengan aplikasi aturan simbolik (tidak praktis pada skala AI modern) Process: Write down the function: f(x) = x³ Mengingat aturan daya: d/dx[xn] = n·xn−1 Gunakan secara simbolis: f’(x) = 3x2 Simpan kedua rumus secara terpisah Harus membangun seluruh ekspresi derivatif - ledakan memori eksponensial. For neural networks: Perhitungan h-limit tradisional: pendekatan numerik Process: Pilih ukuran langkah h (guesswork) Evaluate: (f(x+h) — f(x))/h Dapatkan pendekatan dengan kesalahan Problems: Not exact (always has truncation or roundoff error) Can’t compose cleanly Menurun pada pesanan yang lebih tinggi Dual/Jet Numbers Algebra: Evaluation with Augmented Arithmetic (practical at modern AI scale) Process: Extend the number system with ε where ε² = 0 Mengevaluasi f pada (x + ε) menggunakan aritmatika ini Derivatif muncul sebagai ε-koefisien secara otomatis Extend the number system ε² = 0 Tidak ada ekspresi yang dibangun — hanya mengevaluasi sekali dengan angka khusus. For neural networks: Bagaimana Ia Sebenarnya Bekerja: Sihir Binomial dengan Bilangan Ganda Mari kita lihat sebagai contoh mainan bagaimana aturan kekuatan muncul tanpa menerapkan perhitungan apa pun: Example: compute derivative of f(x) = x³ Step 1: Evaluate at augmented input f(x + ε) = (x + ε)³ (Kombinasi dan bukan kalkulus) Step 2: Expand using binomial theorem (x + ε)³ = x³ + 3x²ε + 3xε² + ε³ (ε2 = 0 ) Step 3: Apply nilpotent algebra = x³ + 3x²ε + 0 + 0 = x³ + 3x²ε Step 4: Read the dual number x³ + 3x²ε = (x³) + ε·(3x²) ↑ ↑ value derivative The derivative f’(x) = 3x² emerged through: Pengembangan Binomial (Algebra) Nilpotent Simplifikasi (ε2 = 0) Coefficient Pembacaan NOT through: Aplikasi Power Rule ❌ h-limit formula Perbedaan simbolik Anda tidak menerapkan aturan kekuatan - Anda membiarkan ekspansi binomial mengungkapkannya. Anda tidak menerapkan aturan kekuatan - Anda membiarkan ekspansi binomial mengungkapkannya. You don’t apply the power rule — . Anda membiarkan ekspansi binomial mengungkapkannya Anda membiarkan ekspansi binomial mengungkapkannya Why This Scales When Symbolic Differentiation Doesn’t Pengertian Analisis Simbolik (Symbolic Differentiation): With AI working with neural networkd you must build expressions: Layer 1 Derivatif: ribuan istilah Layer 2 derivative: millions terms (combinatorial explosion) Ratusan lapisan: ukuran ekspresi tumbuh secara eksponensial dalam kedalaman / lebar; bahkan dengan penghapusan subekspresi umum menjadi tidak dapat diatasi untuk membangun, menyimpan, atau menyederhanakan. Memory required: More than all atoms in the universe 👀 Evaluasi bilangan ganda: Never builds expressions: Setiap tensor instrumen menyimpan nilai + ε·derivat Memory: 2× base model (for k=1) Atau 3× model dasar dengan Jets (untuk k=2 dengan derivatif kedua) For GPT-5 (1.8T parameters): k=1: ~14.4 TB → 18.0 TB (totally practical) k=2: ~14.4 TB → 21.6 TB (sesuai dengan ~34 H100 node) ~14.4 TB → 18.0 TB (totally practical) ~14.4 TB → 21.6 TB (sesuai dengan ~34 H100 node) Tapi tunggu - Anda terbang kelas pertama di AI Matematika And there’s still more. Algebra bilangan ganda/jet memungkinkan Anda untuk menggunakan (Yup, jika Anda ingin melayani diri sendiri dan menulis AI nyata yang bekerja, ). composition of functions learn category theory now! Here’s your genius move: Dengan menggunakan fungsi-fungsi tersebut, kita dapat second derivatives for the price of a first derivative!! Hanya dengan menggunakan - tidak mungkin secara struktural dengan perhitungan berbasis batas. How? composition of functions Dalam bahasa Inggris sederhana: mengapa komposisi gagal dengan h-limit Karena : Traditional calculus can’t do JVP∘VJP = HVP JVP melalui perbedaan yang terbatas memberi Anda nomor (pendekatan f’(x)·v) Angka itu tidak memiliki struktur derivatif untuk VJP untuk membedakan Anda harus memulai lagi dengan pendekatan perbedaan akhir baru Operasi tidak rantai - masing-masing membuang struktur yang dibutuhkan berikutnya because: Dual numbers CAN do JVP∘VJP = HVP gives you a dual number JVP with duals (f(x), f'(x)·v) Bilangan ganda ini membawa struktur derivatif dalam koefisien ε-nya VJP dapat membedakannya secara langsung dengan memperlakukannya sebagai input Rantai operasi secara alami - masing-masing mempertahankan struktur kebutuhan berikutnya Dual numbers are algebraically closed under composition. The Practical Consequence what the new paradigm can compute that the old one can’t: Why This Is The Key To Fixing AI Current AI (k=1 only): Bisa menjawab, “Ke arah mana saya harus pergi?” Tidak bisa menjawab, “Berapa tajam arah ini berubah?” Hasilnya: Reaktif, bukan anticipator With composition (JVP∘VJP): Dapatkan derivatif kedua untuk 2x biaya derivatif pertama Can anticipate curves, detect trajectory changes Result: one of many examples - Tesla berhenti menghentikan phantom braking; AI berhenti halusinasi. Tesla stops phantom braking; AI stops hallucinating. Tesla berhenti menghentikan phantom braking; AI berhenti halusinasi. With explicit k=3 jets: Dapatkan derivatif pihak ketiga untuk 3× biaya Can verify topological consistency (winding numbers) Result: Mathematically certified AI outputs Fungsi + Kelebihan Komposisi And why Hyperreal Algebra Matters: Without it (finite differences): Setiap perintah derivatif memerlukan memulai dari awal Kesalahan-kesalahan yang terakumulasi dengan setiap nesting Tidak ada struktur komposisi untuk dimanfaatkan With it (dual numbers): Derivatif Urutan Tinggi = Operasi Urutan Rendah Tepat (dalam titik floating) Automatic (aturan rantai yang dibangun dalam ε-arithmetic) Itulah sebabnya : ✅ Skala bilangan ganda hingga seratus lapisan (memori linier) ✅ Komposisi bekerja (JVPVJP = HVP secara otomatis) ✅ Pesanan yang lebih tinggi dapat diakses dengan nomor Jet ( k = 3, k = 4 dapat dilakukan) Itulah sebabnya : Itulah sebabnya : ✅ Skala bilangan ganda hingga seratus lapisan (memori linier) ✅ Komposisi bekerja (JVPVJP = HVP secara otomatis) ✅ Pesanan yang lebih tinggi dapat diakses dengan nomor Jet ( k = 3, k = 4 dapat dilakukan) And why: Perbedaan Simbolik (Exponential Expression) Perbedaan-perbedaan yang terbatas tidak dapat menyusun (tidak ada fungsi) ❌ h-limit methods break at higher orders (error compounds) SUMMING UP The entire AI industry is stuck at first-order optimization because: Mereka belajar menghitung sebagai h-limit (tidak mengukur) They implement derivatives as finite differences (doesn’t compose) Mereka tidak pernah belajar tentang Teori Kelompok dan Bilangan Hyperreal (tidak dalam kurikulum CS) Meanwhile: Dual numbers make derivatives (not approximations) algebraic objects Jets make higher orders (not exponential) linear in cost Komposisi fungsional membuat derivatif kedua murah (JVPVJP) The math to fix Tesla’s phantom braking, OpenAI’s hallucinations, and Meta’s moderation chaos has been sitting in textbooks since 1960s. Waiting for someone to connect the dots among: the binomial theorem (~400 years old), nilpotent algebra (~150 years old), and functorial composition + hyperreals (~60 years old). To the biggest unsolved problems in AI. Now you know what Silicon Valley doesn’t and see what they cannot. NOTE: In this article, “traditional calculus” means the finite-difference (h-limit) implementation used in practice — pick an h, approximate, repeat — not analytic/symbolic derivatives. Catatan: Dalam artikel ini, "perhitungan tradisional" berarti implementasi h-limit yang digunakan dalam praktek - pilih h, kira-kira, ulangi - bukan derivatif analitis / simbolik. Penasaran dengan sisi tersembunyi dari AI? temukan lebih lanjut di halaman José Crespo, PhD. Gambar yang ditampilkan: Tesla menabrak dinding, sebagian menyala saat matahari terbenam - mudah dihindari oleh pengemudi manusia. Gambar yang dihasilkan oleh penulis dengan Distribusi Stabil. Featured image: Tesla crashing through a wall, partially lit by sunset - easily avoidable by a human driver.