L'AI segueix colpejant contra les mateixes parets O potser ho fan, i simplement gaudeixen veient que els seus cotxes realitzen rutines de dansa interpretatives a 60 mph. Apparently, not even Tesla - with its 1.4 Trillion valuation and army of PhDs - knows about this math. De totes maneres, aquí teniu les millors col·leccions de hits que heu vist a YouTube: The Tesla Self-Driving Blooper Reel: Perquè aparentment, les ombres són la #1 amenaça per a la seguretat de la carretera en el segle XXI. - El freno fantasma El freno fantasma El freno fantasma Prèn corbes a la màxima velocitat, després surt “OH SHIT A CURVE!” i llança un mini-assetjament del no-res, comèdia per a tothom, excepte el seu coll. - El torneig de la sorpresa El torneig de la sorpresa El torneig de la sorpresa La direcció d'ajustaments tan agut que vostè pensaria que el cotxe està tenint una crisi existencial. esquerra, dreta, esquerra, dreta .. no és conduir, és baix de l’autopista. - La captura de Shuffle Vibració La captura de Shuffle La captura de Shuffle El "Per què ho va fer això?" - Fa alguna cosa tan inexplicable que fins i tot els investigadors de la IA que veuen els registres simplement es burlen i mutten "descens gradual, probablement". - El The “Why Did It Do That?” El “per què ho va fer això?” El “per què ho va fer això?” “gradient descent, probably. “gradient descent, probably. Curiositat sobre el costat ocult de la IA? Descobreix més a la pàgina de José Crespo, PhD. La solució que ningú utilitza Tesla podria resoldre això - fàcilment - mitjançant l'ús de derivats secundaris (productes vectorials Hessians, o HVP per als nens freds). Així podria Google, Meta, OpenAI, i gairebé cada empresa amb una "Estratègia d'IA" PowerPoint. Però no ho són.Veure la taula de sota - nota un patró? Esperar - Aquests són problemes diferents, oi? Són símptomes diferents, però la mateixa malaltia. Tots estan utilitzant matemàtiques que poden respondre "En quina direcció hauria d'anar?" Quin camí hauria d’anar but not “ ” How sharply is this about to change? Però no » ” Fins a quin punt està a punt de canviar això? Fins a quin punt està a punt de canviar això? It’s like asking a GPS for directions but never checking if there’s a cliff ahead. La causa de l'arrel: la del teu gran avi Càlcul Càlcul As said, in the case of Tesla what is happening is that their cars are reacting to what’s happening right now, not anticipating what’s about to happen. Sense anticipar el que està per passar. Sense anticipar el que està per passar. És com jugar a escacs només mirant la posició actual de la junta - sense planificació, sense estratègia, només “I see a piece, I move a piece.” Chess players call this “beginner level.” Tesla calls it “Full Self-Driving.” Els jugadors d’escacs l’anomenen “nivell de principiant” i Tesla l’anomena “conducció totalment autònoma”. Els enginyers de Tesla, com tothom a Silicon Valley, segueixen utilitzant càlculs basats en límits del segle XIX - l'equivalent matemàtic d'intentar transmetre Netflix en una màquina telegràfica. Mentrestant, la solució ha estat assegut a l'estoc durant 60 anys: . dual/jet numbers De debò, qui s’enfronta a aquelles “matèries exòtiques” que no ensenyen en els programes de CS universitaris? No obstant això, aquestes àlgebres hiperreals (duals i jets) fan que les derivades secundàries (HVP) siguin una operació computacionalment trivial a través de l'elegant composició de dos operadors de primer ordre (JVP VJP). No obstant això, aquestes àlgebres hiperreals (duals i jets) fan que les derivades secundàries (HVP) siguin una operació computacionalment trivial a través de l'elegant composició de dos operadors de primer ordre (JVP VJP). No obstant això, aquestes àlgebres hiperreals (duals i jets) fan que les derivades secundàries (HVP) siguin una operació computacionalment trivial a través de l'elegant composició de dos operadors de primer ordre (JVP VJP). Llegeix més - Estàs dient-me... que el càlcul "estàndard d'or" h-limit fa que sigui una trampa, mentre que els duals / jets ho fan trivial ... que el que és computacionalment intractable amb el càlcul tradicional h-limit tant molts cursos d'Ivy-League tracten com l'estàndard d'or és trivial amb els números de doble / jet, que pot solucionar la majoria d'aquests problemes relacionats amb la corba maleïda en la nostra AI actual? h-limit calculus Duals / Jets Computacionalment intractable amb el càlcul tradicional de límit h trivial amb nombres de doble / jet, Això sí, exactament això. And it gets worse. La revolució hiperreal: el teu professor de càlcul mai t'ha dit això El càlcul que vas aprendre a la universitat -el que et va portar a través d'equacions diferencials, teoria d'optimització i cursos d'aprenentatge automàtic- És només . isn’t wrong incomplete És com aprendre aritmètica però mai aprendre que la multiplicació és només una suma repetida. Here’s the specific problem: Traditional calculus (the h-limit approach): f'(x) = lim[h→0] (f(x+h) - f(x)) / h Això defineix derivats com a límits, el que significa: Limitació Matemàticament rigorós Excel·lent per demostrar teories Un malson computacional per a qualsevol cosa més enllà de les primeres derivades Un malson computacional per a qualsevol cosa més enllà del primer derivatiu : Per què ? Perquè per calcular una segona derivada, cal prendre un límit d'un límit. Per què ? Límit d'un límit f'(x+h) = lim[h'→0] (f(x+h+h') - f(x+h)) / h' però Es requereix la computació: f'(x+h) f'(x+h) = lim[h'→ 0] (f(x+h+h') - f(x+h)) / h' O acabes amb Dos passos de mida que interactuen de manera inestable, o es recorren a que són exquisidament sensibles a la mida dels passos i el soroll. En ambdós casos , per tant, dues primeres passes derivatives ( a) El en un veritable segon derivat - vostè és En lloc de . So, summing up: nested limits (H i H) higher-order stencils lose derivative structure JVP → VJP don’t compose rebuilding guesses carrying derivatives (H i H) Per a una tercera derivada? Fins i tot utilitzar estens d'ordre superior. Three nested limits or o O el niu K Layers Utilitzar estils més amplis - , truncació depèn de l'ordre de l'estencil, i encara , de manera que JVP→VJP no es composarà en HVP en un pipeline de FD. For the k-th derivative: or noise blows up as O(h^-k) lose derivative structure So your self-driving car keeps crashing against sun-set lit walls. I per als paràmetres d'aproximadament 1,8 bilions de GPT-5? Computational impossibility. Els lectors de Sharp notaran: Si coneixem la funció f, no podem només calcular f’ i f’ analíticament? f F’ F” Great question! Here’s why that doesn’t work for neural networks: Les xarxes neuronals són caixes negres Quan escrius una funció simple, pots calcular derivats analíticament: # Cas simple - els derivats analítics funcionen bé f(x) = x2 + 3x + 5 f'(x) = 2x + 3 # Fàcil de derivar per mà f''(x) = 2 # encara més fàcil But a neural network with 1.8 trillion parameters looks like this: f(x) = σ(W₁₇₅·σ(W₁₇₄·σ(...σ(W₂·σ(W₁·x))...))) On és: Cada 'W' és una matriu amb milers de milions de paràmetres. - Cada 'σ' és una funció d'activació no lineal Hi ha centenars de capes (estil GPT) La composició es calcula dinàmicament durant el temps d'execució No es pot escriure literalment la forma analítica de f'(x) perquè: La funció canvia cada vegada que actualitzeu els paràmetres (cada pas de formació) 2. It's too large to express symbolically 3. It contains billions of nested compositions ## Per què el càlcul tradicional falla aquí La fórmula del límit H: f''(x) = lim[h→0] (f'(x+h) - f'(x)) / h Es requereix avaluar f' (x + h)', que vol dir: f'(x+h) = lim[h'→0] (f(x+h+h') - f(x+h)) / h' And here’s the trap: (the function is too complex) You can’t compute f' analytically Així que l'aproximem utilitzant diferències finites (el límit h) Ara necessiteu f'(x+h) per a la segona derivada (with step size h’) So you approximate using another finite difference Això Aproximació a les diferències finites Això Es tracta d’una aproximació – . Result: errors compound catastrophically El lector escèptic podria continuar objectant: "Però no podem utilitzar alguna cosa com SymPy o Mathematica per calcular derivats simbòlicament?" En teoria, sí, en la pràctica, ens trobem davant d’un problema similar. For a 1.8 trillion parameter model!: L'expressió simbòlica de f' seria més gran que el model mateix. La computació trigarà anys L'emmagatzematge requeriria més memòria del que existeix Simplifying it would be computationally intractable Fins i tot per a una petita xarxa de 3 capes amb 1000 neurones per capa: Example: Símbolica f' terres en els milions de termes. El símbol f salta als milers de milions de termes. Growth is with depth/width; common-subexpression tricks don’t save you enough. combinatorial Oblida’t de la For hundred of layers? clear now? Tornem al nostre gust d'hiperreals per a la computació d'IA i vegem què passa quan els hiperreals s'enfronten a escenaris similars: Què fan els números de doble / jet de manera diferent: diferenciació automàtica Els nombres dobles no utilitzen límits en absolut, sinó que: Regles de diferenciació en l'aritmètica Avaluar f amb nombres especials que porten informació derivada Derivatives emerge through rule-following arithmetic k-jets carry truncated Taylor lanes up to order k (nilpotent ε^k+1=0), so higher-order derivatives En un pas. Jets generalize this. fall out Aquí està la clau: les regles de càlcul (regla de potència, regla de cadena, etc.) estan incorporades a les operacions aritmètiques del jet, no s'apliquen simbòlicament! The calculus rules (power rule, chain rule, etc.) are , not applied symbolically! So you get all the advantages of analytical solution without using them! Here’s the key: built into the jet arithmetic operations The Three Fundamental Differences Càlculs amb aplicació de regles simbòliques (impràctiques a escala d'IA moderna) Process: Escriu la funció f(x) = x3 Recordeu la regla de potència: d/dx[xn] = n·xn−1 Apliqueu-ho simbòlicament: f’(x) = 3x2 Emmagatzemar les dues fórmules per separat Ha de construir tota l'expressió derivada - explosió de memòria exponencial. For neural networks: Calcul h-limit tradicional: aproximació numèrica Process: Seleccioneu una mida d'etapa h (guesswork) Avaluació: (f(x+h) – f(x))/h Fer una aproximació amb error Problems: No és exacta (sempre té un error de truncament o rodona) No es pot compondre netament Baixa en ordres més altes Dual/Jet Numbers Algebra: Avaluació amb Aritmètica Augmentada (pràctica a escala d'IA moderna) Process: Estendre el sistema de nombres amb ε on ε2 = 0 Avaluar f a (x + ε) utilitzant aquesta aritmètica Els derivats apareixen automàticament com a coeficients ε Ampliar el sistema de numeració E2 = 0 No hi ha expressió construïda, només cal avaluar-la una vegada amb números especials. For neural networks: Com funciona realment: la màgia binomial amb nombres dobles Vegem com a exemple de joguina com sorgeix la regla del poder sense aplicar cap càlcul: Example: compute derivative of f(x) = x³ Step 1: Evaluate at augmented input f(x + ε) = (x + ε)³ (combinatoris i no càlculs) Step 2: Expand using binomial theorem (x + ε)³ = x³ + 3x²ε + 3xε² + ε³ (e2 = 0 ) Step 3: Apply nilpotent algebra = x³ + 3x²ε + 0 + 0 = x³ + 3x²ε Step 4: Read the dual number x³ + 3x²ε = (x³) + ε·(3x²) ↑ ↑ value derivative The derivative f’(x) = 3x² emerged through: Binomial expansion (algebra) Simplificació Nilpotent (ε2 = 0) Coeficient de lectura NOT through: Aplicació de la regla de potència La fórmula H-limit Diferenciació simbòlica No apliqueu la regla de la potència, deixeu que l'expansió binomial ho revelï. No apliqueu la regla de la potència, deixeu que l'expansió binomial ho revelï. No s'aplica la regla del poder - . Deixeu que l'expansió binomial ho revelï Deixeu que l'expansió binomial ho revelï Per què aquesta escala quan la diferenciació simbòlica no fa Diferenciació simbòlica (anàlisi) With AI working with neural networkd you must build expressions: Layer 1 derivative: thousands terms Derivat de la capa 2: milions de termes (explosió combinatòria) Centenars de capes: la mida de l'expressió creix exponencialment en profunditat/amplada; fins i tot amb l'eliminació de subexpressió comuna esdevé intractable per construir, emmagatzemar o simplificar. Memory required: More than all atoms in the universe 👀 Avaluació del doble nombre: Never builds expressions: Cada tensor instrumentat emmagatzema un valor + ε·derivat Memòria: 2 x model base (per a k = 1) O 3× model base amb Jets (per a k=2 amb segona derivada) For GPT-5 (1.8T parameters): k=1: ~14.4 TB → 18.0 TB (tot pràctic) k=2: ~14.4 TB → 21.6 TB (s'adapta a ~34 nodes H100) ~14.4 TB → 18.0 TB (totally practical) ~14.4 TB → 21.6 TB (s'adapta a ~34 nodes H100) BUT WAIT — YOU’RE FLYING FIRST CLASS IN AI MATH And there’s still more. L'àlgebra de nombres dobles/jet permet utilitzar (Yup, si vols fer-te un favor i escriure una intel·ligència artificial real que funciona, ) i composition of functions learn category theory now! Here’s your genius move: With composition of functions, we can get second derivatives for the price of a first derivative!! Vull dir. Només utilitzant — en cas contrari és estructuralment impossible amb el càlcul basat en límits. How? composition of functions En anglès: per què la composició fracassa amb h-limits Perquè : Traditional calculus can’t do JVP∘VJP = HVP gives you a number (an approximation of f’(x)·v) JVP via finite differences Aquest nombre no té una estructura derivada per diferenciar VJP. with a new finite-difference approximation You must start over Les operacions no cadenen: cadascuna rebutja l'estructura que necessita la següent. because: Dual numbers CAN do JVP∘VJP = HVP JVP amb duals li dóna un doble nombre (f(x), f'(x)·v) Aquest doble nombre porta l'estructura derivada en el seu coeficient ε by treating it as input VJP can differentiate it directly La cadena d'operacions és natural - cadascuna preserva l'estructura de les necessitats següents Dual numbers are algebraically closed under composition. La conseqüència pràctica what the new paradigm can compute that the old one can’t: Per què aquesta és la clau per corregir AI Current AI (k=1 only): Pot respondre: “En quina direcció he d’anar?” No pot respondre: “Quant de ràpid està canviant aquesta direcció?” Result: Reactive, not anticipatory With composition (JVP∘VJP): Obtenir derivats secundaris per 2× el cost dels primers derivats Can anticipate curves, detect trajectory changes Result: one of many examples - Tesla stops phantom braking; AI stops hallucinating. Tesla deixa de frenar fantasmes; AI deixa d'hallucinar. Tesla deixa de frenar fantasmes; AI deixa d'hallucinar. With explicit k=3 jets: Obtenir derivats de tercers per 3× el cost Pot verificar la consistència topològica (números de ventilació) Resultats: sortides AI certificades matemàticament The Functors + Composition Advantage And why Hyperreal Algebra Matters: Without it (finite differences): Each derivative order requires starting from scratch Errors acumulats amb cada niu Sense una estructura composta per explotar With it (dual numbers): Derivats d'ordre superior = operacions d'ordre inferior Exacte (dins del punt de flotació) Automatic (regla de cadena construïda en ε-aritmètica) És per això que: Escala de nombres dobles a centenars de capes (memòria lineal) ✅ Funcions de composició (JVPVJP = HVP automàticament) ✅ Ordres més alts accessibles amb números de Jet ( k = 3, k = 4 viable) És per això que: És per això que: Escala de nombres dobles a centenars de capes (memòria lineal) ✅ Funcions de composició (JVPVJP = HVP automàticament) ✅ Ordres més alts accessibles amb números de Jet ( k = 3, k = 4 viable) And why: Explosió de la diferenciació simbòlica (expressions exponencials) Les diferències finites no poden compondre (no hi ha funcionalitat) Els mètodes h-limit es trenquen en ordres més alts (compostos d'error) Summing Up The entire AI industry is stuck at first-order optimization because: Aprenen el càlcul com a límits h (no escalen) Implementen derivats com a diferències finites (no componen) Mai van aprendre sobre la teoria de grups i els nombres hiperreals (no en els currículums de CS) Meanwhile: Dual numbers make derivatives (not approximations) algebraic objects Els avions fan ordres més alts en cost lineal (no exponencial) La composició funcional fa que els derivats secundaris siguin barats (JVPVJP) The math to fix Tesla’s phantom braking, OpenAI’s hallucinations, and Meta’s moderation chaos has been sitting in textbooks since 1960s. Waiting for someone to connect the dots among: the binomial theorem (~400 years old), nilpotent algebra (~150 years old), and functorial composition + hyperreals (~60 years old). To the biggest unsolved problems in AI. Now you know what Silicon Valley doesn’t and see what they cannot. NOTA: En aquest article, "càlcul tradicional" significa la implementació de diferència finita (h-limit) utilitzada en la pràctica - triar un h, aproximadament, repetir - no derivats analítics / simbòlics. NOTA: En aquest article, "càlcul tradicional" significa la implementació de diferència finita (h-limit) utilitzada en la pràctica - triar un h, aproximadament, repetir - no derivats analítics / simbòlics. Curiositat sobre el costat ocult de la IA? Descobreix més a la pàgina de José Crespo, PhD. Imatge: Tesla que s'estavella a través d'una paret, parcialment il·luminada per la posta del sol - fàcilment evitable per un conductor humà. Imatge creada per l'autor amb difusió estable. Featured image: Tesla crashing through a wall, partially lit by sunset - easily avoidable by a human driver.