Com Nvidia va aprendre a deixar de preocupar-se i va adquirir Groq 0 Preparació Nvidia, el rei indiscutible del maquinari d'IA, va fer la seva major adquisició fins a la data: una oferta sorprenent de 20 mil milions de dòlars per Groq, un nom que pocs fora de la indústria havien sentit parlar. Em vaig interessar per la tecnologia i el potencial comercial de Groq des de 2023, i he estat provant el seu servei de inferència basat en el núvol per al LLM de codi obert. Aquest article submergeix profundament en l'arquitectura de Groq, revelant per què està trencant els registres de velocitat de inferència de LLM. Anem a llançar la Unitat de Processament de Llenguatge de Groq (LPU) contra els gegants: Nvidia GPU i Google TPU, per veure si la corona està canviant de mans. Introducció: L'imperatiu dels mil·lisegons En els centres de dades moderns, l'enfocament està canviant de la formació de la IA a la inferència de la IA - l'aplicació instantània de les ments digitals. Per als usuaris que interactuen amb grans models de llenguatge (LLM), la limitació definidora és la latència. Aquest retard no és una fallada de programari, sinó una limitació de maquinari, ja que les arquitectures existents com la unitat de processament gràfic (GPU) no estaven dissenyades per a la generació de llenguatge token-by-token. Groq, fundada pels arquitectes de la Unitat de Processament de Tensor original de Google (TPU), aborda aquest desafiament específic. La seva solució és la Unitat de Processament de Llenguatge (LPU), un xip "definit per programari" que abandona el disseny del processador tradicional per la velocitat. Mitjançant l'ús de l'execució determinista, el rellotge i la programació estàtica, la LPU de Groq trenca la "Memory Wall", aconseguint velocitats de generació de text de més de 1.600 tokens per segon, superant en gran mesura la velocitat de lectura humana. La crisi de la inferència: per què la IA moderna és "lenta" Per entendre la innovació de Groq, primer s'ha d'apreciar el comportament específic dels models de grans llengües en el maquinari actual.La càrrega de treball computacional d'un model d'IA canvia dràsticament depenent de si és aprenentatge (entrenament) o pensament (inferència). 2.1 Física de la generació autoregressiva L'entrenament d'un model és una tasca paral·lela d'alta amplada de banda. Envieu al sistema milers de frases simultàniament, i el xip actualitza els seus pesos interns basant-se en l'error agregat. És com classificar mil exàmens a la vegada; podeu optimitzar el flux de treball per al rendiment. La inferència, però, específicament per als LLM, és "autoregressiva". El model genera una paraula (o token) alhora. Prediu la primera paraula, l'afegeix a la entrada, prediu la segona paraula, l'afegeix, i així successivament. Aquest procés és inherentment sèrie. No pots calcular la desena paraula fins que no hagis calculat la novena. Per a un enginyer de maquinari, això és un malson. En una arquitectura GPU moderna, els nuclis computacionals (on succeeix la matemàtica) es separen de la memòria (on viu el model) per una distància física. Aquesta separació crea el "Von Neumann Bottleneck." Per a un model de 70 mil milions de paràmetres com Llama 3, que pot pesar al voltant de 140 gigabytes (a precisió de 16 bits), això significa que el xip ha de moure 140 GB de dades a través del cable només per generar una sola paraula.3 Ha de fer això una i altra vegada, desenes de vegades per segon. 2.2 El mur de la memòria El resultat és que els motors de computació més potents del món passen la major part del seu temps esperant. En un escenari típic de inferència (Batch Size 1), les unitats aritmètiques d'un Nvidia H100 estan inactives per a la gran majoria dels cicles de rellotge, esperant que les dades arriben de la memòria d'alta amplada de banda (HBM). El límit d'ample de banda: Fins i tot amb l'impressionant 3,35 Terabytes per segon (TB/s) de banda de memòria de l'H100, la física de les dades en moviment limita la velocitat de generació a aproximadament 100-200 tokens per segon en condicions ideals.4 Energy Waste: It costs significantly more energy to move data than to compute on it. A study by Groq suggests that traditional GPU setups burn 10 to 30 Joules per token, largely due to this constant shuttling of data between HBM and the core. In contrast, keeping data local reduces this to 1-3 Joules.6 2.3 El problema de la latència de la cua The problem is compounded by the "dynamic" nature of modern processors. CPUs and GPUs are designed to be generalists. They have complex hardware components—caches, branch predictors, out-of-order execution engines—that try to guess what the software wants to do next. Quan aquestes suposicions són errònies (una "caixa perduda" o "errors de la branca"), el processador s'atura. En un entorn de centre de dades compartit, on diversos usuaris estan competint per recursos, això condueix a "jitter" o latència variable. Latencia de cua: Aquesta és la latencia de les sol·licituds més lentes, el 99è percentil. Per a aplicacions en temps real com ara els agents de veu o el comerç algorítmic, la velocitat mitjana no importa; la velocitat més lenta ho fa. Si un token pren 10ms i el següent pren 50ms, l'usuari experimenta fractures.8 La taxa d'orquestració: Per gestionar aquest caos, les GPU utilitzen nuclis de programari complexos (com CUDA) i programadors de maquinari. Aquests afegeixen sobrecàrrega. El xip s'atura constantment per preguntar: "Què faig a continuació? La tesi fundacional de Groq era simple: Què passaria si eliminéssim la marca de pregunta? Què passaria si el xip no hagués de preguntar mai què fer, perquè ja sabia? La filosofia de la LPU: maquinari definit per programari La Unitat de Processament de Llenguatge (LPU) és la manifestació física d'una filosofia que rebutja els últims trenta anys d'evolució del processador.Fundada per Jonathan Ross, que anteriorment va liderar el projecte TPU de Google, Groq va començar amb un enfocament "Software-First".[10] 3.1 El compilador és el capità En un sistema tradicional, el compilador (el programari que tradueix el codi en instruccions de xip) és subservient al maquinari. Produeix una guia bruta, i la lògica interna del maquinari (planejadors, buffers de reordre) xifra els detalls en el temps d'execució. Groq ho reverteix. El maquinari de LPU és deliberadament "estúpid". No té predictors de branques. No té controladors de memòria cau. No té lògica d'execució fora d'ordre. És un conjunt massiu d'unitats aritmètiques i bancs de memòria que fan exactament el que se'ls diu, quan se'ls diu.11 La intel·ligència resideix íntegrament en el compilador Groq. Planificació estàtica: Abans d'executar el model, el compilador analitza tot el programa. Calcula el temps d'execució exacte de cada operació. Saps que una multiplicació de matriu específica prendrà exactament 400 cicles de rellotge. Orquestració espacial: El compilador mapes el flux de dades a través de la geometria física del xip. Sabeu que en el cicle 1000,050, un paquet de dades estarà exactament a les coordenades (X, Y) del xip, llest per ser consumit per una unitat aritmètica. Zero Variance: Com que l'horari està fixat en el temps de compilació, hi ha zero variació. Si el compilador diu que la tasca trigarà 28,5 mil·lisegons, trigarà 28,5 mil·lisegons. 3.2 Analogia de la línia d'assemblea Per entendre la diferència, imagineu un pis de fàbrica. La GPU (Dinàmica): Els treballadors (núcleus) es troben a les estacions. Un gestor (planejador) crida ordres basant-se en quins materials acaben d'arribar. De vegades un treballador és inútil perquè el forklift (bus de memòria) està atrapat en el trànsit. De vegades dos treballadors intenten agafar la mateixa eina (contenció de recursos) i un ha d'esperar. The LPU (Deterministic): There are no managers. The materials move on a high-speed conveyor belt that never stops. The workers are robotic arms programmed to perform a weld exactly 3.2 seconds after the part enters their zone. They do not check if the part is there; the system guarantees it is there. The efficiency is absolute.10 Aquesta elecció arquitectònica permet a Groq utilitzar gairebé el 100% de la seva capacitat de computació per a la càrrega de treball real, mentre que les GPU sovint s'executen amb una utilització del 30-40% durant la inferència perquè estan esperant la memòria. Anatomia de la LPU: Desconstrucció del maquinari La implementació física de la LPU (especificament l'arquitectura GroqChip) és un estudi de compromís radical. SRAM: la velocitat de l'emmagatzematge de la llum Nvidia i Google utilitzen HBM (High Bandwidth Memory), que ve en piles massives (80GB+) assegudes al costat de la memòria computacional. SRAM (Static Random Access Memory) és un sistema de memòria d'accés aleatori estàtic. La jerarquia Flattened: En una CPU estàndard, SRAM s'utilitza només per a petites caches (L1/L2/L3) perquè és car i físicament gran (es necessiten 6 transistors per emmagatzemar un bit, en comparació amb 1 transistor per DRAM). Supremacia de l'amplada de banda: Atès que la memòria està físicament integrada a la memòria computacional, l'amplada de banda és astronòmica. Un únic LPU té una amplada de banda de memòria interna de 80 TB/s. Compareu això amb els 3,35 TB/s de l'H100. Eliminació de la latencia: L'accés a HBM requereix centenars de nanosegons. L'accés al SRAM en xip requereix cicles de rellotge d'un sol dígit. Això elimina eficaçment la paret de memòria per a les dades que s'ajusten al xip.8 4.2 Limitació de capacitat Un sol xip Groq només conté 230 MB de SRAM.12 Això és microscòpic en comparació amb els 80 GB d'un H100. Implicació: No es pot encaixar un model de llengua gran en un xip Groq. La solució: Cal connectar centenars de xips junts.Per executar Llama 3 70B, Groq no utilitza un xip; utilitza un rack d'aproximadament 576 xips.7 Això requereix un enfocament completament diferent al disseny del sistema.El "ordinador" no és el xip; l'ordinador és el rack. Processador de transmissió de tensors (TSP) Dins del xip, l'arquitectura està disposada específicament per a l'àlgebra lineal de Deep Learning. Unitats vectorials i matrius: El xip compta amb unitats especialitzades per a la multiplicació de matrius (MXM) i les operacions vectorials. Flux direccional: les dades flueixen horitzontalment (Orient-Oest) a través del xip, mentre que les instruccions flueixen verticalment (Nord-Sud).Aquest flux "sistòlic" significa que les dades es bomben a través de les unitats funcionals en una ona rítmica. Procés de 14nm: Sorprenentment, la primera generació de GroqChip es basa en un procés madur de 14nm a GlobalFoundries.7 En una indústria que està competint amb 3nm (com el Blackwell de Nvidia), això sembla arcaic. No obstant això, perquè el disseny manca de programadors complexos i es basa en SRAM, no necessita la densitat extrema de 3nm per aconseguir el rendiment. Això ofereix un cost significatiu i un avantatge de rendiment, tot i que afecta la mida física de la matriu (un 725mm massiu).12 4.4 TruePoint Numerics Per maximitzar la memòria limitada de 230 MB, Groq utilitza una nova estratègia de precisió anomenada TruePoint. La trampa de precisió: El maquinari tradicional sovint quantifica els models a INT8 (8 bits íntegres) per estalviar espai, el que pot degradar la precisió. Precisió mixta: TruePoint emmagatzema els pesos amb una precisió més baixa (com INT8 o FP8) per estalviar espai, però realitza les matemàtiques reals amb una alta precisió (FP32) per a operacions sensibles com els registres d'atenció. Això permet a Groq aconseguir la velocitat dels models quantificats amb els nivells de precisió normalment reservats per a les implementacions de més precisió. La xarxa és l'ordinador: la tecnologia RealScale Com que cap LPU pot mantenir un model, la xarxa que connecta els xips és tan important com els mateixos xips. Si la connexió entre el xip A i el xip B és lenta, es malgasten els 80 TB/s de amplada de banda interna. 5.1 RealScale: Una tela sense canvis Les xarxes tradicionals de centres de dades utilitzen interruptors Ethernet o InfiniBand. Quan un servidor envia dades, va a un interruptor, que el dirigeix a la destinació. La xarxa RealScale de Groq connecta xips directament entre si. Els xips no són perfectament sincronitzats (que és físicament impossible a escala), però són "plesiosincronitzats" (gairebé sincronitzats) amb una deriva coneguda que el compilador té en compte. Software-Scheduled Packets: Just as the compiler schedules the math, it schedules the network packets. It knows that Chip 1 will send a vector to Chip 2 at Cycle 500. It guarantees that Chip 2 will be ready to receive it at Cycle 505. No hi ha interruptors: La xarxa és una xarxa directa (especificament una variant de la topologia de Dragonfly). No hi ha interruptors externs per afegir latència o cost. El rotatge és determinista. Això permet que el rack de 576 xips funcioni com un únic espai de memòria coherent.6 5.2 Paral·lelisme de tensors a escala Aquesta xarxa permet a Groq emprar Tensor Parallelism de manera eficient. Slicing the Brain: The Llama 3 70B model is sliced across the 576 chips. Every layer of the neural network is distributed. Execució simultània: Quan es genera un token, tots els 576 xips s'activen simultàniament. Cada un computa una petita fracció del resultat. Intercanvien dades instantàniament a través de la xarxa RealScale, agreguen el resultat i es traslladen a la següent capa. Benefici de latència: Atès que el càlcul està paral·lelitzat a través de tants xips, el càlcul es fa increïblement ràpid.I atès que els pesos estan en SRAM, no hi ha temps de càrrega.El resultat és un sistema que escala linealment: l'addició de més xips fa que el model funcioni més ràpid, sense les retornes disminuïdes vistes en els clústers de GPU a causa de la comunicació sobrecap.8 Els Titans comparats: Groq vs. Nvidia vs. Google vs. Cerebras The AI hardware landscape is a battle of philosophies. We can categorize the major players into three camps: The Generalists (Nvidia), The Hyperscale Specialists (Google), and The Radical Innovators (Groq, Cerebras). Nvidia H200 (El generalista) Architecture: GPU with HBM3e and HBM3. Dynamic scheduling via CUDA. Philosophy: "One chip to rule them all." Optimize for throughput, increased memory bandwidth, and versatility. Strengths: Unrivaled ecosystem (CUDA), massive memory capacity and bandwidth per chip (141GB HBM3e/HBM3), capable of both training and inference. Weaknesses: The Memory Wall limits Batch-1 inference speed. Tail latency due to dynamic scheduling. High power consumption per token for small batches.17 Google TPU v5p (el especialista en hiperscala) Arquitectura: Systolic Array ASIC amb HBM. Philosophy: Optimize for Google’s specific workloads (Transformer models). Inter-Chip Interconnect (ICI) permet submarins massius (8.960 xips) per a l'entrenament. Debilitats: Encara depèn de HBM (botllet de latencia). Disponibilitat limitada fora de Google Cloud. Menys flexible que les GPU. Cerebras CS-3 (El gegant de l'escala de les vaques) Architecture: A single chip the size of a dinner plate (Wafer-Scale Engine). Filosofia: "No tallis el wafer." Mantenir tot en una peça de silici gegant per eliminar la latència de la interconnexió. Fortaleses: Massiva memòria en xip (44 GB SRAM) i ample de banda (21 PB / s). pot emmagatzemar models grans en un sol dispositiu. Debilitats: complexitat de fabricació física. densitat de potència. Encara requereix un clúster per als models més grans. Cerebras se centra en el rendiment (tokens/sec) més que en la latència pura (temps fins al primer token) en comparació amb Groq.20 Groq LPU (el sniper de baixa latencia) Arquitectura: ASIC desagregada basada en SRAM. definida per programari. Philosophy: "Determinism is speed." Sacrifice density for latency. Strengths: Unmatched Time-to-First-Token (TTFT) and throughput for small-batch inference. Deterministic performance (no jitter). Debilitats: La baixa capacitat de memòria per xip requereix nombres massius de xips (alta empremta de rack). Table 1: Architectural Comparison Summary Feature Groq LPU (TSP) Nvidia H100 (Hopper) Google TPU v5p Cerebras CS-3 Primary Focus Inference (Latency) Training & Inference Training & Inference Training & Inference Memory Architecture On-chip SRAM Off-chip HBM3 Off-chip HBM On-Wafer SRAM Memory Bandwidth 80 TB/s (Internal) 3.35 TB/s (External) ~2.7 TB/s 21 PB/s (Internal) Control Logic Software (Compiler) Hardware (Scheduler) Hybrid (XLA) Software (Compiler) Networking RealScale (Switchless) NVLink + InfiniBand ICI (Torus) SwarmX Batch-1 Efficiency Extremely High Low (Memory Bound) Medium High Llama 3 70B Speed >1,600 T/s (SpecDec) ~100-300 T/s ~50 T/s (chip) ~450 T/s Primary Focus Inferència (en latència) Formació i Inferència Training & Inference Formació i Inferència Arquitectura de memòria On-chip SRAM Descarrega el xip HBM3 Off-chip amb HBM La vergonya de Ample de banda de memòria 80 TB / s (intern) 3.35 TB / s (Exterior) · 2,7 TB/s 21 PB/s (Internal) Control de lògica El programari (compilador) Hardware (Scheduler) Hybrid (XLA) Software (Compiler) Xarxa RealScale (Switchless) NVLink + InfiniBand Ací (en castellà) Swarmx Eficiència de batxillerat 1 Extremely High Low (Memory Bound) Medium Alta Llama 3 70B Speed >1,600 T/s (SpecDec) Entre 100 i 300 T/s ~ 50 T / s (xip) ~ 450 T/s 1 7. Performance Benchmarks: The Speed of Thought 25 milions de tokens per segon! Recordo vivament escoltar aquesta predicció audaç de Jonathan Ross (CEO de Groq) a finals de maig de 2024, quan el vam convidar a parlar a la Cimera de Silicon Valley de GenAI. (Sí, vaig prendre aquesta foto com a registre. 🙂) Tot i que Groq no està gaire a prop d'això encara, els seus números de rendiment han estat realment impressionants. The theoretical advantages of the LPU have been validated by independent benchmarking, most notably by Artificial Analysis. The numbers reveal a stark divide in performance tiers. 7.1 Throughput and Latency For the Llama 3 70B model, a standard benchmark for enterprise-grade LLMs: Groq: lliura constantment 280 - 300 tokens per segon (T/s) en mode estàndard.6 Nvidia H100: Typically delivers 60 - 100 T/s in standard deployments, pushing up to ~200 T/s only with heavy optimization and batching that compromises latency.24 Latency (Time to First Token): Groq aconsegueix un TTFT de 0,2 - 0,3 segons, fent que la resposta se senti instantània. 7.2 El descobriment especulatiu In late 2024, Groq unveiled a capability that widened the gap from a ravine to a canyon: Speculative Decoding. This technique allows Groq to run Llama 3 70B at over 1,660 tokens per second.1 The Mechanism: Speculative decoding uses a small "Draft Model" (e.g., Llama 8B) to rapidly guess the next few words. The large "Target Model" (Llama 70B) then verifies these guesses in parallel. Why it fails on GPUs: On a GPU, loading the Target Model to verify the guesses is expensive due to the Memory Wall. The "verification cost" often outweighs the speed gain. Why it flies on Groq: Because the 70B model is distributed across the SRAM of the Groq rack, the verification step is nearly instant. The LPU can verify a sequence of tokens as fast as it can generate one. This allows Groq to output text faster than a human can blink.1 7.3 Energy Efficiency While a rack of 576 chips consumes significant power (likely in the hundreds of kilowatts), the is surprising. efficiency per unit of work Joules per token: Groq informa d'un consum d'energia de 1-3 Joules per token. Comparison: Nvidia H100-based systems typically consume 10-30 Joules per token.6 The Physics: The energy savings come from not moving data. Accessing external HBM is energy-intensive. Accessing local SRAM is cheap. Furthermore, because the Groq chip finishes the task 10x faster, it spends less time in a high-power active state for a given workload. L'economia de la LPU: CapEx, OpEx i TCO The most controversial aspect of Groq’s architecture is the "Chip Count." Critics argue that needing hundreds of chips to run a model is economically unviable. This requires a nuanced Total Cost of Ownership (TCO) analysis. 8.1 The Cost of the Rack vs. The Cost of the Token És cert que un rack Groq (running Llama 70B) conté ~576 xips. Cost de fabricació: No obstant això, aquests xips són de 14nm (bons de fabricar) i utilitzen embalatges estàndard (no costosos CoWoS o HBM). Cost del sistema: Mentre que el preu d'un rack específic és opac, les estimacions suggereixen que un rack Groq és costós en termes absoluts de CapEx a causa del gran volum de silici i la infraestructura d'energia. Si un rack de Groq costa 1 milió de dòlars però genera 200.000 tokens per segon (agregat), i un clúster de Nvidia costa 500.000 dòlars però només genera 20.000 tokens per segon, el rack de Groq és 5 vegades més rendible per unitat de sortida. 8.2 Estratègia de preus Groq ha preuat agressivament els seus serveis d'API per demostrar aquest punt. Preu d'entrada: $ 0,59 per milió de tokens. Output Price: $0.79 - $0.99 per million tokens.2 Comparison: This undercuts many traditional GPU-based cloud providers, who often charge $2.00 - $10.00 for similar models. This pricing signals that Groq’s internal TCO is indeed competitive, despite the hardware footprint. 8.3 L'empremta física i el poder The downside is density. Replacing a single 8-GPU Nvidia server with multiple racks of Groq chips consumes significantly more data center floor space and requires robust cooling solutions. This makes Groq less attractive for on-premise deployments where space is tight, but viable for hyperscale cloud providers where floor space is less of a constraint than power efficiency.21 Casos d'ús: qui necessita una IA instantània? Is 1,600 tokens per second necessary? For a human reading a chatbot response, 50 tokens/sec is sufficient. However, the LPU is targeting a new class of applications. 9.1 Intel·ligència artificial agentística i buits de raonament Future AI systems will not just answer; they will reason. An "Agent" might need to generate 10,000 words of internal "Chain of Thought" reasoning to answer a single user question. The Math: If a model needs to "think" for 10,000 tokens: On Nvidia (100 T/s): The user waits 100 seconds. (Unusable). On Groq (1,600 T/s): The user waits 6 seconds. (Viable). Groq’s speed unlocks the ability for models to "think" deeply before they speak. 9.2 Real-Time Voice La conversa de veu requereix una latència inferior a 200-300ms per sentir-se natural. Qualsevol retard crea pauses incòmodes (l'efecte "walkie-talkie"). Groq’s Role: With a TTFT of <200ms, Groq enables voice agents that can interrupt, backchannel, and converse with human-level cadence. Tenali, a real-time sales agent company, reported a 25x improvement in latency by switching to Groq, dropping response times from seconds to milliseconds.26 9.3 Code Generation Coding assistants often need to read an entire codebase and regenerate large files. A developer waiting 30 seconds for a refactor breaks flow. Groq reduces this to sub-second completion. La pila de programari: Escapant de la trampa CUDA Nvidia’s dominance is largely due to CUDA, its proprietary software platform. Groq knows it cannot win by emulating CUDA. 10.1 The "Hardware-Is-Software" Approach El compilador de Groq és el cor del producte. es va construir abans del xip. Ease of Use: Developers use standard frameworks like PyTorch, TensorFlow, or ONNX. The compiler handles the translation to the LPU. GroqWare: La suite de programari gestiona la complexitat del rack. Per al desenvolupador, el rack sembla un dispositiu gegant. Challenges: The downside of static scheduling is compile time. Compiling a new model for the LPU can take significant time as the compiler solves the "Tetris" problem of scheduling millions of operations. This makes Groq less ideal for research (where models change hourly) but perfect for production (where models run for months).21 11. Conclusion: The Deterministic Future The Groq LPU's success proves that the Von Neumann architecture is a liability for serial LLM inference. Groq's shift to SRAM and determinism created a machine that operates at the speed of light, enabling Agentic AI—systems capable of thousands of self-correcting reasoning steps in the blink of an eye. With Nvidia's acquisition of Groq on 12/24/2025, the LPU's proven thesis—that determinism is destiny for future AI speed - will now be integrated into the GPU giant's roadmap. This merger signals a profound shift, acknowledging that raw power is meaningless without the speed and deterministic architecture Groq pioneered to use it effectively. L'arquitecte de l'acceleració: Jonathan Ross i el viatge de Groq Jonathan Ross, Groq's founder and CEO, is central to two major AI hardware innovations: the Google TPU and the Groq LPU. Abans de Groq, Ross va ser un innovador clau en la Unitat de Processament de Tensor de Google (TPU). Introduït públicament el 2016, el TPU va ser el xip especialitzat de Google per als càlculs de xarxes neuronals, dissenyat per superar les limitacions de les CPU i GPUs. Ross va ajudar a conceptualitzar la TPU de primera generació, que va utilitzar una arquitectura de matriu sistòlica revolucionària per maximitzar el rendiment computacional i l'eficiència energètica per a la IA. El seu treball a Google va establir les bases per als seus esforços posteriors. Leaving Google in 2016, Ross founded Groq (originally Think Silicon) with the goal of creating the world's fastest, lowest-latency AI chip with deterministic performance. He recognized that GPU unpredictability - caused by elements like caches and thread scheduling - was a bottleneck for real-time AI. Groq's mission became eliminating these sources of variability. Aquesta filosofia va donar lloc al maquinari emblemàtic de Groq: la Unitat de Processador de Llenguatge (LPU) i el seu GroqChip fonamental. L'arquitectura de Groq és una sortida de l'enfocament centrat en la GPU. Disposa d'un disseny monocore massiu, taulellat on tots els elements computacionals estan connectats per una xarxa en xip d'alta velocitat. Groq’s Historical Arc: Ups, Downs, and Pivots The path from an ambitious startup to a leading AI hardware provider was not linear for Groq. The company’s history is marked by necessary pivots and strategic refinements: Primers anys (2016-2018): El focus de la conducció autònoma: Inicialment, Groq es va centrar fortament en el mercat dels vehicles autònoms, on la presa de decisions previsible i en temps real és un requisit crític. L'evolució del maquinari (2018-2021): Dissenyant el primer xip: Aquest període es va dedicar a l'esgotador procés de disseny, aprofitament i optimització de la primera generació del GroqChip. The LLM Pivot (2022–Present): Finding the Killer App: As the autonomous vehicle market matured slower than anticipated and, crucially, as the transformer architecture exploded with the rise of models like GPT-3, Groq recognized a new, massive opportunity. The extreme scale and high demand for low-latency inference in LLMs made them the ideal workload for the Groq LPU. The LPU designation was adopted, effectively pivoting the company’s focus from general-purpose AI acceleration to specifically dominating the market for ultra-fast, predictable LLM inference. The Public Spotlight (2024–Beyond): Inference Dominance: Groq va aconseguir un reconeixement generalitzat en demostrar un rendiment sorprenent, token per segon líder de la indústria en LLMs de codi obert com Llama i Mixtral. Aquesta sobtada visibilitat va consolidar la seva posició com una alternativa d'alt rendiment a les GPUs de Nvidia per al desplegament d'IA a gran escala i de baixa latència, marcant un punt de canvi massiu en la trajectòria de l'empresa des d'un proveïdor de maquinari especialitzat a un líder reconegut en la velocitat d' inferència de la IA. Nvidia va adquirir Groq per $ 20B el 24 de desembre de 2025. La contribució duradora de Jonathan Ross és la creació d'un tipus fonamentalment diferent d'ordinador - un dissenyat per al rendiment predictible a escala.Des del co-disseny de l'arquitectura TPU que va impulsar la revolució de la IA de Google fins al pioner de la LPU determinista a Groq, ha defensat constantment la idea que el futur de la IA requereix maquinari adaptat específicament a la càrrega de treball, no a l'inrevés. Appendix: Data Tables Table 2: Economic & Operational Metrics Metric Groq LPU Solution Nvidia H100 Solution Implication OpEx (Energy/Token) 1 - 3 Joules 10 - 30 Joules Groq is greener per task. CapEx (Initial Cost) High (Rack scale) High (Server scale) Groq requires more hardware units. Space Efficiency Low (576 chips/rack) High (8 chips/server) Groq requires more floor space. Cost Efficiency High (Token/$) Low/Medium (Token/$) Groq wins on throughput economics. OpEx (Energy/Token) 1 - 3 joules 10 - 30 joules Grècia és més verda per tasca. CapEx (cost inicial) High (Rack scale) Alta (escala de servidors) Groq requires more hardware units. Eficiència espacial Baix (576 xips / rack) Màxim (8 xips / servidor) El Groq requereix més espai de terra. Eficiència de costos High (Token/$) Baix / Mitjà (Token / $) Groq wins on throughput economics. Taula 3: La física de la memòria Memory Type Used By Bandwidth Latency Density (Transistors/Bit) SRAM Groq LPU ~80 TB/s ~1-5 ns 6 (Low Density) HBM3 Nvidia H100 3.35 TB/s ~100+ ns 1 (High Density) DDR5 CPUs ~0.1 TB/s ~100+ ns 1 (High Density) SRAM Càritas LPU 80 tb/s · 1-5 nits 6 (Low Density) HBm3 Nvidia H100 5,3 TB / s · 100 + N 1 (alta densitat) El DDR5 CPUs · 0,1 TB/s · 100 + N 1 (alta densitat) Referències Groq 14nm Chip Gets 6x Boost: llança Llama 3.3 70B a GroqCloud, accedit el 25 de desembre de 2025, https://groq.com/blog/groq-first-generation-14nm-chip-just-got-a-6x-speed-boost-introducing-llama-3-1-70b-speculative-decoding-on-groqcloud Llama-3.3-70B-SpecDec - GroqDocs, accedit el 25 de desembre de 2025, https://console.groq.com/docs/model/llama-3.3-70b-specdec Introducing Cerebras Inference: AI at Instant Speed, accessed 25 de desembre de 2025, https://www.cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed Evaluating Llama‑3.3‑70B Inference on NVIDIA H100 and A100 GPUs - Derek Lewis, accessed December 25, 2025, https://dlewis.io/evaluating-llama-33-70b-inference-h100-a100/ Unlocking the full power of NVIDIA H100 GPUs for ML inference with TensorRT - Baseten, accessed December 25, 2025, https://www.baseten.co/blog/unlocking-the-full-power-of-nvidia-h100-gpus-for-ml-inference-with-tensorrt/ Why Meta AI's Llama 3 Running on Groq's LPU Inference Engine Sets a New Benchmark for Large Language Models | by Adam | Medium, accessed December 25, 2025, https://medium.com/@giladam01/why-meta-ais-llama-3-running-on-groq-s-lpu-inference-engine-sets-a-new-benchmark-for-large-2da740415773 Groq diu que pot desplegar 1 milió de xips d'inferència d'IA en dos anys - La plataforma següent, accessible el 25 de desembre de 2025, https://www.nextplatform.com/2023/11/27/groq-says-it-can-deploy-1-million-ai-inference-chips-in-two-years/ Dins de la LPU: Deconstruint la velocitat de Groq, Groq és ràpid, baixa inferència de cost., accedit el 25 de desembre de 2025, https://groq.com/blog/inside-the-lpu-deconstructing-groq-speed Determinisme i el processador de transmissió de Tensor. - Groq, accedit el 25 de desembre de 2025, https://groq.sa/GroqDocs/TechDoc_Predictability.pdf Què és una Unitat de Processament de Llengües?Groq és ràpid, baixa inferència de cost., accedit 25 de desembre de 2025, https://groq.com/blog/the-groq-lpu-explained LPU, Groq és ràpid, baixa inferència de cost., accedit el 25 de desembre de 2025, https://groq.com/lpu-architecture GROQ-ROCKS-NEURAL-NETWORKS.pdf, accedit el 25 de desembre de 2025, http://groq.com/wp-content/uploads/2023/05/GROQ-ROCKS-NEURAL-NETWORKS.pdf Groq Pricing and Alternatives - PromptLayer Blog, accessed December 25, 2025, https://blog.promptlayer.com/groq-pricing-and-alternatives/ Comparing AI Hardware Architectures: SambaNova, Groq, Cerebras vs. Nvidia GPUs & Broadcom ASICs | by Frank Wang | Medium, accessed December 25, 2025, https://medium.com/@laowang_journey/comparing-ai-hardware-architectures-sambanova-groq-cerebras-vs-nvidia-gpus-broadcom-asics-2327631c468e The fastest big model bombing site in history! Groq became popular overnight, and its self-developed LPU speed crushed Nvidia GPUs, accessed December 25, 2025, https://news.futunn.com/en/post/38148242/the-fastest-big-model-bombing-site-in-history-groq-became Noves regles del joc: el motor d'inferència LPUTM determinista de Groq amb accelerador i xarxes programades per programari, accedit el 25 de desembre de 2025, https://ee.stanford.edu/event/01-18-2024/new-rules-game-groqs-deterministic-lputm-inference-engine-software-scheduled TPU vs GPU : r/NVDA_Stock - Reddit, accessed December 25, 2025, https://www.reddit.com/r/NVDA_Stock/comments/1p66o4e/tpu_vs_gpu/ GPU and TPU Comparative Analysis Report | by ByteBridge - Medium, accessed December 25, 2025, https://bytebridge.medium.com/gpu-and-tpu-comparative-analysis-report-a5268e4f0d2a Google TPU vs NVIDIA GPU: The Ultimate Showdown in AI Hardware - fibermall.com, accedit el 25 de desembre de 2025, https://www.fibermall.com/blog/google-tpu-vs-nvidia-gpu.htm Cerebras CS-3 vs. Groq LPU, accedit el 25 de desembre de 2025, https://www.cerebras.ai/blog/cerebras-cs-3-vs-groq-lpu The Deterministic Bet: How Groq's LPU is Rewriting the Rules of AI Inference Speed, accessed December 25, 2025, https://www.webpronews.com/the-deterministic-bet-how-groqs-lpu-is-rewriting-the-rules-of-ai-inference-speed/ Best LLM inference providers. Groq vs. Cerebras: Which Is the Fastest AI Inference Provider? - DEV Community, accessed December 25, 2025, https://dev.to/mayu2008/best-llm-inference-providers-groq-vs-cerebras-which-is-the-fastest-ai-inference-provider-lap Groq llança Meta's Llama 3 Instruct AI Models en LPUTM Inference Engine, accedit el 25 de desembre de 2025, https://groq.com/blog/12-hours-later-groq-is-running-llama-3-instruct-8-70b-by-meta-ai-on-its-lpu-inference-enginge Groq vs. Nvidia: The Real-World Strategy Behind Beating a $2 Trillion Giant - Startup Stash, accessed December 25, 2025, https://blog.startupstash.com/groq-vs-nvidia-the-real-world-strategy-behind-beating-a-2-trillion-giant-58099cafb602 Performance — NVIDIA NIM LLMs Benchmarking, accedit el 25 de desembre de 2025, https://docs.nvidia.com/nim/benchmarking/llm/latest/performance.html Com Tenali està redefinint les vendes en temps real amb Groq, accedit el 25 de desembre de 2025, https://groq.com/customer-stories/how-tenali-is-redefining-real-time-sales-with-groq https://groq.com/blog/groq-first-generation-14nm-chip-just-got-a-6x-speed-boost-introducing-llama-3-1-70b-speculative-decoding-on-groqcloud https://console.groq.com/docs/model/llama-3.3-70b-specdec https://www.cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed https://dlewis.io/evaluating-llama-33-70b-inference-h100-a100/ https://www.baseten.co/blog/unlocking-the-full-power-of-nvidia-h100-gpus-for-ml-inference-with-tensorrt/ https://medium.com/@giladam01/why-meta-ais-llama-3-running-on-groq-s-lpu-inference-engine-sets-a-new-benchmark-for-large-2da740415773 https://www.nextplatform.com/2023/11/27/groq-says-it-can-deploy-1-million-ai-inference-chips-in-two-years/ https://groq.com/blog/inside-the-lpu-deconstructing-groq-speed https://groq.sa/GroqDocs/TechDoc_Predictability.pdf https://groq.com/blog/the-groq-lpu-explained https://groq.com/lpu-architecture http://groq.com/wp-content/uploads/2023/05/GROQ-ROCKS-NEURAL-NETWORKS.pdf https://blog.promptlayer.com/groq-pricing-and-alternatives/ https://medium.com/@laowang_journey/comparing-ai-hardware-architectures-sambanova-groq-cerebras-vs-nvidia-gpus-broadcom-asics-2327631c468e https://news.futunn.com/en/post/38148242/the-fastest-big-model-bombing-site-in-history-groq-became https://ee.stanford.edu/event/01-18-2024/new-rules-game-groqs-deterministic-lputm-inference-engine-software-scheduled https://www.reddit.com/r/NVDA_Stock/comments/1p66o4e/tpu_vs_gpu/ https://bytebridge.medium.com/gpu-and-tpu-comparative-analysis-report-a5268e4f0d2a https://www.fibermall.com/blog/google-tpu-vs-nvidia-gpu.htm https://www.cerebras.ai/blog/cerebras-cs-3-vs-groq-lpu https://www.webpronews.com/the-deterministic-bet-how-groqs-lpu-is-rewriting-the-rules-of-ai-inference-speed/ https://dev.to/mayu2008/best-llm-inference-providers-groq-vs-cerebras-which-is-the-fastest-ai-inference-provider-lap https://groq.com/blog/12-hours-later-groq-is-running-llama-3-instruct-8-70b-by-meta-ai-on-its-lpu-inference-enginge https://blog.startupstash.com/groq-vs-nvidia-the-real-world-strategy-behind-beating-a-2-trillion-giant-58099cafb602 https://docs.nvidia.com/nim/benchmarking/llm/latest/performance.html https://groq.com/customer-stories/how-tenali-is-redefining-real-time-sales-with-groq