Hoe Nvidia leerde stoppen met zich zorgen te maken en Groq overnam 0 Preface Nvidia, de onbetwiste koning van AI-hardware, maakte zijn grootste overname tot nu toe: een verbluffende aanbod van $ 20 miljard voor Groq, een naam waar weinig buiten de industrie van gehoord hadden. Ik ben sinds 2023 geïnteresseerd in de technologie en het commerciële potentieel van Groq en heb hun cloud-gebaseerde inferentiedienst voor de open source LLM getest. We zullen Groq's Language Processing Unit (LPU) tegen de reuzen: Nvidia GPU en Google TPU, om te zien of de kroon echt handen verandert. Inleiding: Het milliseconde imperatief In moderne datacenters gaat de focus van AI-training naar AI-inferentie - de onmiddellijke toepassing van digitale geesten. Voor gebruikers die met Large Language Models (LLM's) communiceren, is de definierende beperking latency. Deze vertraging is geen softwarefout, maar een hardware beperking, omdat bestaande architecturen zoals de Graphics Processing Unit (GPU) niet zijn ontworpen voor token-by-token taalgeneratie. Groq, opgericht door de architecten van de originele Tensor Processing Unit (TPU) van Google, neemt deze specifieke uitdaging aan. Hun oplossing is de Language Processing Unit (LPU), een "software-defined" chip die het traditionele processorontwerp voor snelheid verlaat. De inferentiecrisis: waarom moderne AI "langzaam" is Om de innovatie van Groq te begrijpen, moet men eerst het specifieke gedrag van Large Language Models op de huidige hardware waarderen.De computationele werklast van een AI-model verandert drastisch afhankelijk van of het gaat om leren (trainen) of denken (inferentie). 2.1 De natuurkunde van de autoregressieve generatie Je voedt het systeem duizenden zinnen tegelijkertijd en de chip actualiseert zijn interne gewichten op basis van de geaggregeerde fout. Het model genereert één woord (of token) tegelijk. Het voorspelt het eerste woord, hecht het aan de input, voorspelt het tweede woord, hecht het aan, enzovoort. Dit proces is inherent serieus. U kunt het tiende woord niet berekenen totdat u het negende hebt berekend. Voor een hardware-ingenieur is dit een nachtmerrie.In een moderne GPU-architectuur worden de computationele kernen (waar de wiskunde gebeurt) door een fysieke afstand gescheiden van het geheugen (waar het model leeft). Deze scheiding creëert de "Von Neumann Bottleneck." Voor een model met 70 miljard parameters zoals Llama 3, dat ongeveer 140 gigabyte kan wegen (bij 16-bits nauwkeurigheid), betekent dit dat de chip 140 GB aan gegevens over de draad moet verplaatsen om slechts één woord te genereren.3 Het moet dit keer op keer doen, tientallen keren per seconde. 2.2 De muur van het geheugen Het resultaat is dat de krachtigste computersystemen ter wereld het grootste deel van hun tijd wachten. In een typisch inferentie-scenario (batch size 1) zijn de aritmetische eenheden van een Nvidia H100 voor de overgrote meerderheid van de klokcycli leeg, wachtend op gegevens van het High Bandwidth Memory (HBM). De bandbreedte limiet: Zelfs met de H100's indrukwekkende 3,35 Terabyte per seconde (TB/s) van geheugenbandbreedte, beperkt de fysica van bewegende gegevens de generatiesnelheid tot ongeveer 100-200 tokens per seconde onder ideale omstandigheden.4 Een studie van Groq suggereert dat traditionele GPU-installaties 10 tot 30 Joules per token verbranden, grotendeels vanwege deze constante shuttling van gegevens tussen HBM en de kern. 2.3 Het probleem van tail latency Het probleem wordt verergerd door de "dynamische" aard van moderne processoren. CPU's en GPU's zijn ontworpen om algemeen te zijn. ze hebben complexe hardware-componenten - caches, tak voorspellers, out-of-order uitvoering motoren - die proberen te raden wat de software wil doen volgende. Wanneer deze veronderstellingen verkeerd zijn (een "cache miss" of "branch misprediction"), stopt de processor.In een gedeelde datacenteromgeving, waar meerdere gebruikers concurreren om middelen, leidt dit tot "jitter" of variabele latency. Tail Latency: Dit is de latentie van de langzaamste verzoeken – de 99e percentiel. Voor real-time toepassingen zoals spraakagenten of algoritmische handel, de gemiddelde snelheid maakt niet uit; de langzaamste snelheid doet. De Orchestration Tax: Om dit chaos te beheren, gebruiken GPU's complexe softwarekernels (zoals CUDA) en hardware schema's. Deze voegen overhead toe. Groq’s oprichtingsthesis was eenvoudig: wat als we het vraagteken verwijderden? De filosofie van de LPU: Software-defined hardware De Language Processing Unit (LPU) is de fysieke manifestatie van een filosofie die de laatste dertig jaar van processor-evolutie verwerpt.Groq werd opgericht door Jonathan Ross, die eerder het Google TPU-project leidde, en begon met een "Software-First" -benadering.10 3.1 De compilator is de kapitein In een traditioneel systeem wordt de compilator (de software die code vertaalt in chipinstructies) ondergeschikt aan de hardware. Groq draait dit om. De LPU-hardware is opzettelijk "dumb." Het heeft geen tak voorspellers. Het heeft geen cache controllers. Het heeft geen out-of-order uitvoering logica. Het is een enorme reeks van aritmetische eenheden en geheugenbanken die precies doen wat ze worden verteld, wanneer ze worden verteld.11 De intelligentie bevindt zich volledig in de Groq Compiler. Static Scheduling: Voordat het model wordt uitgevoerd, analyseert de compilator het hele programma. Het berekent de exacte uitvoeringstijd van elke operatie. Het weet dat een specifieke matrixvermenigvuldiging precies 400 klokcycli zal duren. Ruimtelijke orchestratie: De compilator kaart de gegevensstroom over de fysieke geometrie van de chip. Het weet dat bij Cycle 1000,050, een pakket gegevens precies op de coördinaten (X, Y) op de chip zal zijn, klaar om te worden geconsumeerd door een aritmetische eenheid. Zero Variance: Omdat het schema is vastgesteld op de compilatietijd, is er nul variantie. Als de compilator zegt dat de taak 28,5 milliseconden duurt, duurt het 28,5 milliseconden. 3.2 Analogie van de vergaderingslinie Om het verschil te begrijpen, stel je een fabrieksvloer voor. De GPU (Dynamic): Werknemers (kernen) staan op stations. Een manager (scheduler) schreeuwt orders op basis van welke materialen net zijn aangekomen. Soms is een werknemer leeg omdat de forklift (geheugenbus) vastzit in het verkeer. Soms proberen twee werknemers hetzelfde gereedschap (resource contention) te grijpen en moet men wachten. The LPU (Deterministic): There are no managers. The materials move on a high-speed conveyor belt that never stops. The workers are robotic arms programmed to perform a weld exactly 3.2 seconds after the part enters their zone. They do not check if the part is there; the system guarantees it is there. The efficiency is absolute.10 Deze architecturale keuze stelt Groq in staat om bijna 100% van zijn rekencapaciteit te gebruiken voor de werkelijke werklast, terwijl GPU's vaak bij 30-40% gebruik tijdens inferentie lopen omdat ze wachten op geheugen. Anatomie van de LPU: Deconstrueer de hardware De fysieke implementatie van de LPU (met name de GroqChip-architectuur) is een studie in radicale trade-offs. 4.1 SRAM: De snelheid van het licht opslag Nvidia en Google gebruiken HBM (High Bandwidth Memory), dat komt in massieve stacks (80GB+) naast de computer die zit. Groq maakt gebruik van SRAM (Static Random Access Memory). De hiërarchie Flattened: In een standaard CPU wordt SRAM alleen gebruikt voor kleine caches (L1/L2/L3) omdat het duur en fysiek groot is (het kost 6 transistors om een beetje op te slaan, versus 1 transistor voor DRAM). Bandbreedte Supremacy: Omdat het geheugen fysiek is geïntegreerd in de computer die, is de bandbreedte astronomisch. Een enkele LPU beschikt over een interne geheugenbandbreedte van 80 TB/s. Vergelijk dit met de H100's 3,35 TB/s. Dit is een 24x voordeel in de snelheid waarmee gegevens kunnen worden gevoerd naar de wiskundige eenheden.10 Latency Elimination: Toegang tot HBM duurt honderden nanoseconden. Toegang tot SRAM op de chip duurt eenmalige klokcycli. Dit verwijdert effectief de Memory Wall voor gegevens die op de chip passen.8 4.2 Kapaciteitsbeperkingen Een enkele Groq-chip bevat slechts 230 MB SRAM.12 Dit is microscopisch vergeleken met de 80 GB van een H100. Implicatie: Je kunt een groot taalmodel niet op één Groq-chip passen. De oplossing: Je moet honderden chips met elkaar verbinden. om Llama 3 70B te laten draaien, gebruikt Groq niet één chip; het gebruikt een rack van ongeveer 576 chips.7 Dit vereist een compleet andere benadering van het systeemontwerp.De "computer" is niet de chip; de computer is het rack. 4.3 De Tensor Streaming Processor (TSP) Binnenin de chip is de architectuur speciaal gearrangeerd voor de lineaire algebra van Deep Learning. De chip beschikt over gespecialiseerde eenheden voor matrixvermenigvuldiging (MXM) en vectoroperaties. Directional Flow: Data flows horizontally (East-West) across the chip, while instructions flow vertically (North-South). This "systolic" flow means data is pumped through the functional units in a rhythmic wave.12 14nm Process: Verrassend genoeg is de eerste generatie GroqChip gebouwd op een volwassen 14nm proces bij GlobalFoundries.7 In een industrie die naar 3nm raakt (zoals Nvidia's Blackwell), lijkt dit archaïsche. Echter, omdat het ontwerp complexe schema's mist en op SRAM vertrouwt, heeft het de extreme dichtheid van 3nm niet nodig om prestaties te bereiken. Dit biedt een aanzienlijke kosten- en rendementvoordeel, hoewel het de fysieke grootte van de die beïnvloedt (een enorme 725mm2).12 4.4 TruePoint Numerica Om de beperkte 230 MB geheugen te maximaliseren, maakt Groq gebruik van een nieuwe precisie strategie genaamd TruePoint. De Precision Trap: Traditionele hardware kwanticeert vaak modellen tot INT8 (8-bit integers) om ruimte te besparen, wat de nauwkeurigheid kan verminderen. Mixed Precision: TruePoint slaat gewichten op met lagere precisie (zoals INT8 of FP8) om ruimte te besparen, maar voert de feitelijke wiskunde uit met hoge precisie (FP32) voor gevoelige operaties zoals aandachtslogits. Resultaat: Hierdoor kan Groq de snelheid van gekwantificeerde modellen bereiken met de nauwkeurigheidsniveaus die meestal voor meer nauwkeurige implementaties zijn gereserveerd. Het netwerk is de computer: RealScale technologie Omdat geen enkele LPU een model kan vasthouden, is het netwerk dat de chips verbindt net zo belangrijk als de chips zelf. 5.1 RealScale: een switchless stof Traditional data center networks use Ethernet or InfiniBand switches. When a server sends data, it goes to a switch, which routes it to the destination. This adds latency and introduces the possibility of congestion (traffic jams). Groq’s RealScale network connects chips directly to each other. Plesiosynchrone systeem: De chips zijn gesynchroniseerd met een gemeenschappelijke tijdbasis. ze zijn niet perfect synchrone (wat fysiek onmogelijk is op schaal), maar ze zijn "plesiosynchrone" (bijna-synchrone) met een bekende drift die de compiler verantwoordelijk is voor. Software Scheduled Packets: Net zoals de compiler de wiskunde schrijft, schrijft hij de netwerkpakketten.Het weet dat Chip 1 een vector naar Chip 2 zal sturen op Cycle 500.Het garandeert dat Chip 2 klaar zal zijn om het te ontvangen op Cycle 505. Geen schakelaars: Het netwerk is een direct mesh (met name een variant van de Dragonfly topologie). Er zijn geen externe schakelaars om latentie of kosten toe te voegen. 5.2 Tensorparallelisme op schaal Dankzij deze netwerken kan Groq Tensor Parallelism efficiënt gebruiken. Slicing the Brain: Het Llama 3 70B-model is gesneden over de 576 chips. Gelijktijdige uitvoering: Wanneer een token wordt gegenereerd, worden alle 576 chips gelijktijdig geactiveerd. elk berekent een klein deel van het resultaat. Latency Benefit: Omdat de berekening parallel is aan zoveel chips, gebeurt de berekening ongelooflijk snel.En omdat de gewichten in SRAM zijn, is er geen laadtijd.Het resultaat is een systeem dat lineair schaalt: het toevoegen van meer chips maakt het model sneller, zonder de afnemende rendementen te zien in GPU-clusters als gevolg van communicatie overhead.8 De Titans vergeleken: Groq vs. Nvidia vs. Google vs. Cerebras We kunnen de belangrijkste spelers in drie kampen categoriseren: de Generalists (Nvidia), de Hyperscale Specialists (Google) en de Radicale Innovators (Groq, Cerebras). 6.1 Nvidia H200 (De Generalist) Architecture: GPU with HBM3e and HBM3. Dynamic scheduling via CUDA. Philosophy: "One chip to rule them all." Optimize for throughput, increased memory bandwidth, and versatility. Strengths: Unrivaled ecosystem (CUDA), massive memory capacity and bandwidth per chip (141GB HBM3e/HBM3), capable of both training and inference. Weaknesses: The Memory Wall limits Batch-1 inference speed. Tail latency due to dynamic scheduling. High power consumption per token for small batches.17 6.2 Google TPU v5p (De Hyperscale Specialist) Architectuur: Systolic Array ASIC met HBM. Filosofie: Optimaliseren voor specifieke Google-werkbelastingen (Transformer-modellen). Inter-Chip Interconnect (ICI) maakt massieve pods (8.960 chips) mogelijk voor training. Zwakke punten: nog steeds afhankelijk van HBM (latentie bottleneck). beperkte beschikbaarheid buiten Google Cloud. minder flexibel dan GPU's. Cerebras CS-3 (De Wafer-Schaal Reus) Architectuur: Een enkele chip de grootte van een dinerplaat (Wafer-Scale Engine). Philosophy: "Don't cut the wafer." Keep everything on one giant piece of silicon to eliminate interconnect latency. Strengths: Massive on-chip memory (44GB SRAM) and bandwidth (21 PB/s). Can hold large models on a single device. Zwakke punten: fysieke fabricage complexiteit. vermogensdichtheid. Nog steeds vereist een cluster voor de grootste modellen. Cerebras richt zich op doorvoer (tokens/sec) meer dan pure latency (tijd tot eerste token) in vergelijking met Groq.20 6.4 Groq LPU (The Low-Latency Sniper) Architectuur: Disaggregated SRAM-based ASIC. Software-defined. Filosofie: “Determinisme is snelheid.” Sterkte: Unmatched Time-to-First-Token (TTFT) en doorvoer voor kleine batch inferentie. Zwakke punten: lage geheugencapaciteit per chip vereist enorme chips tellen (hoge rackvoetafdruk). Tabel 1: Architecturale samenvatting Feature Groq LPU (TSP) Nvidia H100 (Hopper) Google TPU v5p Cerebras CS-3 Primary Focus Inference (Latency) Training & Inference Training & Inference Training & Inference Memory Architecture On-chip SRAM Off-chip HBM3 Off-chip HBM On-Wafer SRAM Memory Bandwidth 80 TB/s (Internal) 3.35 TB/s (External) ~2.7 TB/s 21 PB/s (Internal) Control Logic Software (Compiler) Hardware (Scheduler) Hybrid (XLA) Software (Compiler) Networking RealScale (Switchless) NVLink + InfiniBand ICI (Torus) SwarmX Batch-1 Efficiency Extremely High Low (Memory Bound) Medium High Llama 3 70B Speed >1,600 T/s (SpecDec) ~100-300 T/s ~50 T/s (chip) ~450 T/s Primaire focus De latentie (latentie) Training & Inferentie Training & Inferentie Training & Inference geheugenarchitectuur On-chip SRAM Off-chip van HBM3 Off-chip van HBM On-Wafer schaamte geheugen bandbreedte 80 TB / s (intern) 3.35 TB / s (externe) ~ 2,7 TB / s 21 PB / s (interne) Controle logica De Software (Compiler) Hardware (Scheduler) Een hybride (XLA) De Software (Compiler) netwerken RealScale (Switchless) NVLink + InfiniBand Hier is het (Torus) SwarmX Batch-1 Efficiency extreem hoog Low (Memory Bound) Medium Hoge Llama 3 70B snelheid > 1 600 T/s (SpecDec) 100 tot 300 T/s ~50 T/s (chip) ~450 t/s 1 Prestatie benchmarks: de snelheid van het denken 25 miljoen tokens per seconde!Ik herinner me levendig dat ik deze gedurfde voorspelling hoorde van Jonathan Ross (Groq CEO) eind mei 2024, toen we hem uitnodigden om te spreken op de GenAI-top Silicon Valley. (Ja ik nam die foto voor record. 🙂) Hoewel Groq nog niet zo dichtbij is, zijn prestatietallen echt indrukwekkend geweest. The theoretical advantages of the LPU have been validated by independent benchmarking, most notably by Artificial Analysis. The numbers reveal a stark divide in performance tiers. 7.1 Throughput and Latency Voor het Llama 3 70B-model, een standaard benchmark voor LLM's op bedrijfsniveau: Groq: consistently delivers 280 - 300 tokens per second (T/s) in standard mode.6 Nvidia H100: Typically delivers 60 - 100 T/s in standard deployments, pushing up to ~200 T/s only with heavy optimization and batching that compromises latency.24 Latency (Time to First Token): Groq achieves a TTFT of 0.2 - 0.3 seconds, making the response feel instantaneous. Nvidia solutions often lag between 0.5 to 1.0+ seconds as the request queues and the GPU spins up.23 7.2 The Speculative Decoding Breakthrough Eind 2024 onthulde Groq een mogelijkheid die de kloof van een kloof naar een kloof vergroot: Speculative Decoding.Deze techniek stelt Groq in staat om Llama 3 70B te draaien met meer dan 1,660 tokens per seconde.1 Het mechanisme : Speculative decoding uses a small "Draft Model" (e.g., Llama 8B) to rapidly guess the next few words. The large "Target Model" (Llama 70B) then verifies these guesses in parallel. Why it fails on GPUs: On a GPU, loading the Target Model to verify the guesses is expensive due to the Memory Wall. The "verification cost" often outweighs the speed gain. Waarom het op Groq vliegt: Omdat het 70B-model over de SRAM van de Groq-rack wordt verspreid, is de verificatiestap bijna onmiddellijk.De LPU kan een reeks tokens zo snel controleren als het kan genereren. 7.3 Energie-efficiëntie While a rack of 576 chips consumes significant power (likely in the hundreds of kilowatts), the Het is verrassend. Efficiëntie per eenheid werk Joules per Token: Groq reports an energy consumption of 1-3 Joules per token. Comparison: Nvidia H100-based systems typically consume 10-30 Joules per token.6 The Physics: The energy savings come from not moving data. Accessing external HBM is energy-intensive. Accessing local SRAM is cheap. Furthermore, because the Groq chip finishes the task 10x faster, it spends less time in a high-power active state for a given workload. De economie van de LPU: CapEx, OpEx en TCO De meest controversiële aspect van Groq's architectuur is de "Chip Count." critici beweren dat het vereisen van honderden chips om een model uit te voeren economisch onleefbaar is. 8.1 The Cost of the Rack vs. The Cost of the Token Het is waar dat een Groq rack (die Llama 70B draait) ~576 chips bevat. Manufacturing Cost: However, these chips are 14nm (cheap to make) and utilize standard packaging (no expensive CoWoS or HBM). A Groq chip costs a fraction of an Nvidia H100 to manufacture.7 System Cost: While specific rack pricing is opaque, estimates suggest a Groq rack is expensive in absolute CapEx terms due to the sheer volume of silicon and power infrastructure. Throughput Value: Groq argues the metric that matters is Tokens per Dollar. If a Groq rack costs $1 million but generates 200,000 tokens per second (aggregate), and an Nvidia cluster costs $500,000 but generates only 20,000 tokens per second, the Groq rack is 5x more cost-effective per unit of output.13 8.2 Pricing Strategy Groq heeft zijn API-diensten agressief geprijsd om dit te bewijzen. Inputprijs: $ 0,59 per miljoen tokens. Uitvoerprijs: $ 0,79 - $ 0,99 per miljoen tokens.2 Vergelijking: Dit ondermijnt veel traditionele GPU-gebaseerde cloudproviders, die vaak $ 2,00 - $ 10,00 kosten voor vergelijkbare modellen. 8.3 Physical Footprint and Power The downside is density. Replacing a single 8-GPU Nvidia server with multiple racks of Groq chips consumes significantly more data center floor space and requires robust cooling solutions. This makes Groq less attractive for on-premise deployments where space is tight, but viable for hyperscale cloud providers where floor space is less of a constraint than power efficiency.21 9. Use Cases: Who Needs Instant AI? Is 1,600 tokens per second necessary? For a human reading a chatbot response, 50 tokens/sec is sufficient. However, the LPU is targeting a new class of applications. 9.1 Agentische AI en redeneringslopen Toekomstige AI-systemen zullen niet alleen antwoorden; ze zullen redeneren. een "agent" moet mogelijk 10.000 woorden van interne "keten van gedachten" redeneren om een enkele gebruikersvraag te beantwoorden. The Math: If a model needs to "think" for 10,000 tokens: On Nvidia (100 T/s): The user waits 100 seconds. (Unusable). On Groq (1,600 T/s): The user waits 6 seconds. (Viable). Groq’s speed unlocks the ability for models to "think" deeply before they speak. 9.2 Real-time geluid Stemgesprekken vereisen latentie onder 200-300ms om zich natuurlijk te voelen. Elke vertraging creëert ongemakkelijke pauzes (het "walkie-talkie" -effect). Groq’s Role: With a TTFT of <200ms, Groq enables voice agents that can interrupt, backchannel, and converse with human-level cadence. Tenali, a real-time sales agent company, reported a 25x improvement in latency by switching to Groq, dropping response times from seconds to milliseconds.26 9.3 Code Generatie Coding assistants often need to read an entire codebase and regenerate large files. A developer waiting 30 seconds for a refactor breaks flow. Groq reduces this to sub-second completion. De software stack: ontsnappen aan de CUDA-val Nvidia’s dominance is largely due to CUDA, its proprietary software platform. Groq knows it cannot win by emulating CUDA. 10.1 The "Hardware-Is-Software" Approach Groq’s compiler is the heart of the product. It was built before the chip. Ease of Use: Developers use standard frameworks like PyTorch, TensorFlow, or ONNX. The compiler handles the translation to the LPU. GroqWare: De software suite beheert de complexiteit van de rack. Voor de ontwikkelaar ziet de rack eruit als een gigantisch apparaat. Het compileren van een nieuw model voor de LPU kan aanzienlijke tijd in beslag nemen omdat de compiler het "Tetris" probleem van het plannen van miljoenen operaties oplost.Dit maakt Groq minder ideaal voor onderzoek (waar modellen per uur veranderen) maar perfect voor productie (waar modellen maandenlang lopen). Conclusie: De deterministische toekomst Groq's verschuiving naar SRAM en determinisme creëerde een machine die werkt met de snelheid van het licht, waardoor Agentic AI - systemen die in staat zijn duizenden zelfcorrecterende redenering stappen in een oogwenk. With Nvidia's acquisition of Groq on 12/24/2025, the LPU's proven thesis—that determinism is destiny for future AI speed - will now be integrated into the GPU giant's roadmap. This merger signals a profound shift, acknowledging that raw power is meaningless without the speed and deterministic architecture Groq pioneered to use it effectively. 12. Bonus story - The Architect of Acceleration: Jonathan Ross and the Groq Journey Jonathan Ross, Groq's founder and CEO, is central to two major AI hardware innovations: the Google TPU and the Groq LPU. Before Groq, Ross was a key innovator on the Google Tensor Processing Unit (TPU). Introduced publicly in 2016, the TPU was Google's specialized chip for neural network calculations, designed to surpass the limitations of CPUs and GPUs. Ross helped conceptualize the first-generation TPU, which utilized a revolutionary systolic array architecture to maximize computational throughput and power efficiency for AI. His work at Google set the foundation for his later endeavors. Leaving Google in 2016, Ross founded Groq (originally Think Silicon) with the goal of creating the world's fastest, lowest-latency AI chip with deterministic performance. He recognized that GPU unpredictability - caused by elements like caches and thread scheduling - was a bottleneck for real-time AI. Groq's mission became eliminating these sources of variability. Deze filosofie gaf aanleiding tot de vlaggenschiphardware van Groq: de Language Processor Unit (LPU) en de fundamentele GroqChip. De Groq-architectuur is een afwijking van de GPU-gerichte aanpak. Groq’s Historical Arc: Ups, Downs, and Pivots The path from an ambitious startup to a leading AI hardware provider was not linear for Groq. The company’s history is marked by necessary pivots and strategic refinements: Early Years (2016-2018): The Autonomous Driving Focus: In eerste instantie richtte Groq zich sterk op de markt voor autonome voertuigen, waar voorspelbare, real-time besluitvorming een cruciale vereiste is. De Hardware Evolution (2018-2021): Het ontwerpen van de eerste chip: Deze periode was gewijd aan het moeilijke proces van het ontwerpen, uitwerken en optimaliseren van de eerste generatie van de GroqChip. The LLM Pivot (2022–Present): Finding the Killer App: As the autonomous vehicle market matured slower than anticipated and, crucially, as the transformer architecture exploded with the rise of models like GPT-3, Groq recognized a new, massive opportunity. The extreme scale and high demand for low-latency inference in LLMs made them the ideal workload for the Groq LPU. The LPU designation was adopted, effectively pivoting the company’s focus from general-purpose AI acceleration to specifically dominating the market for ultra-fast, predictable LLM inference. The Public Spotlight (2024–Beyond): Inference Dominance: Groq achieved widespread recognition by demonstrating staggering, industry-leading token-per-second performance on open-source LLMs like Llama and Mixtral. This sudden visibility cemented their position as a high-performance alternative to Nvidia GPUs for large-scale, low-latency AI deployment, marking a massive turning point in the company’s trajectory from a specialized hardware provider to a recognized leader in AI inference speed. Nvidia acquired Groq for $20B on December 24, 2025. Jonathan Ross’s enduring contribution is the creation of a fundamentally different kind of computer - one engineered for predictable performance at scale. From co-designing the TPU architecture that powered Google’s AI revolution to pioneering the deterministic LPU at Groq, he has consistently championed the idea that the future of AI requires hardware tailored specifically for the workload, not the other way around. Bijlage: Data Tables Tabel 2: Economische en operationele metrics Metric Groq LPU Solution Nvidia H100 Solution Implication OpEx (Energy/Token) 1 - 3 Joules 10 - 30 Joules Groq is greener per task. CapEx (Initial Cost) High (Rack scale) High (Server scale) Groq requires more hardware units. Space Efficiency Low (576 chips/rack) High (8 chips/server) Groq requires more floor space. Cost Efficiency High (Token/$) Low/Medium (Token/$) Groq wins on throughput economics. OpEx (Energy/Token) 1 tot 3 joules 10 - 30 Joules Groq is groener per taak. CapEx (Initial Cost) High (Rack schaal) Hoog (server schaal) Groq requires more hardware units. Space Efficiency laag (576 chips / rack) High (8 chips/server) Groq heeft meer vloerruimte nodig. Cost Efficiency Hoog (Token / USD) Low/Medium (Token/$) Groq wint op doorvoereconomie. Table 3: The Physics of Memory Memory Type Used By Bandwidth Latency Density (Transistors/Bit) SRAM Groq LPU ~80 TB/s ~1-5 ns 6 (Low Density) HBM3 Nvidia H100 3.35 TB/s ~100+ ns 1 (High Density) DDR5 CPUs ~0.1 TB/s ~100+ ns 1 (High Density) SRAM Groek LPU • 80 TB/s ~1-5 ns 6 (Low Density) HBM3 Nieuwe NVIDIA H100 3.35 TB / s ~ 100 + nS 1 (Hoge dichtheid) De DDR5 CPUs ~ 0,1 TB/s ~ 100 + nS 1 (Hoge dichtheid) Referenties Groq 14nm Chip Gets 6x Boost: Launches Llama 3.3 70B op GroqCloud, toegankelijk op 25 december 2025, https://groq.com/blog/groq-first-generation-14nm-chip-just-got-a-6x-speed-boost-introducing-llama-3-1-70b-speculative-decoding-on-groqcloud Llama-3.3-70B-SpecDec - GroqDocs, toegankelijk op 25 december 2025, https://console.groq.com/docs/model/llama-3.3-70b-specdec Introducing Cerebras Inference: AI at Instant Speed, toegankelijk op 25 december 2025, https://www.cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed Evaluating Llama‑3.3‑70B Inference on NVIDIA H100 and A100 GPUs - Derek Lewis, accessed December 25, 2025, https://dlewis.io/evaluating-llama-33-70b-inference-h100-a100/ De volledige kracht van NVIDIA H100 GPU's ontgrendelen voor ML inferentie met TensorRT - Baseten, toegankelijk op 25 december 2025, https://www.baseten.co/blog/unlocking-the-full-power-of-nvidia-h100-gpus-for-ml-inference-with-tensorrt/ Waarom Meta AI's Llama 3 Running op Groq's LPU Inference Engine Stelt een nieuwe benchmark voor Groq's Large Language Models Echo door Adam Echo Medium, toegankelijk op 25 december 2025, https://medium.com/@giladam01/why-meta-ais-llama-3-running-on-groq-s-lpu-inference-engine-sets-a-new-benchmark-for-large-2da740415773 Groq Says It Can Deploy 1 Million AI Inference Chips In Two Years - The Next Platform, toegankelijk op 25 december 2025, https://www.nextplatform.com/2023/11/27/groq-says-it-can-deploy-1-million-ai-inference-chips-in-two-years/ Binnen de LPU: Deconstructing Groq's Speed Echo Groq is snel, lage kosten inferentie., toegankelijk op 25 december 2025, https://groq.com/blog/inside-the-lpu-deconstructing-groq-speed Determinisme en de Tensor Streaming Processor. - Groq, toegankelijk op 25 december 2025, https://groq.sa/GroqDocs/TechDoc_Predictability.pdf Wat is een taalverwerkingseenheid?Groq is snel, lage kosten inferentie., toegankelijk op 25 december 2025, https://groq.com/blog/the-groq-lpu-explained LPU GROQ is snel, lage kosten inferentie., toegankelijk op 25 december 2025, https://groq.com/lpu-architecture GROQ-ROCKS-NEURAL-NETWORKS.pdf, toegankelijk op 25 december 2025, http://groq.com/wp-content/uploads/2023/05/GROQ-ROCKS-NEURAL-NETWORKS.pdf Groq Pricing and Alternatives - PromptLayer Blog, toegankelijk op 25 december 2025, https://blog.promptlayer.com/groq-pricing-and-alternatives/ Vergelijking AI Hardware Architectures: SambaNova, Groq, Cerebras vs. Nvidia GPU's & Broadcom ASIC's Echo door Frank Wang Echo Medium, toegankelijk op 25 december 2025, https://medium.com/@laowang_journey/comparing-ai-hardware-architectures-sambanova-groq-cerebras-vs-nvidia-gpus-broadcom-asics-2327631c468e The fastest big model bombing site in history! Groq became popular overnight, and its self-developed LPU speed crushed Nvidia GPUs, accessed December 25, 2025, https://news.futunn.com/en/post/38148242/the-fastest-big-model-bombing-site-in-history-groq-became New Rules of the Game: Groq's Deterministic LPU™ Inference Engine with Software-Scheduled Accelerator & Networking, accessed December 25, 2025, https://ee.stanford.edu/event/01-18-2024/new-rules-game-groqs-deterministic-lputm-inference-engine-software-scheduled TPU vs GPU : r/NVDA_Stock - Reddit, toegankelijk op 25 december 2025, https://www.reddit.com/r/NVDA_Stock/comments/1p66o4e/tpu_vs_gpu/ GPU en TPU Vergelijkende Analyse Bericht by ByteBridge - Medium, toegankelijk op 25 december 2025, https://bytebridge.medium.com/gpu-and-tpu-comparative-analysis-report-a5268e4f0d2a Google TPU vs NVIDIA GPU: The Ultimate Showdown in AI Hardware - fibermall.com, accessed December 25, 2025, https://www.fibermall.com/blog/google-tpu-vs-nvidia-gpu.htm Cerebras CS-3 vs. Groq LPU, accessed December 25, 2025, https://www.cerebras.ai/blog/cerebras-cs-3-vs-groq-lpu The Deterministic Bet: How Groq's LPU is Rewriting the Rules of AI Inference Speed, toegankelijk op 25 december 2025, https://www.webpronews.com/the-deterministic-bet-how-groqs-lpu-is-rewriting-the-rules-of-ai-inference-speed/ Best LLM inference providers. Groq vs. Cerebras: Which Is the Fastest AI Inference Provider? - DEV Community, accessed December 25, 2025, https://dev.to/mayu2008/best-llm-inference-providers-groq-vs-cerebras-which-is-the-fastest-ai-inference-provider-lap Groq lanceert Meta's Llama 3 Instruct AI Models op LPUTM Inference Engine, toegankelijk op 25 december 2025, https://groq.com/blog/12-hours-later-groq-is-running-llama-3-instruct-8-70b-by-meta-ai-on-its-lpu-inference-enginge Groq vs. Nvidia: The Real-World Strategy Behind Beating a $2 Trillion Giant - Startup Stash, toegankelijk op 25 december 2025, https://blog.startupstash.com/groq-vs-nvidia-the-real-world-strategy-behind-beating-a-2-trillion-giant-58099cafb602 Prestaties — NVIDIA NIM LLMs Benchmarking, toegankelijk op 25 december 2025, https://docs.nvidia.com/nim/benchmarking/llm/latest/performance.html How Tenali is Redefining Real-Time Sales with Groq, accessed December 25, 2025, https://groq.com/customer-stories/how-tenali-is-redefining-real-time-sales-with-groq https://groq.com/blog/groq-first-generation-14nm-chip-just-got-a-6x-speed-boost-introducing-llama-3-1-70b-speculative-decoding-on-groqcloud https://console.groq.com/docs/model/llama-3.3-70b-specdec https://www.cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed https://dlewis.io/evaluating-llama-33-70b-inference-h100-a100/ https://www.baseten.co/blog/unlocking-the-full-power-of-nvidia-h100-gpus-for-ml-inference-with-tensorrt/ https://medium.com/@giladam01/why-meta-ais-llama-3-running-on-groq-s-lpu-inference-engine-sets-a-new-benchmark-for-large-2da740415773 https://www.nextplatform.com/2023/11/27/groq-says-it-can-deploy-1-million-ai-inference-chips-in-two-years/ https://groq.com/blog/inside-the-lpu-deconstructing-groq-speed https://groq.sa/GroqDocs/TechDoc_Predictability.pdf https://groq.com/blog/the-groq-lpu-explained https://groq.com/lpu-architecture http://groq.com/wp-content/uploads/2023/05/GROQ-ROCKS-NEURAL-NETWORKS.pdf https://blog.promptlayer.com/groq-pricing-and-alternatives/ https://medium.com/@laowang_journey/comparing-ai-hardware-architectures-sambanova-groq-cerebras-vs-nvidia-gpus-broadcom-asics-2327631c468e https://news.futunn.com/en/post/38148242/the-fastest-big-model-bombing-site-in-history-groq-became https://ee.stanford.edu/event/01-18-2024/new-rules-game-groqs-deterministic-lputm-inference-engine-software-scheduled https://www.reddit.com/r/NVDA_Stock/comments/1p66o4e/tpu_vs_gpu/ https://bytebridge.medium.com/gpu-and-tpu-comparative-analysis-report-a5268e4f0d2a https://www.fibermall.com/blog/google-tpu-vs-nvidia-gpu.htm https://www.cerebras.ai/blog/cerebras-cs-3-vs-groq-lpu https://www.webpronews.com/the-deterministic-bet-how-groqs-lpu-is-rewriting-the-rules-of-ai-inference-speed/ https://dev.to/mayu2008/best-llm-inference-providers-groq-vs-cerebras-which-is-the-fastest-ai-inference-provider-lap https://groq.com/blog/12-hours-later-groq-is-running-llama-3-instruct-8-70b-by-meta-ai-on-its-lpu-inference-enginge https://blog.startupstash.com/groq-vs-nvidia-the-real-world-strategy-behind-beating-a-2-trillion-giant-58099cafb602 https://docs.nvidia.com/nim/benchmarking/llm/latest/performance.html https://groq.com/customer-stories/how-tenali-is-redefining-real-time-sales-with-groq