څنګه Nvidia زده کړې چې فکر وکړي او Groq راټول کړي 0 Preface د 2025 کال د کریسمس په شپه کې، د AI نړۍ ته راټول شوی. Nvidia، د AI هارډویر د ناڅاپي پادشاه، د دې لپاره د 20 میلیارده ډالرو وړاندیز کوي، د Groq لپاره، چې د صنعت په بهر کې ځینې نومونه په اړه سمه شوي دي. چرا د Nvidia د دې تور اسیم لپاره د دې لوی مقدار ورکړي؟ ما له 2023 څخه د Groq ټکنالوژۍ او سوداګرۍ پیاوړتیا په اړه علاقه ونیسئ، او د Open Source LLM لپاره د Cloud-based inference خدمتونه ازمايښتل. زه هیله لرئ او نه حیران شوی چې د Groq ځانګړي تمرکز، قاتل تکنالوژۍ او کلونو سخت کار په پایله کې وده ورکړي. دا مقاله د Groq آرشیفیکټۍ په عمده توګه راټول کیږي، چې ښیي چې څنګه دا د LLM د پایلو سرعت ریکارډونو له لاسه ورکوي. موږ به د Groq د ژبو پروسس یونټ (LPU) سره د ګيګانو سره: Nvidia GPU او Google TPU، وګورئ که آیا د کرون په حقیقت کې د لاسونو بدلون کوي. برسېره پر دې، د Groq جوړونکي او CEO، Jonathan Ross، چې د ګروک TPU چې د ګروک اوس د چټکولو لپاره د اصل ماښامانو څخه یو وي، د حیرانتیا تاریخ کشف کړئ. 1 - د Millisecond امپراتور په عصري ډاټا مرکزونو کې، تمرکز د AI روزنې څخه د AI پایلو ته بدل کیږي - د ډیجیټل دماغونو په اتوماتيک ډول غوښتنلیک. د کاروونکو لپاره چې د لوی زبان ماډلونو (LLMs) سره اړیکه ونیسئ، د تعریف د محدودیت دی. دا تاخیر د سافټویر ناکامۍ نه دی، مګر د هارډویر محدودیت دی، لکه د ګرافيک پروسس یونټ (GPU) په څیر موجود آرکتیکونه د token-by-token زبان تولید لپاره ډیزاین نه شوي. Groq، چې د Google اصلي Tensor Processing Unit (TPU) جوړونکي لخوا جوړ شوی، د دې ځانګړي چمتو سره حل کوي. د دوی حل د ژور پروسس یونټ (LPU) ده، یو "سافټویر-ډیزاین شوی" چپس چې د سرعت لپاره د روحي پروسیسر ډیزاین څخه راټول کیږي. د deterministic، clockwork execution او سټیټ پلان کولو په کارولو سره، Groq LPU د "Memory Wall" راټول کوي، د متن تولید سرعت په ثانیو کې د 1600 ټوکن څخه زیات ترلاسه کوي، په عمده توګه د انسان د لوست سرعت څخه زیات. 2. د Inference بحران: چرا د عصري AI "لړ" دی د Groq نوښت درکولو لپاره، تاسو باید لومړی د لوی زبانونو ماډلونو په اوسني هارډویر کې ځانګړي چلند ارزونه ونیسئ. د AI ماډل د کمپیوټري کارولو کچه د زده کړې (د روزنې) یا فکر کولو (د پایلو) پورې اړه لري. 2.1 د خودکشی نسل فزیکي د ماډل روزنه د لوړ پړاو په اوږدو کې، په دوامداره توګه کار دی. تاسو د سیسټم کې په ورته وخت کې د هزاران سټینټونه تغذیه کړئ، او د چپس د انټرنیټ وزنونو پر بنسټ د مجموعي غلطۍ پر بنسټ updates کوي. دا څنګه دی چې په یوه وخت کې د هزاران ازموینې درجه کړئ؛ تاسو کولی شئ د کار په جریان کې د رسولو لپاره ګټور کړئ. که څه هم، په ځانګړې توګه د LLMs لپاره، په ځانګړې توګه "توتریجیکي" دی. د نمونوي په هر وخت کې یو کلمه (یا ټکین) جوړوي. دا د لومړي کلمه مخکښ کوي، دا د وارداتو سره تړل کیږي، د دوهم کلمه مخکښ کوي، دا شامل دي، او داسې نور. دا پروسه په عمده توګه سلسله ده. تاسو کولی شئ د دهو کلمه محاسبه وکړئ تر هغه چې تاسو د نږدې محاسبه وکړئ. د هارډویر انجنیر لپاره، دا یو ناڅاپي ده. په عصري GPU آرشیفیکټ کې، د محاسبه کورونه (که د ریاضیات ترسره کیږي) د حافظه څخه (که د ماډل ژوند کوي) د فیزیکی فاصله له لارې جدول کیږي. دا جدول د "Von Neumann Bottleneck" جوړوي. هر وخت چې د ماډل ته اړتيا لري چې یو ټکین جوړ کړي، د GPU باید د حافظه څخه ټول ماډل راټول کړي، د دې پروسس، او دا ته ورسیږي. د 70 میلیارده پارامتر موډل لپاره لکه Llama 3، کوم چې د 140 ګیګابایټونو په اړه وزن کولی شي (د 16 بټ دقت سره)، دا معنی لري چې د چپس د 140GB معلوماتو په ټریډ کې حرکت کوي یوازې د یو واحد کلمه تولید کولو لپاره.3 دا باید دا تکرار شي، په هر ثانیو کې ډیری وختونه. 2.2 د حافظه دیوال د دې پایله ده چې د نړۍ تر ټولو قوي کمپيوټرونه د خپل وخت تر ټولو انتظار کوي. دا واقعې د "مومیو دیوال" په نوم دی. د خوځښت: په ځانګړي پایلې سټینګ کې (Batch Size 1)، د Nvidia H100 اټکلیک واحدونه د ساعت چرګانو لوی اکثریت لپاره غیر فعال دي، د HBM (High Bandwidth Memory) څخه ډاټا ترلاسه کولو لپاره انتظار کوي. د باندیډ لګښت محدودیت: حتی د H100 د مینو د باندیډ لګښت په هر ثانیو کې 3.35 Terabytes (TB / s) سره، د حرکت شوي ډاټا فیزیک د تولید سرعت په مناسب شرایطو کې د 100-200 ټوکن په هر ثانیو کې محدود کوي.4 د انرژۍ ضایع: دا د ډاټا حرکت کولو لپاره د ډاټا په پرتله ډیر انرژۍ لګښت لري. د Groq لخوا یو مطالعې ښیښه کوي چې د معمولي GPU نصبونه د ټوکن په اړه 10 څخه تر 30 Joules سوځوي، په عمده توګه د HBM او د کور ترمنځ د ډاټا په دوامداره توګه shuttling له امله. په پرتله، د ډاټا په ځای کې ساتنه دا 1-3 Joules ته کموي.6 2.3 د ټایټ لټینسی ستونزه د ستونزو د ډیزاین لپاره ډیزاین شوي CPUs او GPUs دي. دوی د پیچلي هارډویر برخو لري - کیشونه، د زون predictors، out-of-order execution انجنونه - چې هڅه کوي چې پوه شي چې د سافټویر په راتلونکې کې څه غواړئ. کله چې دا محاسبه غلط دي (د "Cache Miss" یا "د صنعت غلطو پیژندنه") ، د پروسسر د نښلیدو په توګه. په یو مشترکه ډاټا سینټر چاپیریال کې، په کوم کې چې ډیری کاروونکي د سرچینو لپاره رقابت کوي، دا د "Jitter" یا متغیر لټینټ ته اړتیا لري. د ټايل لټینټ: دا د ترټولو اوږد غوښتنلیکونو لټینټ دی - د 99th percentile. د حقیقي وخت غوښتنلیکونو لپاره لکه د صوتی اګانې یا algorithmic سوداګریز، د اوسط سرعت مهم نه ده؛ ترټولو اوږد سرعت دا دی. که یو ټکین 10ms ته اړتیا لري او بل 50ms ته اړتیا لري، د کاروونکي تجربه فریکونسونه.8 The Orchestration Tax: د دې بیلابیلو مدیریت لپاره، GPUs پیچلي سافټویر کورلونه (چې CUDA) او هارډویر پینلرونه کاروي. دا د اوورټا اضافه کوي. د چپس په دوامداره توګه پوښتنه کوي: "پیرې زه څه وکړم؟ د ډاټا اوس هم دلته دی؟" د Groq جوړه تقيې ساده دی: که موږ د پوښتنې نندارې له لاسه ورکړئ؟ که چیرې چیرې چې چپس نه باید پوهیږئ چې څه باید ترسره شي، ځکه چې دا اوس هم پوه شي؟ 3. د LPU فلسفې: د سافټویر-defined هارډویر د زبان پروسس یونټ (LPU) د دې فلسفې فیزیکی نمونې دی چې د پروسسور پرمختګ په وروستیو 30 کلونو کې راټول کیږي. د Jonathan Ross، چې مخکې د Google TPU پروژې لیږدول، د Groq د "Software-First" لارښوونې سره پیل کړ. 3.1 د کمپیوټر د کاپټین دی په روښانه سیستم کې، د کمپیلر (د سافټویر چې کوډ په چپس لارښوونې کې ترجمې کوي) د هارډویر لخوا خدمت کوي. دا د روښانه لارښوونې تولید کوي، او د هارډویر داخلي منطق (تقاریرونه، reorder buffers) په کارولو وخت کې د تفصيلات وده ورکوي. Groq دا بدل دی. د LPU هارډویر عمدتا "پړاو" دی. دا د فابريکې پیژندونکي نه لري. دا د کیش کنټرولر نه لري. دا د غیر نظم کارولو منطق نه لري. دا د آرټمیټیک یوټیټونو او د حافظه بانکونو یو لوی لړ دی چې دقیقا هغه څه کوي چې دوی وايي کیږي، کله چې دوی وايي کیږي.11 د هوښيار په بشپړه توګه په Groq کمپیلر کې شتون لري. Static Scheduling: د ماډل چلولو مخکې، د کمپیلر ټول پروګرام تجزیه کوي. دا د هر عملیات دقیق execution وخت محاسبه کوي. دا پوه شي چې د ځانګړي مټریکس کڅوړه به په دقیق ډول 400 ساعت چرګونه ته اړتیا لري. د فضاولو Orchestration: د کمپیوټر د معلوماتو د جریان په ټوله فیزیکی جغرافیه کې نقشه کوي. دا پوه کیږي چې په چرچ کې 1000،050 کې، د معلوماتو پیکټ به په ټوله توګه په سیټ کې (X، Y) کې وي، چمتو شي چې د ایکسمیټیک واحد لخوا مصرف شي. Zero Variance: ځکه چې د جدول په کمپیل وخت کې ثابت دی، دا د 0 variance لري. که کمپیلر وايي چې د کار د 28.5 میلی ثانیو ته اړتيا لري، نو دا به 28.5 میلی ثانیو ته اړتيا لري. هر ځله. دا "Deterministic Execution" ده.9 3.2 د مجموعې کرښې انالوژي د فرق درکولو لپاره، د فابريکې کچه تصور وکړئ. د GPU (Dynamic): کارکوونکي (کورونه) په سټیشنونو کې دي. د مدیر (تقاریر) د امرونو پر بنسټ چې هغه مواد چې یوازې رسیدل شوي دي غږ کوي. ځینې وختونه د کارکوونکي غیر فعال دی ځکه چې د فورکلیفټ (مومین بوس) په ترافیک کې دی. ځینې وختونه دوه کارکوونکي هڅه کوي چې د ورته وسایلو (د سرچینې لګښت) ترلاسه کړي او یو باید انتظار وکړي. د محصول لوړ دی، مګر غیرقانوني. د LPU (Deterministic): د مدیرونه شتون نلري. د موادو په عالي سرعت کنټرولر بیلګه کې حرکت کوي چې هیڅکله نه بند کیږي. کارکوونکي د روبوټ سټیشنونه دي چې د 3.2 ثانیو وروسته د ویلډنګ ترسره کولو لپاره پروګرام شوي دي. دوی نه چمتو کوي که دا برخه دلته دی؛ د سیسټم تضمین کوي چې دا دلته دی. د اغیزمنتیا په بشپړه توګه دی.10 دا آرکټیکټریټ انتخاب اجازه ورکوي چې Groq د دې کمپیوټریټ ظرفیت څخه تقریبا 100٪ د واقعي کارولو لپاره کاروي، په داسې حال کې چې GPUs اغیزمنې په وخت کې د 30-40٪ کارولو په وخت کې کاروي ځکه چې دوی د یادښت په انتظار کې دي. 4. د LPU اناتومی: د هارډویر deconstructing د LPU (د ځانګړي ډول د GroqChip آرشیفیکټ) فیزیکی پیژندنه د ریډیډیډ تبادلې په اړه یو مطالعې ده. دا د خام سرعت او مخکښیت لپاره د ضخامت او ظرفیت قربانی کوي. 4.1 SRAM: د رڼا د ذخیره کولو سرعت Nvidia او Google د HBM (High Bandwidth Memory) کاروي، کوم چې د کمپیوټر مرمۍ سره یوځای د لوی پټونو (80GB +) کې رامینځته کیږي. Groq د SRAM (Static Random Access Memory) کاروي. The Hierarchy Flattened: In a standard CPU, SRAM is used only for tiny caches (L1/L2/L3) because it is expensive and physically large (it takes 6 transistors to store a bit, vs. 1 transistor for DRAM). Groq, however, uses SRAM for the memory of the chip. primary Bandwidth Supremacy: ځکه چې د حافظه په فیزیکی ډول په کمپیوټر مټ کې یوځای شوی، د بیلګې په پرتله astronomical ده. يو واحد LPU د 80 TB / s داخلي حافظه بیلګې په پرتله لري. دا د H100 3.35 TB / s سره مقایسه وکړئ. دا د 24x ګټور ګټې ده په چټکۍ کې چې ډاټا کولی شي د ریاضی واحدونو ته ورکړل شي.10 د لوټینټینټ حذف: د HBM ته لاس رسی د نانو ثانیو لګښت لري. په چپس کې د SRAM ته لاس رسی د واحد ډیجیټل ساعت چرګونو ته اړتيا لري. دا په اغیزمنه توګه د معلوماتو لپاره د میموری دیوال راټول کوي چې د چپس کې پوښل کیږي.8 4.2 د ظرفیت محدودیت د توازن ظرفیت دی. د یو Groq چپس یوازې 230 MB SRAM لري.12 دا د H100 80GB په پرتله مایکروسکوپیک دی. پیژندنه: تاسو کولی شئ په یوه Groq چپس کې د لوی زبان ماډل نندارېئ. تاسو کولی شئ حتی د کوچني یو نندارې نندارېئ. د حل: تاسو باید د ډیری چپسونو سره اړیکه ونیسئ. د Llama 3 70B چلولو لپاره، Groq د یو چپس نه کاروي؛ دا د 576 چپسونو په اړه د راک کاروي.7 دا د سیسټم ډیزاین لپاره په بشپړه توګه د مختلفو لارښوونې ته اړتيا لري. د "کومټر" د چپس نه ده؛ د کمپیوټر د راک دی. د Tensor Streaming پروسیسر (TSP) په چپس کې، د آرکټیکټیک په ځانګړې توګه د Deep Learning لاینری الګبر لپاره ترتیب شوې ده. Vector او Matrix واحدونه: د چپس د matrix multiplication (MXM) او vector عملیاتونو لپاره ځانګړي واحدونه لري. Directional Flow: د ډاټا د چپس په پرتله horizontally (East-West) جریان کوي، په داسې حال کې چې د لارښوونې په پرتله (North-South) جریان کوي. دا "سستولیک" جریان معنی لري چې د ډاټا په ریتمیکي اوون کې د فعالیتونو واحدونو له لارې پمپ کیږي.12 14nm پروسه: په حیرانتیا سره، د لومړي نسل GroqChip په GlobalFoundries کې د 14nm پروسه پر جوړ شوی دی.7 په صنعت کې چې 3nm ته رسیږي (چې د Nvidia Blackwell په څیر)، دا اسانه ښکاري. په هرصورت، ځکه چې د ډیزاین د پیچلي ډیزاینر په لټه کې ده او د SRAM پر بنسټ لري، دا د 3nm عالي ضخامت ته اړتيا نه لري ترڅو فعالیت ترلاسه کړي. دا یو مهم لګښت او لګښت ګټې وړاندې کوي، که څه هم دا د مینی د فیزیکی اندازه (د 725mm2) اغیزه کوي.12 4.4 د TruePoint شمیره د محدود 230MB د حافظه د لوړولو لپاره، Groq د نوښت دقت ستراتیژۍ په نوم TruePoint کاروي. Precision Trap: د سنګاري هارډویر معمولا ماډلونه INT8 (8-bit کلن) ته کچولوي، کوم چې کیدای شي د دقت کم کړي. Mixed Precision: TruePoint د کڅوړې په کم دقت (چې INT8 یا FP8) ذخیره کوي ترڅو کڅوړې خوندي کړي، مګر په لوړ دقت (FP32) کې د حساس فعالیتونو لپاره د حساس فعالیتونو لپاره کاروي. دا د 100 بټه منځني ذخیره ریکارډ ساتل کوي ترڅو ډاټا ډاټا د مټریکس محصولاتو شمول کولو په وخت کې کڅوړې نلري.8 پایله: دا Groq ته اجازه ورکوي چې د quantized ماډلونه په سرعت سره د دقت کچه په عمومي ډول د لوړ دقت implementations خوندي کړي. 5. د شبکې د کمپیوټر دی: RealScale ټکنالوژۍ ځکه چې نه یو واحد LPU کولای شي د يو موډل د ساتلو، د شبکې چې د چپسونو د ګډو په توګه مهم دي. که د چپس A او د چپس B تر منځ د اړیکو اوږد دی، د 80 TB / s د داخلي باندیډ د ضایع. 5.1 RealScale: د switchless ټوکر د ډاټاټینټ مرکز شبکې Ethernet یا InfiniBand سوکټونه کاروي. کله چې یو سرور ډاټا ورکوي، دا به یو سوکټ ته ورسیږي، کوم چې دا ته د مقصد ته راټولوي. دا لټینټ اضافه کوي او د چټکولو امکان (ترافیک د چټکونو) وړاندې کوي. Groq’s RealScale network connects chips directly to each other. Plesiosynchronous سیسټم: د سیلیکونونه د یو عام وخت بیلګه سره synchronized دي. دوی په بشپړه توګه synchronous نه دي (که په فیزیکي کچه غیر ممکن دی)، مګر دوی د "plesiosynchronous" (د نږدې synchronous) سره یو مشهور ډرایو چې د کمپیوټر لخوا حساب کوي.11 Software-Scheduled Packets: Just as the compiler schedules the math, it schedules the network packets. It knows that Chip 1 will send a vector to Chip 2 at Cycle 500. It guarantees that Chip 2 will be ready to receive it at Cycle 505. No Switches: د شبکې د مستقیم شبکې دی (د ځانګړي ډول د Dragonfly ټاپولوژۍ بدلون). د لټینټ یا لګښت اضافه کولو لپاره د غیرقانوني switches شتون نلري. د روټینټینټ deterministic دی. دا اجازه ورکوي چې د 576 چپس د راک په توګه یو واحد، متوازن یادښت فضا کار وکړي.6 5.2 په کچه د ټینسر paralelism دا شبکې کول Groq ته اجازه ورکوي چې د Tensor Parallelism په اغیزمنه توګه کاروي. Slicing the Brain: The Llama 3 70B model is sliced across the 576 chips. Every layer of the neural network is distributed. Simultaneous Execution: کله چې یو ټکین جوړ شي، ټول 576 چپس په ورته وخت کې فعال شي. هر د پایلو د کوچني برخې محاسبه کوي. دوی د RealScale شبکې له لارې د معلوماتو تبادله کوي، د پایلو راټولوي، او په بل کچې کې حرکت کوي. د لوټینټ فوټ: ځکه چې د محاسبه په ډیری چپسونو کې parallelized دی، د محاسبه په ناڅاپي سرعت کې ترسره کیږي. او ځکه چې د وزنونه په SRAM کې دي، د لوټ وخت نه لري. د پایلې د سیسټم دی چې په لنډه توګه کچول کیږي: نور چپس اضافه کول د موډل په چټکۍ سره چلند کوي، د GPU کلسترونو له امله د اړیکو په پرتله له امله ښودل کیږي.8 6. The Titans Compared: Groq vs. Nvidia vs. Google vs. Cerebras د AI هارډویر ټاپو دی د فلسفې د جنگ. موږ کولی شو د اصلي لوبغاړو په درې ټاپوونو کې راټول شي: د Generalists (Nvidia)، د Hyperscale Specialists (Google) او د ریډیکال نوښتونکي (Groq، Cerebras). 6.1 NVIDIA H200 (د Generalist) Architecture: GPU with HBM3e and HBM3. Dynamic scheduling via CUDA. Philosophy: "One chip to rule them all." Optimize for throughput, increased memory bandwidth, and versatility. Strengths: Unrivaled ecosystem (CUDA), massive memory capacity and bandwidth per chip (141GB HBM3e/HBM3), capable of both training and inference. Weaknesses: The Memory Wall limits Batch-1 inference speed. Tail latency due to dynamic scheduling. High power consumption per token for small batches.17 6.2 Google TPU v5p (د Hyperscale متخصص) Architecture: Systolic Array ASIC with HBM. فلسفه: د Google په ځانګړي کاري بارونو (Transformer ماډلونه) لپاره غوره کړئ. قوي: د عالي اغیزمن matrix ریاضیات. Inter-Chip Interconnect (ICI) لپاره د روزنې لپاره لوی پوډرونه (8.960 چپسونه) اجازه ورکوي. د عالي رسولو لپاره ارزانه.18 ضعیفې: اوس هم د HBM (لټینسی bottleneck) پر بنسټ دی. محدود وړتیا د Google Cloud څخه بهر. د GPUs په پرتله کم انعطاف. 6.3 Cerebras CS-3 (د Wafer-scale جینټ) Architecture: A single chip the size of a dinner plate (Wafer-Scale Engine). Philosophy: "Don't cut the wafer." Keep everything on one giant piece of silicon to eliminate interconnect latency. ضخامتونه: لوی په چپس کې د حافظه (44GB SRAM) او بډایه (21 PB / s). کولای شي د لوی موډلونه په یوه واحد وسایلو کې وساتي. Weaknesses: Physical manufacturing complexity. Power density. Still requires a cluster for the largest models. Cerebras focuses on throughput (tokens/sec) more than pure latency (time to first token) compared to Groq.20 6.4 Groq LPU (The Low-Latency Sniper) آرشیفیت: د SRAM پر بنسټ د disaggregated ASIC. د سافټویر د تعریف. د فلسفې: "Determinism is speed." د رخصتۍ لپاره ضایع کول. Strengths: Unmatched Time-to-First-Token (TTFT) and throughput for small-batch inference. Deterministic performance (no jitter). ضعیفې: د ټیټ یادښت ظرفیت په هر چپس کې اړتيا لري لوی چپس شمیره (د لوړ راک پایپ). د روزنې لپاره مناسب نه دي.21 Table 1: Architectural Comparison Summary Feature Groq LPU (TSP) Nvidia H100 (Hopper) Google TPU v5p Cerebras CS-3 Primary Focus Inference (Latency) Training & Inference Training & Inference Training & Inference Memory Architecture On-chip SRAM Off-chip HBM3 Off-chip HBM On-Wafer SRAM Memory Bandwidth 80 TB/s (Internal) 3.35 TB/s (External) ~2.7 TB/s 21 PB/s (Internal) Control Logic Software (Compiler) Hardware (Scheduler) Hybrid (XLA) Software (Compiler) Networking RealScale (Switchless) NVLink + InfiniBand ICI (Torus) SwarmX Batch-1 Efficiency Extremely High Low (Memory Bound) Medium High Llama 3 70B Speed >1,600 T/s (SpecDec) ~100-300 T/s ~50 T/s (chip) ~450 T/s اصلي تمرکز د رخصتۍ (Latency) د روزنې & Inference د روزنې & Inference د روزنې & Inference د حافظه آرشیفیت On-chip د خوښۍ Off-chip د HBM3 Off-chip HBM On-Wafer خنده د انټرنېټ باندیډ 80 TB/s (Internal) 3.35 TB / s (د بهرني) ~2.7 TB/s 21 PB/s (Internal) د کنترول منطقي Software (Compiler) Hardware (Scheduler) د هیدرولیک (XLA) Software (Compiler) Networking RealScale (Switchless) NVLink + InfiniBand ICI (Torus) SwarmX Batch-1 Efficiency ډیر لوړ Low (Memory Bound) Medium د لوړ Llama 3 70B Speed >1,600 T/s (SpecDec) ~ 100-300 T / s ~50 T/s (chip) ~ 450 T / s 1 7. Performance Benchmarks: The Speed of Thought 25 میلیونه ټکینونه په ثانیو کې! زه په ښکاره توګه یاد ولرئ چې د 2024 کال د می په پای کې جوناتن ریس (Groq CEO) له دې ډبره پیژندل، کله چې موږ هغه ته د GenAI سیلیکون ویلی ټیم کې خبرې وکړي. (دا زه دا عکس د ریکارډ لپاره ونیسئ. 🙂) که څه هم Groq د دې پورې نیسي نه ده، د هغې د فعالیتونو کچه په حقیقت کې حیرانتیا لري. The theoretical advantages of the LPU have been validated by independent benchmarking, most notably by Artificial Analysis. The numbers reveal a stark divide in performance tiers. 7.1 د نندارتون او تاخیر د Llama 3 70B ماډل لپاره، د Enterprise-grade LLMs لپاره د معياري معیار: Groq: consistently delivers 280 - 300 tokens per second (T/s) in standard mode.6 Nvidia H100: Typically delivers 60 - 100 T/s in standard deployments, pushing up to ~200 T/s only with heavy optimization and batching that compromises latency.24 Latency (Time to First Token): Groq achieves a TTFT of 0.2 - 0.3 seconds, making the response feel instantaneous. Nvidia solutions often lag between 0.5 to 1.0+ seconds as the request queues and the GPU spins up.23 7.2 The Speculative Decoding Breakthrough د 2024 په پای کې، Groq یو وړتیا ته وده ورکړي چې د ریل څخه د کانونو ته رڼا ته وده ورکړي: د سپیکولټ ډکډینګ. دا تکنالوژۍ Groq ته اجازه ورکوي چې د Llama 3 70B په هر ثانیو کې د 1.660 ټوکن څخه زیات چلند وکړي.1 د میکانیزم: Speculative decoding uses a small "Draft Model" (e.g., Llama 8B) to rapidly guess the next few words. The large "Target Model" (Llama 70B) then verifies these guesses in parallel. Why it fails on GPUs: On a GPU, loading the Target Model to verify the guesses is expensive due to the Memory Wall. The "verification cost" often outweighs the speed gain. ځکه چې د 70B ماډل د Groq راک د SRAM په پراخه کچه توزیع کیږي، د تصدیق مرحله په عمده توګه په اټکل کې دی. د LPU کولی شي د token sequence په چټکۍ سره تصدیق کړي لکه څنګه چې دا کولی شي یو تولید کړي. دا اجازه ورکوي چې Groq د انسان کولی شي په چټکۍ سره متن صادر کړي.1 7.3 Energy Efficiency په داسې حال کې چې د 576 چیپونه د بریښنا د مصرف په لټه کې دي (د احتمالا په کلو واټونو کې)، د is surprising. efficiency per unit of work Joules per Token: Groq reports an energy consumption of 1-3 Joules per token. Comparison: Nvidia H100-based systems typically consume 10-30 Joules per token.6 The Physics: The energy savings come from not moving data. Accessing external HBM is energy-intensive. Accessing local SRAM is cheap. Furthermore, because the Groq chip finishes the task 10x faster, it spends less time in a high-power active state for a given workload. 8. د LPU اقتصاد: CapEx، OpEx، او TCO د Groq آرکټیکټیکټ په اړه ترټولو مخکښ برخه د "چپ شمیره" دی. انتقادونکي argue that having to require hundreds of chips to run a model is economically unviable.This requires a nuanced Total Cost of Ownership (TCO) analysis. 8.1 The Cost of the Rack vs. The Cost of the Token It is true that a Groq rack (running Llama 70B) contains ~576 chips. د توليد لګښت: په هرصورت، دا چپس 14nm دي (د تولید لپاره ارزانه) او د معياري بسته کاروي (د ارزانه CoWoS یا HBM نه). د Groq چپس د تولید لپاره د Nvidia H100 د فریکونسۍ لګښت لري.7 د سیسټم لګښت: په داسې حال کې چې د ځانګړي لګښتونو بیلابیلو دي، تخنیکونه ښيي چې د Groq لګښت په بشپړه توګه CapEx لګښتونو کې د سیلیکون او د بریښنا د زیربنا لګښت له امله ارزانه دی. Throughput Value: Groq argues the metric that matters is Tokens per Dollar. If a Groq rack costs $1 million but generates 200,000 tokens per second (aggregate), and an Nvidia cluster costs $500,000 but generates only 20,000 tokens per second, the Groq rack is 5x more cost-effective per unit of output.13 8.2 Pricing Strategy Groq د دې نقطې ثبوت لپاره د API خدمتونو په اغیزمنه توګه بيه کوي. د انټرنېټ بیه: $ 0.59 per million tokens. د صادراتو قیمت: $ 0.79 - $ 0.99 هر میلیون ټوکن.2 پرتله: دا د ډیری روحي GPU پر بنسټ د سایټ عرضه کوونکي څخه کم کوي، کوم چې معمولا د ورته موډلونو لپاره د $ 2.00 - $ 10.00 لګښت لري. دا بيه ته رسوي چې د Groq داخلي TCO د هارډویر پایپ له الرې رقابتی دی. 8.3 Physical Footprint and Power ناڅاپي دی ضخامت. د یو واحد 8-GPU Nvidia سرور سره د Groq چپس ډیری راکونو بدلولو په عمده توګه ډیر ډاټا سینټ پوډر فضا مصرف کوي او قوي کول د حلونو ته اړتيا لري. دا د Groq لپاره په ځای کې د پراختیا لپاره لږ ښکاره کوي چې د فضا ضخامت دی، مګر د hyperscale سایټ سپارلر لپاره ممکن دی چې د پوډر پوډر د بریښنا د اغیزمنې څخه لږ محدود دی.21 9. Use Cases: Who Needs Instant AI? آیا په هر ثانیو کې د 1600 ټوکنونو ته اړتیا لري؟ د انسان په اړه د چیټ بوټ ځواب په اړه د 50 ټوکنونو / ثانیو ته اړتیا لري. په هرصورت، د LPU د غوښتنلیکونو نوي ټولګي ته هدف لري. 9.1 د ایجنټیک AI او د منطق کولو کورسونه Future AI systems will not just answer; they will reason. An "Agent" might need to generate 10,000 words of internal "Chain of Thought" reasoning to answer a single user question. The Math: If a model needs to "think" for 10,000 tokens: On Nvidia (100 T/s): The user waits 100 seconds. (Unusable). On Groq (1,600 T/s): The user waits 6 seconds. (Viable). Groq’s speed unlocks the ability for models to "think" deeply before they speak. 9.2 Real-Time Voice Voice conversation requires latency below 200-300ms to feel natural. Any delay creates awkward pauses (the "walkie-talkie" effect). Groq’s Role: With a TTFT of <200ms, Groq enables voice agents that can interrupt, backchannel, and converse with human-level cadence. Tenali, a real-time sales agent company, reported a 25x improvement in latency by switching to Groq, dropping response times from seconds to milliseconds.26 9.3 د کوډ نسل Coding assistants often need to read an entire codebase and regenerate large files. A developer waiting 30 seconds for a refactor breaks flow. Groq reduces this to sub-second completion. 10. The Software Stack: Escaping the CUDA Trap Nvidia’s dominance is largely due to CUDA, its proprietary software platform. Groq knows it cannot win by emulating CUDA. 10.1 The "Hardware-Is-Software" Approach د Groq کمپیوټر د محصول د قلب دی. دا د چپس مخکې جوړ شوی. Ease of Use: Developers use standard frameworks like PyTorch, TensorFlow, or ONNX. The compiler handles the translation to the LPU. GroqWare: The software suite manages the complexity of the rack. To the developer, the rack looks like one giant device. چټکونه: د سټیټیک پلان کولو ناڅاپي وخت دی. د LPU لپاره د نوي ماډل جوړولو کولی شي په پام وړ وخت کې وي ځکه چې کمپیوټر د "Tetris" ستونزه حل کوي چې د میلیونونو عملیاتونو برنامه کولو لپاره مناسب دی. دا Groq د څیړنې لپاره لږ مناسبه کوي (که ماډلونه ساعته بدل کیږي) مګر د تولید لپاره مناسب دی (که ماډلونه میاشتې کار کوي).21 11. Conclusion: The Deterministic Future The Groq LPU's success proves that the Von Neumann architecture is a liability for serial LLM inference. Groq's shift to SRAM and determinism created a machine that operates at the speed of light, enabling Agentic AI—systems capable of thousands of self-correcting reasoning steps in the blink of an eye. د Nvidia د Groq په 12 / 24 / 2025 کې راټولولو سره، د LPU د ثابت ټیسټ - چې Determinism د راتلونکي AI سرعت لپاره هدف دی - به اوس د GPU ګرځنده د سړک نقشه کې شامل شي. دا ترکیب د عمیق بدلون ته نشانه ورکوي، پوه شي چې خام انرژۍ د ګرځنده سرعت او Deterministic آرکټیکټریټ Groq د اغیزمن استعمال لپاره مخکښ نلري. د بونس داستان - د چټکولو جوړونکي: Jonathan Ross او د Groq سفر Jonathan Ross, Groq's founder and CEO, is central to two major AI hardware innovations: the Google TPU and the Groq LPU. Before Groq, Ross was a key innovator on the Google Tensor Processing Unit (TPU). Introduced publicly in 2016, the TPU was Google's specialized chip for neural network calculations, designed to surpass the limitations of CPUs and GPUs. Ross helped conceptualize the first-generation TPU, which utilized a revolutionary systolic array architecture to maximize computational throughput and power efficiency for AI. His work at Google set the foundation for his later endeavors. Leaving Google in 2016, Ross founded Groq (originally Think Silicon) with the goal of creating the world's fastest, lowest-latency AI chip with deterministic performance. He recognized that GPU unpredictability - caused by elements like caches and thread scheduling - was a bottleneck for real-time AI. Groq's mission became eliminating these sources of variability. This philosophy gave rise to Groq’s flagship hardware: the Language Processor Unit (LPU) and its foundational GroqChip. The Groq architecture is a departure from the GPU-centric approach. It features a massive single-core, tiled design where all compute elements are connected by an extremely high-speed, on-chip network. د Groq تاریخي آرک: اوپونه، ډاونونه، او Pivots د یو متحرک پیل څخه د AI هارډویر عرضه مخکښ ته لاره د Groq لپاره لنډه نه وي. د شرکت تاریخ د اړتیاوو پایپونو او ستراتیژیکي پراختیاونو لخوا نښلول کیږي: لومړی کاله (2016-2018): د اتومات چلند تمرکز: په پیل کې، Groq په عمده توګه د اتومات موټرو بازار ته تمرکز کړ، په کوم کې د پیش بینی وړ، په واقعي وخت کې د فیصلې کولو یوه مهم اړتیا دی. د Groq چپس deterministic طبيعت په دې خونديتوب مهمو سيمه کې مناسب دی، د مهمو لومړنۍ همکارۍ تضمین کړي. The Hardware Evolution (2018–2021): Designing the First Chip: This period was dedicated to the grueling process of designing, taping out, and optimizing the first generation of the GroqChip. Securing funding and attracting top talent from companies like Google and AMD were key milestones. The LLM Pivot (2022–Present): Finding the Killer App: As the autonomous vehicle market matured slower than anticipated and, crucially, as the transformer architecture exploded with the rise of models like GPT-3, Groq recognized a new, massive opportunity. The extreme scale and high demand for low-latency inference in LLMs made them the ideal workload for the Groq LPU. The LPU designation was adopted, effectively pivoting the company’s focus from general-purpose AI acceleration to specifically dominating the market for ultra-fast, predictable LLM inference. The Public Spotlight (2024–Beyond): Inference Dominance: Groq achieved widespread recognition by demonstrating staggering, industry-leading token-per-second performance on open-source LLMs like Llama and Mixtral. This sudden visibility cemented their position as a high-performance alternative to Nvidia GPUs for large-scale, low-latency AI deployment, marking a massive turning point in the company’s trajectory from a specialized hardware provider to a recognized leader in AI inference speed. Nvidia acquired Groq for $20B on December 24, 2025. Jonathan Ross’s enduring contribution is the creation of a fundamentally different kind of computer - one engineered for predictable performance at scale. From co-designing the TPU architecture that powered Google’s AI revolution to pioneering the deterministic LPU at Groq, he has consistently championed the idea that the future of AI requires hardware tailored specifically for the workload, not the other way around. نندارتون: د معلوماتو جدولونه جدول 2: اقتصادي او عملیاتي مټريکونه Metric Groq LPU Solution Nvidia H100 Solution Implication OpEx (Energy/Token) 1 - 3 Joules 10 - 30 Joules Groq is greener per task. CapEx (Initial Cost) High (Rack scale) High (Server scale) Groq requires more hardware units. Space Efficiency Low (576 chips/rack) High (8 chips/server) Groq requires more floor space. Cost Efficiency High (Token/$) Low/Medium (Token/$) Groq wins on throughput economics. د OPEX (Energy / Token) 1 - 3 جول 10 - 30 Joules Groq is greener per task. CapEx (د لومړني لګښت) د عالي (Rack Scale) د لوړ کچه (Server Scale) Groq د ډیری هارډویر واحدونو ته اړتیا لري. د فضایي اغیزمنۍ Low (576 chips/rack) لوړ (8 چپس / سرور) Groq requires more floor space. ارزښتونه لوړ (Token / $) Low/Medium (Token/$) د ګروک په اقتصاد کې ګټه ورکوي. Table 3: The Physics of Memory Memory Type Used By Bandwidth Latency Density (Transistors/Bit) SRAM Groq LPU ~80 TB/s ~1-5 ns 6 (Low Density) HBM3 Nvidia H100 3.35 TB/s ~100+ ns 1 (High Density) DDR5 CPUs ~0.1 TB/s ~100+ ns 1 (High Density) خنده د ګروپ LPU ~80 TB/s ~1-5 ns 6 (د کم ضخامت) د HBM3 د Nvidia H100 3.35 TB/s ~ 100 + ns 1 (High Density) د DDR5 د CPUs ~ 0.1 TB / s ~100+ ns 1 (High Density) د نندارتون د Groq 14nm چپس 6x Boost ترلاسه کوي: په GroqCloud کې د Llama 3.3 70B پیل کیږي، د 25 دسمبر په 2025 کې لاس رسیږي https://groq.com/blog/groq-first-generation-14nm-chip-just-got-a-6x-speed-boost-introducing-llama-3-1-70b-speculative-decoding-on-groqcloud Llama-3.3-70B-SpecDec - GroqDocs, accessed December 25, 2025, https://console.groq.com/docs/model/llama-3.3-70b-specdec Introducing Cerebras Inference: AI at Instant Speed، په 25 دسمبر په 2025 کې، https://www.cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed Evaluating Llama‑3.3‑70B Inference on NVIDIA H100 and A100 GPUs - Derek Lewis, accessed December 25, 2025, https://dlewis.io/evaluating-llama-33-70b-inference-h100-a100/ د TensorRT - Baseten سره د ML پایلو لپاره د NVIDIA H100 GPU د بشپړ قدرت لوښی، د 25 دسمبر په اړه د 2025 په اړه، https://www.baseten.co/blog/unlocking-the-full-power-of-nvidia-h100-gpus-for-ml-inference-with-tensorrt/ د ماټا AI Llama 3 په ګروک LPU Inference انجن کې چلند د لوی زبانونو ماډلونو لپاره یو نوی بیلګې ترتیب کوي. د Adamcoil Medium، د 25 دسمبر په اړه، د 2025 کال په اړه، https://medium.com/@giladam01/why-meta-ais-llama-3-running-on-groq-s-lpu-inference-engine-sets-a-new-benchmark-for-large-2da740415773 Groq وايي دا کولی شي په دوو کلونو کې د AI Inference چپس 1 ملیون ته وده ورکړي - د بل پلیټ فارم، د 25 دسمبر په 2025 کې لاس رسیږي https://www.nextplatform.com/2023/11/27/groq-says-it-can-deploy-1-million-ai-inference-chips-in-two-years/ د LPU په برخه کې: د Groq د سرعت د deconstructing په برخه کې د Groq سرعت دی، د کم لګښت د پایلو په برخه کې.، د 25 دسمبر په اړه، 2025، https://groq.com/blog/inside-the-lpu-deconstructing-groq-speed Determinism and the Tensor Streaming Processor. - Groq، د 25 دسمبر په 2025 کې، https://groq.sa/GroqDocs/TechDoc_Predictability.pdf What is a Language Processing Unit? | Groq is fast, low cost inference., accessed December 25, 2025, https://groq.com/blog/the-groq-lpu-explained LPU GROQ دی چټک، ټیټ لګښت پایلې.، د 25 دسمبر په 2025 کې، https://groq.com/lpu-architecture GROQ-ROCKS-NEURAL-NETWORKS.pdf, accessed December 25, 2025, http://groq.com/wp-content/uploads/2023/05/GROQ-ROCKS-NEURAL-NETWORKS.pdf د Groq قیمتونه او بدیلونه - د PromptLayer بلاګ، د 25 دسمبر په 2025 کې، https://blog.promptlayer.com/groq-pricing-and-alternatives/ د AI هارډویر آرشیفیکټونو مقایسه: SambaNova، Groq، Cerebras vs. Nvidia GPUs & Broadcom ASICs eBay له خوا Frank Wang Átha Medium، دسمبر 25، 2025 ته لاس رسی، https://medium.com/@laowang_journey/comparing-ai-hardware-architectures-sambanova-groq-cerebras-vs-nvidia-gpus-broadcom-asics-2327631c468e The fastest big model bombing site in history! Groq became popular overnight, and its self-developed LPU speed crushed Nvidia GPUs, accessed December 25, 2025, https://news.futunn.com/en/post/38148242/the-fastest-big-model-bombing-site-in-history-groq-became د ګروک د Deterministic LPUTM Inference Engine with Software-Scheduled Accelerator & Networking، د 25 دسمبر په 2025 کې لاس رسی، https://ee.stanford.edu/event/01-18-2024/new-rules-game-groqs-deterministic-lputm-inference-engine-software-scheduled TPU vs GPU : r/NVDA_Stock - Reddit، د دسمبر په 25، 2025 کې، https://www.reddit.com/r/NVDA_Stock/comments/1p66o4e/tpu_vs_gpu/ د GPU او TPU متوازن تجارتي تحلیل راپور، ByteBridge - منځني، د 25 دسمبر په 2025 کې، https://bytebridge.medium.com/gpu-and-tpu-comparative-analysis-report-a5268e4f0d2a Google TPU vs NVIDIA GPU: The Ultimate Showdown in AI Hardware - fibermall.com, accessed December 25, 2025, https://www.fibermall.com/blog/google-tpu-vs-nvidia-gpu.htm Cerebras CS-3 vs. Groq LPU، د 25 دسمبر په 2025 کې، https://www.cerebras.ai/blog/cerebras-cs-3-vs-groq-lpu The Deterministic Bet: How Groq's LPU is Rewriting the Rules of AI Inference Speed, accessed December 25, 2025, https://www.webpronews.com/the-deterministic-bet-how-groqs-lpu-is-rewriting-the-rules-of-ai-inference-speed/ Best LLM inference providers. Groq vs. Cerebras: Which Is the Fastest AI Inference Provider? - DEV Community, accessed December 25, 2025, https://dev.to/mayu2008/best-llm-inference-providers-groq-vs-cerebras-which-is-the-fastest-ai-inference-provider-lap Groq Launches Meta's Llama 3 Instruct AI Models on LPU™ Inference Engine, accessed December 25, 2025, https://groq.com/blog/12-hours-later-groq-is-running-llama-3-instruct-8-70b-by-meta-ai-on-its-lpu-inference-enginge Groq vs. Nvidia: The Real-World Strategy Behind Beating a $2 Trillion Giant - Startup Stash, accessed December 25, 2025, https://blog.startupstash.com/groq-vs-nvidia-the-real-world-strategy-behind-beating-a-2-trillion-giant-58099cafb602 Performance — NVIDIA NIM LLMs Benchmarking, accessed December 25, 2025, https://docs.nvidia.com/nim/benchmarking/llm/latest/performance.html How Tenali is Redefining Real-Time Sales with Groq, accessed December 25, 2025, https://groq.com/customer-stories/how-tenali-is-redefining-real-time-sales-with-groq https://groq.com/blog/groq-first-generation-14nm-chip-just-got-a-6x-speed-boost-introducing-llama-3-1-70b-speculative-decoding-on-groqcloud https://console.groq.com/docs/model/llama-3.3-70b-specdec https://www.cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed https://dlewis.io/evaluating-llama-33-70b-inference-h100-a100/ https://www.baseten.co/blog/unlocking-the-full-power-of-nvidia-h100-gpus-for-ml-inference-with-tensorrt/ https://medium.com/@giladam01/why-meta-ais-llama-3-running-on-groq-s-lpu-inference-engine-sets-a-new-benchmark-for-large-2da740415773 https://www.nextplatform.com/2023/11/27/groq-says-it-can-deploy-1-million-ai-inference-chips-in-two-years/ https://groq.com/blog/inside-the-lpu-deconstructing-groq-speed https://groq.sa/GroqDocs/TechDoc_Predictability.pdf https://groq.com/blog/the-groq-lpu-explained https://groq.com/lpu-architecture http://groq.com/wp-content/uploads/2023/05/GROQ-ROCKS-NEURAL-NETWORKS.pdf https://blog.promptlayer.com/groq-pricing-and-alternatives/ https://medium.com/@laowang_journey/comparing-ai-hardware-architectures-sambanova-groq-cerebras-vs-nvidia-gpus-broadcom-asics-2327631c468e https://news.futunn.com/en/post/38148242/the-fastest-big-model-bombing-site-in-history-groq-became https://ee.stanford.edu/event/01-18-2024/new-rules-game-groqs-deterministic-lputm-inference-engine-software-scheduled https://www.reddit.com/r/NVDA_Stock/comments/1p66o4e/tpu_vs_gpu/ https://bytebridge.medium.com/gpu-and-tpu-comparative-analysis-report-a5268e4f0d2a https://www.fibermall.com/blog/google-tpu-vs-nvidia-gpu.htm https://www.cerebras.ai/blog/cerebras-cs-3-vs-groq-lpu https://www.webpronews.com/the-deterministic-bet-how-groqs-lpu-is-rewriting-the-rules-of-ai-inference-speed/ https://dev.to/mayu2008/best-llm-inference-providers-groq-vs-cerebras-which-is-the-fastest-ai-inference-provider-lap https://groq.com/blog/12-hours-later-groq-is-running-llama-3-instruct-8-70b-by-meta-ai-on-its-lpu-inference-enginge https://blog.startupstash.com/groq-vs-nvidia-the-real-world-strategy-behind-beating-a-2-trillion-giant-58099cafb602 https://docs.nvidia.com/nim/benchmarking/llm/latest/performance.html https://groq.com/customer-stories/how-tenali-is-redefining-real-time-sales-with-groq