Pamoja na kutolewa kwa kizazi kipya cha chip ya Blackwell kwa soko la GPU ya watumiaji, ilikuwa inatarajiwa kuona matoleo ya kazi ya GPU pia - matoleo yaliyopangwa kubadilisha mfululizo wa A5000 / A6000 na bei ya chini kuliko GPU za A100 / H100. Hii ilitokea, lakini katika mchakato huo, NVIDIA iliondanganya kabisa kila mtu kwa kuanzisha toleo tatu la RTX PRO 6000 Blackwell katika miezi sita tu. sisi katika HOSTKEY tulijiunga na ushindani wa utendaji na kutolewa kwa toleo la hivi karibuni - RTX PRO 6000 Blackwell Server Edition - tulijaribu kwa kina, na tuna baadhi ya matokeo ya kushiriki (na kuonyesha). Jaribu seva na NVIDIA RTX 6000 PRO 96 GB - kwa bure! Wasiliana na timu yetu ya mauzo ili kujifunza kuhusu hali ya gari la majaribio.* Kuwasiliana na sisi * - GPU inatolewa kwa ajili ya jaribio la bure kwa msingi wa kibinafsi na haipatikani katika kesi zote. Try the server with NVIDIA RTX 6000 PRO 96 GB — for free! Wasiliana na timu yetu ya mauzo ili kujifunza kuhusu hali ya gari la majaribio.* Kuwasiliana na sisi * - GPU inatolewa kwa ajili ya jaribio la bure kwa msingi wa kibinafsi na haipatikani katika kesi zote. Wewe ni nini? Kama wewe kuangalia juu ya kwenye tovuti ya Nvidia, tunaona picha zifuatazo: official GPU specifications Maelezo rasmi ya GPU Tuna chaguzi tatu za kadi ya video ambazo zina tofauti katika kiwango cha fomu, aina ya mfumo wa baridi, na matumizi ya nguvu ya juu. Kwa mtazamo wa kwanza, mtu anaweza kudhani kwamba toleo la kati (Workstation Edition) inapaswa kuwa haraka zaidi na labda la moto zaidi, kulingana na matumizi yake ya nguvu. Workstation Edition Max-Q Workstation edition Server Edition RTX 5090 CUDA Parallel Processing cores 24064 24064 24064 21760 Single-Precision Performance (FP32) 125 TFLOPS 125 TFLOPS 120 TFLOPS 103 TFLOPS RT Core Performance 380 TFLOPS 333 TFLOPS 355 TFLOPS - Memory Bandwidth 1792 GB/s 1792 GB/s 1597 GB/s 1792 GB/sec GPU Memory 96 GB GDDR7 with ECC 96 GB GDDR7 with ECC 96 GB GDDR7 with ECC 32 GB GDDR7 Memory Interface 512-bit 512-bit 512-bit 512-bit Power Consumption Up to 600W (Configurable) 300W 600W 575W Jinsi ya kusindika rangi ya rangi 24064 24064 24064 21760 Ufanisi wa Usahihi wa Moja (FP32) 125 ya TFF 125 ya TFF 120 ya TFF 103 ya TFF Utendaji wa RT Core Maoni ya 380 333 wafuasi 355 wafuasi wa - Bandwidth ya kumbukumbu 1792 GB kwa sekunde 1792 GB kwa sekunde 1597 GB kwa sekunde 1792 GB kwa sekunde Kumbukumbu ya GPU 96 GB GDDR7 na ECC 96 GB GDDR7 na ECC 96 GB GDDR7 na ECC 32 GB ya GDDR7 Interface ya kumbukumbu Mchezo wa 512bit Mchezo wa 512bit Mchezo wa 512bit Mchezo wa 512bit matumizi ya nishati Zaidi ya 600W (kuwekwa) ya 300W ya 600W ya 575W GPU tuliyojaribu (RTX 6000 Blackwell Server Edition) ni dhaifu zaidi katika utangulizi (kama mtu anaweza kutarajia toleo la Server kuwa nguvu zaidi kuliko toleo la Workstation), lakini bado inafanikiwa na RTX 5090 ya kiwango cha watumiaji kutokana na idadi ya msingi ya juu kwenye chip. Shukrani kwa kasi ya saa ya kupunguzwa, matumizi ya nguvu ya kadi iko ndani ya 300W, lakini inaweza kuhamishwa kwenye mode ya kuongeza, ambapo inafanya kazi kwa mzunguko karibu na wale wa Workstation Edition. Katika mode ya 300W, kadi inafanya baridi kuliko RTX 5090, lakini wakati imeongezeka, inashinda toleo la watumiaji katika utendaji. Kipengele muhimu cha Server Edition ni baridi yake ya pasiv, ambayo inatumia mtiririko wa hewa wa kawaida wa chassis ya seva. Shukrani kwa ukubwa wake mdogo, inawezesha kuweka kwa wakati mmoja idadi kubwa ya GPUs katika mstari (picha kutoka maonyesho). Kuweka kwenye server Tutajaribu GPU hii kwa kutumia muundo wafuatayo: Mfumo wa Server kutoka ASUS Mchakato wa AMD EPYC 9554 768 GB ya RAM ya DDR5 2 x 3.84 TB ya NVMe 1 x RTX 6000 Pro Server Kwa kiufundi, jukwaa linaunga mkono hadi GPU 4, lakini kutokana na vikwazo vya matumizi ya nishati katika hali ya ukomo wa nishati, zaidi ya GPU mbili za RTX 6000 PRO SERVER zinaweza kufungwa. Tatizo linatokana na sababu jukwaa linatoa connectors za nishati za 4 kwa upande, ambazo zinaunganishwa na kadi kupitia adapter. Kama ilivyoonyeshwa kwenye picha, sanduku linapatikana na vifaa vya nguvu kwenye pande zote na chumba maalum, kuhakikisha mtiririko mzuri wa hewa juu ya radiators na vipengele vya GPU. Sasa, kwa ajili ya majaribio Tutafanya majaribio katika njia mbili: kuendesha LLMs kwa kutumia usanidi wa Ollama + OpenWebUI na uzalishaji wa video na mfano wa bure wa WAN2 katika ComfyUI. Kwa usahihi zaidi, tutatumia msaidizi wetu wa mtandao wa neural, ambao hutumia mifano mingi kwa RAG (Retrieval-Augmented Generation) na kuingiliana na seva ya nje ya MCP. LLM katika mtihani ni Qwen3-14B, ambayo inahitaji karibu GB 14 ya VRAM katika hali ya mazingira ya 16K. Kwa kuangalia mbele, tunaweza kusema kuwa kulinganisha na mifano ambayo inashikiliwa kikamilifu katika GPU inaonyesha ongezeko la utendaji wa takriban 15-20% ikilinganishwa na RTX 5090. Kwa hiyo, tutawasilisha matokeo ya GPU nyingine badala ya kutumia RTX 5090 kama msingi. Kwanza, tutashirikisha kizazi cha awali cha A5000 na RTX 6000 PRO. Kulinganisha utafanyika katika hali ya matumizi ya nishati ya chini, ambapo GPU kwa kweli inachukua hadi 450W (mzunguko wa kuongeza), badala ya kiwango cha juu cha 300W kilichotajwa katika nyaraka. Tutauliza msaidizi wetu wa mtandao wa neural swali lafuatayo: "Hi. Jinsi ya kufunga driver za Nvidia kwenye Linux?" GPU Response Speed, Tokens per Second Response Speed, Tokens per Second Response Speed, Tokens per Second A5000 (Cold Boot) 47.3 2700 17 RTX 6000 PRO (Cold Boot) 103.5 8285 5 A5000 (Model Already Loaded to GPU) 48.2 2910 13 RTX 6000 PRO (Model Already Loaded to GPU) 107 11000 4 A5000 (Safari ya baridi) 47.3 2700 17 RTX 6000 PRO (Kifaa cha baridi) 103.5 8285 5 A5000 (mfano tayari imefungwa kwa GPU) 48.2 2910 13 RTX 6000 PRO (mfano tayari imefungwa kwa GPU) 107 11000 4 Kama unaweza kuona, ikilinganishwa na A5000, ambayo bado inatumiwa, GPU mpya ni zaidi ya mara mbili yenye nguvu, na kasi yake ya majibu (yaani, kubadilisha kati ya mifano, kutafuta, kutafuta seva ya MCP, usindikaji, na kuzalisha majibu) ni zaidi ya mara tatu ya haraka. Hata hivyo, kutumia RTX 6000 PRO kwa kazi kama hizi ni kama kuharibu nyasi na microscope. Kwa kulinganisha, hebu tujaribu kazi sawa kwenye H100 katika "kuendesha moto" (na mfano tayari umefungwa). H100 ina nyuzi za CUDA mara 3.5 chini, kasi ya saa ya chini, na utendaji wa nadharia karibu mara 4 chini katika viwango vya vifaa vya synthetic ikilinganishwa na RTX 6000 PRO. Hata hivyo, inatoa faida kutoka kwa kiungo cha mchakato wa 4nm (kulingana na 5nm kwa RTX 6000 PRO), bandwidth ya kumbukumbu ya mara 10 kubwa, na aina ya kumbukumbu ya juu. Pamoja na hili, toleo letu la H100 ina 80 GB ya kumbukumbu, ikilinganishwa na 96 GB ya H100. GPU Response Speed, Tokens per Second Response Speed, Tokens per Second Response Speed, Tokens per Second H100 (Model Already Loaded to GPU) 60 2900 4 RTX 6000 PRO (Model Already Loaded to GPU) 107 11000 4 H100 (mfano tayari imefungwa kwa GPU) 60 2900 4 RTX 6000 PRO (mfano tayari imefungwa kwa GPU) 107 11000 4 Licha ya faida karibu mbili ya RTX 6000 PRO katika kasi ya tokenization, utendaji wa jumla wa GPU zote mbili ni sawa. Hii inafanya RTX 6000 PRO mbadala mzuri kwa A100 / H100 katika kazi za kazi za uchunguzi wa seva, kwa kuzingatia kwamba bandwidth ya HBM3 wakati wa uhamisho wa data inashuka nyuma ya GDDR7. Hata hivyo, kwa mafunzo ya mfano au fine-tuning, H100 inashinda kwa sababu ya matumizi yake ya nguvu ya chini, msaada wa kifaa kupitia Transformer Engine kwa ajili ya mifano na usahihi wa FP16 / FP8 (H100 inasaidia FP4 tu), na uwezo wake wa kuharakisha kazi wakati mifano imefungwa kikamilifu katika kumbukumbu (na bandwidth hadi 3 TB / s). Kuweka RTX 6000 PRO kwa matumizi kamili Zaidi ya kuvutia ni kujaribu GPU hii katika jukumu jingine la rasilimali kubwa - hasa, uzalishaji wa video. Kwa hili, tutatumia mfano mpya kutoka Alibaba na uzito wa wazi na kufunga kila kitu katika ComfyUI. tena, tumewasiliana na tatizo: CUDA 12.9 (na matoleo ya baadaye) na ufanisi wake na PyTorch. ufumbuzi, tena, ni kufunga kutoka kujenga usiku hadi msaada rasmi ni inapatikana: pip install --pre --upgrade --no-cache-dir torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/nightly/cu129 Mchakato huu unahusisha kutumia mode ya kuzalisha video kulingana na maombi (Wan 2.2 14B maandishi kwa video), ambayo inafanya kazi kama ifuatavyo: Jambo la ajabu na la kusisimua linatokea juu ya pwani ya mto mkali, ambapo beavers wawili wanaofanya kazi kwa bidii katika msalaba wa usalama wa kijani na mavazi ya orange ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi Jambo la ajabu na la kusisimua linatokea juu ya pwani ya mto mkali, ambapo beavers wawili wanaofanya kazi kwa bidii katika msalaba wa usalama wa kijani na mavazi ya orange ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi ya rangi Kuanzisha mchakato unachukua takriban dakika 40. Matumizi ya kumbukumbu na matumizi ya nguvu wakati wa utendaji wa juu yanaonekana katika screenshot hapa chini. Joto la juu kamwe halikupita 83 degrees. Uzalishaji unawekwa kwa 720p / 24, kama mfano unatengenezwa kwa ufumbuzi huu. Kuweka kwa 1080p au kuongeza kiwango cha frame inaweza kusababisha GPU kupumua au kupanua kwa kiasi kikubwa muda wa uzalishaji zaidi ya masaa mawili (tumechukua muda mrefu zaidi, kwa sababu mchakato ulikuwa umefungwa kwa 60%). Ikiwa tungekuwa tukitumia mfano wa WAN 2.2 5B badala yake, kuzalisha video sawa (5 sekunde, 24 picha) inachukua sekunde 160 tu. Kuongeza nguvu Kama ilivyoelezwa hapo awali, GPU ina switch ya hali ya matumizi ya nishati. Ingawa mipangilio hii haina faida kubwa kwa mifano, kubadilisha kwa hali ya nishati ya 600 ya wati tayari hutoa matokeo bora. Kulingana na kusoma kwa nvidia-smi, tumeweza kuchukua watano zaidi ya utendaji kutoka kwa GPU. Hata hivyo, katika hali hii, joto linaweza kuongezeka hadi gradi 90. Kwa wastani, matumizi ya umeme katika njia zote mbili wakati wa uzalishaji ni ndani ya 200-250 watts. Kama ni dhahiri, kuongeza matumizi ya nguvu ya juu hupunguza uzalishaji kwa 25%, kupunguza kwa wastani wa dakika 30. Hata hivyo, hii inakuja kwa gharama ya kiwango cha juu cha chip na joto la sehemu. Kwa kazi zinazohitaji kazi ya muda mrefu ya GPU chini ya mzigo mkubwa, inashauriwa kuweka mfumo katika hali ya matumizi ya nguvu ya chini ili kuepuka shinikizo la joto. Mwisho wa GPU imethibitishwa kuwa ya kuvutia. Ni imara zaidi kuliko kiwango cha watumiaji wa 5090, haina vifurushi vya mvuke vinavyoonekana mara nyingi kwenye mifano ya watumiaji, ina kumbukumbu bora na udhibiti wa usawa, na hutoa kasi ya saa ya juu. Ikilinganishwa na H100, ni mara nne zaidi ya gharama nafuu wakati hutoa utendaji wa kulinganisha (na katika baadhi ya kesi hata bora) kwa kazi zisizo zinazohusiana na mafunzo ya mitandao ya neural. Inference, usindikaji wa graphics, na usindikaji wa video ni haraka sana kuliko katika vizazi vya awali, na CUDA mpya 13 pamoja na toleo la hivi karibuni la waendeshaji wa 580 iliongeza utendaji zaidi. Upungufu muhimu ni ukosefu wa driver (katika wakati wa kuandika) kwa Server Edition ya Windows. Wakati drivers ni inapatikana kwa Workstation Edition, majaribio ya ufungaji husababisha ujumbe kwamba GPU haijulikani. tatizo hili haina kutokea katika Linux, ambapo tulijaribu kwa mafanikio kadi kwenye Ubuntu 22.04 na 24.04. Hata hivyo, drivers ilihitaji Linux kernel toleo 6+ na GCC 12 kwa muundo. Jaribu seva na NVIDIA RTX 6000 PRO 96 GB - kwa bure! Wasiliana na timu yetu ya mauzo ili kujifunza kuhusu hali ya gari la majaribio.* Kuwasiliana na sisi * - GPU inatolewa kwa ajili ya jaribio la bure kwa msingi wa kibinafsi na haipatikani katika kesi zote. Try the server with NVIDIA RTX 6000 PRO 96 GB — for free! Wasiliana na timu yetu ya mauzo ili kujifunza kuhusu hali ya gari la majaribio.* Kuwasiliana na sisi * - GPU inatolewa kwa ajili ya jaribio la bure kwa msingi wa kibinafsi na haipatikani katika kesi zote.