paint-brush
Optimizarea eficienței centrului de date: o scufundare profundă în tehnicile de răcire liberăde@egorkaritskii
99,982 lecturi
99,982 lecturi

Optimizarea eficienței centrului de date: o scufundare profundă în tehnicile de răcire liberă

de Egor Karitskii10m2024/05/14
Read on Terminal Reader
Read this story w/o Javascript

Prea lung; A citi

Descoperiți potențialul de transformare al tehnologiei free cooling în centrele de date, examinând beneficiile, provocările și impactul acesteia asupra eficienței și fiabilității. Explorați modul în care această soluție ecologică revoluționează strategiile de răcire și modelează viitorul operațiunilor centrelor de date.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail

Coin Mentioned

Mention Thumbnail
featured image - Optimizarea eficienței centrului de date: o scufundare profundă în tehnicile de răcire liberă
Egor Karitskii HackerNoon profile picture
0-item
1-item


În articolul anterior , am discutat despre extinderea rapidă a infrastructurii centrelor de date și creșterea consumului de energie electrică la care a rezultat. Pe măsură ce serverele convertesc electricitatea în căldură în timpul funcționării, gestionarea temperaturilor ridicate și răcirea atât a instalațiilor centrului de date, cât și a echipamentelor devine o problemă numărul 1. pentru echipele DC.


În timp ce metodele tradiționale de răcire, inclusiv aparatele de aer condiționat și răcitoarele de lichid răcesc în mod eficient spațiile și serverele centrelor de date, costul lor rămâne un dezavantaj semnificativ. Free cooling, spre deosebire de metodele tradiționale, nu necesită investiții substanțiale, dar oferă același nivel de eficiență și fiabilitate. În acest articol, voi face o prezentare detaliată a tehnologiei de răcire liberă, evidențiind beneficiile, limitările și cerințele pentru implementarea cu succes.


Fizica răcirii libere

Pentru a înțelege fizica din spatele răcirii libere, va trebui să revizuim formula energiei termice:


Q = mcΔT


Aici, „Q” reprezintă cantitatea de căldură câștigată sau pierdută, „m” reprezintă masa probei (în cazul nostru, masa aerului din centrul de date), „c” desemnează capacitatea termică specifică a aerului, iar ΔT semnifică diferența de temperatură.


Într-un centru de date, sursa principală de căldură este procesorul. De obicei, există 2 până la 4 procesoare, fiecare funcționând la aproximativ 200 de wați. După cum sa discutat mai devreme, toată energia electrică consumată de procesoare este transformată în căldură. Prin urmare, cu 2 procesoare, de exemplu, generăm 400 de wați de căldură care trebuie disipată. Acum obiectivul nostru este să determinăm cantitatea de aer necesară în acest scop.


Parametrul ΔT, sau diferența de temperatură, indică faptul că, cu cât temperatura aerului exterior este mai scăzută, cu atât este necesară mai puțină masă de aer pentru răcirea procesoarelor. De exemplu, dacă temperatura aerului de intrare este de 0°C și temperatura de ieșire este de 35°C, ΔT ar fi doar 35, ceea ce înseamnă o cerință destul de mai mică pentru masa de aer. Cu toate acestea, în timpul sezonului de vară, răcirea devine mai dificilă din cauza creșterii temperaturii ambientale. Cu cât temperatura exterioară este mai mare, cu atât va fi mai mare cantitatea de aer necesară pentru răcirea serverelor.



Limitări de temperatură a componentelor serverului și rețelei

Deși răcirea liberă poate fi eficientă pentru climatele moderate și reci, are totuși limitări din cauza constrângerilor de temperatură asupra componentelor serverului. Componentele critice din echipamentele IT și de rețea, cum ar fi procesoarele, memoria RAM, HDD-urile, SSD-urile și unitățile NVMe, au cerințe de temperatură operaționale:


  • Procesoare: max 89°C
  • RAM: max 75°C
  • HDD-uri: max 50°C
  • SSD-uri și unități NVMe: max 47-48°C


Aceste limitări au un impact direct asupra adecvării temperaturii aerului exterior pentru răcire. Răcirea liberă nu ar fi viabilă în regiunile în care temperaturile exterioare depășesc aceste praguri sau chiar se apropie de acestea, deoarece ar putea deteriora sistemul din cauza supraîncălzirii. Limitări regionale

După cum am explicat deja, temperaturile exterioare trebuie să rămână constant mai scăzute decât temperaturile maxime de funcționare ale echipamentelor IT pentru ca free cooling să fie eficient. Acest lucru necesită o analiză atentă a condițiilor climatice ale locației DC. Organizațiile trebuie să analizeze prognozele meteo pe termen lung pentru a se asigura că temperaturile nu depășesc pragurile cerute, chiar și în anumite zile sau ore. În plus, având în vedere durata lungă de viață a centrelor de date (de obicei, 10-15 ani), efectele încălzirii globale ar trebui să fie luate în considerare și în deciziile privind locația.



Cerințe pentru arhitectura nodului serverului

În contextul fizicii, obținerea unei răciri eficiente în servere se bazează pe asigurarea unui flux amplu de aer prin sistem. Arhitectura serverului joacă un rol important în acest proces.


Un exemplu de arhitectură de server cu orificii de ventilație care facilitează fluxul de aer necesar și permit o răcire liberă eficientă


În schimb, serverele lipsite de caracteristici de design adecvate, cum ar fi perforații sau deschideri, pot împiedica fluxul de aer, compromițând potențial eficiența generală a mecanismului de răcire liberă.


Controlul umidității

Nivelul de umiditate este un alt aspect critic atunci când vine vorba de răcire liberă. Deoarece ne lipsește controlul asupra condițiilor de umiditate externă, apar două întrebări pertinente: în primul rând, abordarea nivelurilor de umiditate care se apropie sau depășesc 100% în centrul de date (DC); în al doilea rând, abordarea scenariilor de umiditate a aerului foarte scăzută, cum ar fi în timpul unei zile geroase de februarie, cu o temperatură exterioară de -30°C și umiditate relativă cuprinsă între 2% și 5%. Să examinăm sistematic aceste situații.


În condiții de umiditate ridicată, există o preocupare comună cu privire la potențiala apariție a condensului și efectele adverse ale acestuia asupra funcționalității echipamentului. Contrar acestei preocupări, în zonele de răcire ale DC, unde are loc procesul de răcire, condensul este exclus. Acest lucru se datorează principiului că condensul se produce atunci când aerul cald și umed intră în contact cu suprafețele mai reci. Cu toate acestea, în cadrul sistemului de răcire liberă al DC, niciun element nu este mai rece decât aerul din jur. În consecință, condensul este în mod inerent împiedicat, eliminând necesitatea măsurilor proactive.


Dimpotrivă, atunci când avem de-a face cu umiditate scăzută, teama se îndreaptă spre generarea de electricitate statică, reprezentând o amenințare la adresa stabilității echipamentului. Această problemă nu este asociată cu condensarea, dar necesită o soluție distinctă. Atenuarea implică proceduri de împământare și aplicarea unui strat de pardoseală specializat. Aceste măsuri se aliniază cu metodele stabilite pentru protejarea echipamentelor interne împotriva electricității statice. Prin împământarea elementelor de construcție, rafturi și echipamente IT, o sarcină statică este disipată inofensiv la sol, păstrând integritatea echipamentului.


În climatul natural, cazurile de umiditate extrem de ridicată sau scăzută sunt rareori. Excepțiile notabile includ evenimente rare, cum ar fi o furtună care atinge 100% umiditate în iulie sau un îngheț sever care provoacă umiditate foarte scăzută. Cu toate acestea, pentru cea mai mare parte a timpului, nivelurile de umiditate rămân bine în limite acceptabile, care nu dăunează echipamentului, chiar și în absența intervențiilor active.


Cantitatea de aer și viteza

După cum am discutat deja, pentru a facilita o răcire eficientă avem nevoie de un volum substanțial de aer exterior. Simultan, apare o cerință aparent contraintuitivă - menținerea unui flux de aer scăzut în interiorul clădirii. Acest aparent paradox are rădăcinile în provocările generate de curenții de aer de mare viteză care circulă în interior.


Pentru a simplifica, imaginați-vă viteza mare ca un flux robust dintr-un tub, creând vârtejuri și turbulențe în jurul echipamentului IT. Această turbulență poate duce la mișcări neregulate de aer și la supraîncălzire localizată. Pentru a rezolva acest lucru, urmărim strategic o viteză generală scăzută a aerului de 1-2 metri pe secundă în tot spațiul.


Menținerea acestei viteze controlate ne permite să eliminăm turbulențele. O viteză mai mare ar risca nereguli în circulația aerului. Prin aderarea la intervalul de 1-2 metri pe secundă, promovăm un flux de aer lis, uniform, evitând supraîncălzirea localizată. Acest echilibru delicat asigură o răcire optimă a echipamentelor IT, ocolind capcanele asociate curenților de aer de mare viteză.


După cum se poate vedea, abordarea de răcire liberă se învârte în jurul utilizării eficiente a aerului extern, acordând prioritate unei viteze interne scăzute controlate. Această strategie deliberată ajută la menținerea unui flux de aer laminar și uniform, asigurând eficacitatea răcirii echipamentelor IT.


Conceptul de clădire

În paradigma free cooling, conductele tradiționale de aer nu sunt folosite în structura clădirii. Spre deosebire de configurațiile convenționale cu canale de aer desemnate în pereți, tavane sau zone specifice, centrele de procesare a datelor adoptă o abordare neconvențională. Clădirea în sine este concepută ca o conductă de aer, făcând unitățile tradiționale de aer condiționat învechite. Amploarea acestor conducte de aer le transformă în componente integrante ale încăperilor și podelelor.


O reprezentare schematică a designului clădirii cu răcire liberă


Procesul de flux de aer începe pe măsură ce aerul exterior intră în clădire, trecând prin două tipuri de filtre – filtre grosiere și filtre fine. Odată ce aerul este supus procesului de curățare, este propulsat de ventilatoare în volume expansive de clădire, aproximativ echivalente cu patru etaje în înălțime. Acest volum substanțial își servește propriul scop: să decelereze fluxul de aer, reducându-i viteza la intervalul necesar de 1-2 metri pe secundă. Ulterior, aerul coboară în camera mașinilor.


După ce a traversat camera de mașini, aerul își continuă călătoria prin rafturile IT, progresând în culoarul fierbinte. De acolo, intră în colectorul de aer cald înainte de a fi expulzat afară prin ventilatoarele de evacuare. Această cale structurată a fluxului de aer asigură un proces de răcire eficient, menținând în același timp viteza controlată.


Viteza aerului și volumul

Alegerea deliberată a designului de a utiliza volume expansive de clădire servește un scop dublu. În primul rând, permite o reducere treptată a vitezei aerului, asigurându-se că fluxul de aer atinge viteza dorită de 1-2 metri pe secundă. Această viteză controlată este esențială pentru a preveni turbulențele și pentru a menține un flux laminar, deosebit de important pe măsură ce aerul progresează prin echipamente IT sensibile. În al doilea rând, volumul semnificativ găzduiește volumul de aer necesar pentru a disipa eficient căldura generată. Interacțiunea sincronizată a vitezei și volumului contribuie la succesul general al sistemului.


Presiunea diferențială ca unic factor de conducere

Într-o configurație de răcire liberă, nu avem control asupra temperaturii aerului extern, ceea ce duce la variații ale temperaturii aerului care intră în Centrul de date (DC). În ciuda acestui fapt, estimarea fluxului de aer necesar pentru răcirea echipamentului este esențială. Pentru a rezolva acest lucru, ne bazăm pe metoda presiunii diferențiale.


În interiorul fiecărui rack IT, serverele cu ventilatoare interne funcționează la viteze diferite, creând împreună o presiune diferențială între partea din față și din spate a rack-ului. Cu numeroase servere, fiecare contribuind la fluxul general de aer, această diferență de presiune se acumulează treptat între coridoarele reci și cele calde. Folosind senzori de presiune în ambele culoare și în afara clădirii DC, putem măsura această presiune diferențială.


Calculul implică scăderea datelor senzorului de presiune din culoarul fierbinte din presiunea atmosferică și scăderea datelor senzorului de presiune din culoarul rece din presiunea atmosferică. Astfel, ca în exemplul de mai jos:


Exemplu din lumea reală


Valorile rezultate ne ghidează apoi în determinarea alimentării necesare cu aer la DC și a evacuarii necesare pentru a compensa funcționarea ventilatoarelor serverului. În termeni mai simpli, ne evaluăm nevoile de flux de aer pe baza diferențelor de presiune, permițându-ne să gestionăm eficient procesul de răcire din DC.


Camera de încălzire și amestecare

Sistemele tradiționale de încălzire nu sunt de obicei implementate în centrele de date cu răcire liberă. Utilizarea apei este considerată irațională din cauza costurilor și a riscurilor potențiale pentru echipamente. Acest lucru reprezintă o provocare în timpul frigurilor extreme, atingând -20–30 de grade afară. În timp ce echipamentul se descurcă bine, inginerii caută o abordare mai blândă. Cea mai elegantă și logică soluție de aici este reutilizarea aerului cald generat de echipamentele IT. Direcționând aerul cald de la servere într-o cameră de amestecare și returnând o parte din acesta la curentul principal de aer, sistemul menține încăperile calde iarna și permite economisirea costurilor de încălzire.


Simplitate și fiabilitate

O teză cheie în teoria fiabilității afirmă că simplitatea naște fiabilitate. Acest lucru este valabil și pentru sistemul de răcire liberă, care reprezintă un concept remarcabil de simplu. Sistemul funcționează ca o baricadă, introducând aerul din exterior prin filtre, trecându-l prin echipamente IT și apoi doar expulzându-l.


Absența sistemelor complexe sporește fiabilitatea, doar ventilatoarele prezentând o vulnerabilitate pe vreme caldă. Abordarea cu răcire liberă exemplifică simplificarea radicală a sistemului, îmbunătățind substanțial fiabilitatea prin reducerea numărului de elemente.


Ventilatoare DC vs ventilatoare server

Autoritatea ierarhică a ventilatoarelor este o altă întrebare fundamentală în dinamica fluxului de aer în DC. După cum am discutat, există ventilatoare la scară largă la nivel DC și cele la nivel de server. Întrebarea este: ventilatoarele centrelor de date pur și simplu furnizează aer, lăsând ventilatoarele serverului să consume atât cât este necesar? Sau cererea provine de la ventilatoarele serverului, obligând ventilatoarele DC să-și îndeplinească cerințele?


Mecanismul este următorul: ventilatoarele serverului au un rol dominant în acest proces, determinând fluxul de aer necesar. Ulterior, ventilatoarele DC răspund furnizând volumul necesar de aer. Devine evident că, dacă cererea cumulată de la toate serverele depășește capacitatea de alimentare a ventilatorului DC, poate duce la o potențială supraîncălzire.

Deci răspunsul este că fanii serverului au primatul în această dinamică. Ele orchestrează fluxul de aer, specificând cantitatea de aer necesară.


Eficiență și calcul PUE

Pentru a evalua eficiența unui proiect de curent continuu se utilizează în mod tradițional calculul eficienței consumului de energie (PUE). Formula pentru PUE este raportul dintre puterea totală a instalației și puterea echipamentului IT:


PUE = Puterea totală a instalației / Puterea echipamentului IT


În mod ideal, este egal cu 1, ceea ce înseamnă că toată energia este direcționată către echipamentele IT fără nicio risipă. Cu toate acestea, realizarea acestui scenariu perfect este rară în proiectele din lumea reală.


O altă problemă apare atunci când încercăm să stabilim o metodologie clară pentru calcularea eficienței utilizării energiei (PUE). Astfel, de exemplu, în sistemul nostru, avem o metrică care indică consumul instantaneu de energie în wați, ceea ce face posibilă calcularea PUE în timp real.


În plus, putem obține un PUE mediu pe o perioadă anuală, ceea ce oferă o evaluare mai cuprinzătoare, luând în considerare fluctuațiile sezoniere. Acest lucru este deosebit de relevant, având în vedere disparitatea în utilizarea energiei între anotimpuri; de exemplu, disparitatea cerințelor de răcire între lunile de vară și cele de iarnă. Aceasta înseamnă că, dacă dorim să avem o evaluare mai fiabilă, trebuie să acordăm prioritate unei medii anuale care să ofere o evaluare mai echilibrată și mai cuprinzătoare.


De asemenea, este important să se exploreze PUE nu numai în ceea ce privește energia, ci și unitățile monetare, încorporând astfel fluctuațiile sezoniere ale prețurilor la energie electrică. Evaluarea PUE în termeni monetari oferă o perspectivă mai holistică asupra eficienței operaționale.


În plus, această abordare dezvăluie posibilități de a obține o valoare PUE mai mică de 1 atunci când este măsurată în dolari. Devine posibil, de exemplu, atunci când folosim căldura reziduală pentru încălzirea apei și o vindem mai departe în orașele din apropiere. Exemple demne de remarcat, cum ar fi centrul de date Google din SUA și instalația Yandex din Finlanda, demonstrează viabilitatea unor astfel de practici, în special în regiunile caracterizate de costuri ridicate ale energiei.


Eficiență vs. fiabilitate

Preocupările privind reducerea costurilor și creșterea eficienței ridică adesea întrebări cu privire la potențialele impacturi negative asupra fiabilității. Cu toate acestea, aș dori să subliniez că în free cooling căutarea eficienței nu compromite fiabilitatea. În schimb, efectele sale secundare tehnologice pot chiar spori eficiența. De exemplu, așa cum am discutat deja, redirecționarea excesului de căldură către pompele de căldură pentru beneficii suplimentare, cum ar fi generarea de apă caldă pentru orașele din apropiere, devine o practică avantajoasă din punct de vedere financiar, fără a sacrifica fiabilitatea.



Viitorul Free Cooling-ului

În ciuda tuturor avantajelor oferite de free cooling, industria centrelor de date este încă condusă de o abordare conservatoare și cere fiabilitate dovedită, cu tendința de a rezista soluțiilor inovatoare. Baza pe certificări de la organisme precum Institutul Uptime pentru marketing reprezintă un alt obstacol pentru soluțiile de răcire gratuită, lipsită de o certificare stabilită, determinând furnizorii comerciali să le privească cu scepticism.


Cu toate acestea, există o tendință în rândul hiper-scalerelor corporative de a adopta răcirea liberă ca soluție principală pentru DC-urile lor. Cu un număr tot mai mare de companii care recunosc rentabilitatea și beneficiile operaționale ale acestei tehnologii, ne așteptăm ca în următorii 10-20 de ani să apară mai multe centre de date de răcire fără corporații.