paint-brush
Arhitektura modernog jezera podataka u post-Hadoop svijetuby@minio
Nova istorija

Arhitektura modernog jezera podataka u post-Hadoop svijetu

by MinIO7m2024/09/13
Read on Terminal Reader

Predugo; Citati

Ovaj rad govori o usponu i padu Hadoop HDFS-a i zašto je skladištenje objekata visokih performansi prirodni nasljednik u svijetu velikih podataka.
featured image - Arhitektura modernog jezera podataka u post-Hadoop svijetu
MinIO HackerNoon profile picture


The Modern Datalake je jedna polovina skladište podataka i jedna polovina jezero podataka i koristi skladištenje objekata za sve. Korištenje pohrane objekata za izgradnju skladišta podataka omogućeno je otvorenim formatima tablica (OTF) kao što su Apache Iceberg, Apache Hudi i Delta Lake, što su specifikacije koje, nakon implementacije, čine besprijekornim da se pohrana objekata koristi kao osnovno rješenje za skladištenje podataka za skladište podataka. Ove specifikacije također pružaju funkcije koje možda ne postoje u konvencionalnom skladištu podataka - na primjer, snimke (takođe poznate kao putovanje kroz vrijeme), evolucija sheme, particije, evolucija particija i grananje bez kopija.


Dok organizacije grade Moderna Datalakes, evo nekih od ključnih faktora za koje mislimo da bi trebali uzeti u obzir:


  1. Dezagregacija računanja i skladištenja
  2. Migracija sa monolitnih okvira na najbolje u svojoj vrsti okvira
  3. Konsolidacija data centra - zamijenite rješenja odjela s jednim korporativnim rješenjem
  4. Besprekorne performanse na malim i velikim datotekama/objektima
  5. Softverski definirana rješenja zasnovana na oblaku koja se horizontalno skaliraju


Ovaj rad govori o usponu i padu Hadoop HDFS-a i zašto je skladištenje objekata visokih performansi prirodni nasljednik u svijetu velikih podataka.

Usvajanje Hadoop-a

Sa ekspanzijom internet aplikacija, prvi veliki izazovi za skladištenje i agregaciju podataka za napredne tehnološke kompanije počeli su prije 15 godina. Tradicionalni RDBMS (Relational Database Management System) nije se mogao skalirati da pristupi velikim količinama podataka. Zatim je došao Hadoop, visoko skalabilan model. U Hadoop modelu, velika količina podataka je podijeljena na više jeftinih mašina u klasteru koji se zatim paralelno obrađuju. Broj ovih mašina ili čvorova može se povećati ili smanjiti prema zahtevima preduzeća.


Hadoop je bio otvorenog koda i koristio je isplativ robni hardver, koji je pružio isplativ model, za razliku od tradicionalnih relacijskih baza podataka, koje zahtijevaju skup hardver i vrhunske procesore za rad s velikim podacima. Pošto je bilo tako skupo skalirati u RDBMS modelu, preduzeća su počela da uklanjaju neobrađene podatke. To je dovelo do suboptimalnih ishoda u nizu vektora.


U tom smislu, Hadoop je pružio značajnu prednost u odnosu na RDBMS pristup. Bio je skalabilniji iz perspektive troškova, bez žrtvovanja performansi.

Kraj Hadoop-a

Pojava novijih tehnologija poput prikupljanja podataka o promjenama (CDC) i striminga podataka, prvenstveno generiranih od kompanija društvenih medija poput Twittera i Facebooka, promijenila je način na koji se podaci unose i pohranjuju. To je izazvalo izazove u obradi i konzumiranju ovih još većih količina podataka.


Ključni izazov bio je sa batch obradom. Batch procesi rade u pozadini i ne stupaju u interakciju s korisnikom. Hadoop je bio efikasan sa grupnom obradom kada su u pitanju veoma velike datoteke, ali je patio od manjih datoteka – i iz perspektive efikasnosti i iz perspektive kašnjenja – što ga je efektivno učinilo zastarelim jer su preduzeća tražila okvire za obradu i potrošnju koji bi mogli da unose različite skupove podataka, velike i mali u serijama, CDC i u realnom vremenu.


Razdvajanje računara i skladištenja danas jednostavno ima smisla. Skladištenje mora nadmašiti računanje za čak deset prema jedan. Ovo je veoma neefikasno u Hadoop svetu, gde vam je potreban jedan računarski čvor za svaki čvor za skladištenje. Njihovo razdvajanje znači da se mogu pojedinačno podešavati. Računalni čvorovi su bez stanja i mogu se optimizirati s više CPU jezgri i memorije. Čvorovi za skladištenje su sa stanjem i mogu se I/O optimizirati s većim brojem gušćih diskova i većom propusnošću.


Razdvajanjem, preduzeća mogu postići superiornu ekonomičnost, bolju upravljivost, poboljšanu skalabilnost i povećane ukupne troškove vlasništva.


HDFS ne može izvršiti ovu tranziciju. Kada napustite lokaciju podataka, snaga Hadoop HDFS-a postaje njegova slabost. Hadoop je dizajniran za MapReduce računarstvo, gdje su podaci i računanje morali biti zajedno locirani. Kao rezultat, Hadoop-u je potreban vlastiti planer poslova, upravitelj resursa, pohrana i računar. Ovo je suštinski nekompatibilno sa arhitekturama zasnovanim na kontejnerima, gde je sve elastično, lagano i sa više korisnika.


Nasuprot tome, MinIO je rođen u oblaku i dizajniran je za kontejnere i orkestraciju putem Kubernetes-a, što ga čini idealnom tehnologijom za prelazak kada se povlače stare HDFS instance.


Ovo je dovelo do modernog Datalakea. Iskorištava prednost korištenja pristupa robnog hardvera naslijeđenog od Hadoop-a, ali razdvaja skladištenje i računanje — čime se mijenja način na koji se podaci obrađuju, analiziraju i troše.

Izgradnja modernog jezera podataka sa MinIO

MinIO je sistem za skladištenje objekata visokih performansi koji je napravljen od nule da bi bio skalabilan i nastao u oblaku. Tim koji je izgradio MinIO takođe je izgradio jedan od najuspešnijih sistema datoteka, GlusterFS, pre nego što je evoluirao svoje razmišljanje o skladištenju. Njihovo duboko razumevanje sistema datoteka i toga koji su procesi skupi ili neefikasni informisalo je arhitekturu MinIO-a, pružajući performanse i jednostavnost u procesu.


Minio koristi kodiranje za brisanje i pruža bolji skup algoritama za upravljanje efikasnošću skladištenja i pružanje otpornosti. Tipično, to je 1,5 puta kopija, za razliku od 3 puta u Hadoop klasterima. Ovo samo po sebi već obezbeđuje efikasnost skladištenja i smanjuje troškove u poređenju sa Hadoop-om.


Od svog početka, MinIO je dizajniran za rad u oblaku. Kao rezultat toga, radi na svakom oblaku – javnom, privatnom, on-prem, golom metalu i rubu. To ga čini idealnim za implementacije u više oblaka i hibridnih oblaka. Sa hibridnom konfiguracijom, MinIO omogućava migraciju analitike podataka i opterećenja nauke o podacima u skladu s pristupima kao što su Uzorak davitelja smokve popularizirao Martin Fowler.


U nastavku je nekoliko drugih razloga zašto je MinIO osnovni gradivni blok za Modern Datalake koji može podržati vašu infrastrukturu podataka IA, kao i druga analitička opterećenja kao što su poslovna inteligencija, analitika podataka i nauka o podacima.

Modern Data Ready

Hadoop je namenski napravljen za podatke gde „nestrukturirani podaci“ označavaju velike (od GiB do TiB) datoteke evidencije. Kada se koristi kao platforma za pohranu opće namjene na kojoj su u igri pravi nestrukturirani podaci, prevalencija malih objekata (KB do MB) uvelike narušava Hadoop HDFS, jer čvorovi imena nikada nisu dizajnirani za skaliranje na ovaj način. MinIO se ističe u bilo kojoj veličini datoteke/objekta (8KiB do 5TiB).

Open Source

Preduzeća koja su usvojila Hadoop učinila su to iz preferencije prema tehnologijama otvorenog koda. Mogućnost pregleda, sloboda od zaključavanja i udobnost koja dolazi od desetina hiljada korisnika imaju pravu vrijednost. MinIO je također 100% open source, osiguravajući da organizacije mogu ostati vjerne svojim ciljevima dok nadograđuju svoje iskustvo.

Jednostavno

Jednostavnost je teška. Potreban je rad, disciplina i iznad svega posvećenost. Jednostavnost MinIO-a je legendarna i rezultat je filozofske posvećenosti da naš softver učini lakim za implementaciju, upotrebu, nadogradnju i skaliranje. Čak će vam i Hadoopovi fanovi reći da je kompleksan. Da biste učinili više s manje, morate migrirati na MinIO.

Performans

Hadoop je postao istaknut zbog svoje sposobnosti da pruži performanse velikih podataka. Oni su, tokom većeg dela decenije, bili merilo za analitiku na nivou preduzeća. Ne vise. MinIO se dokazao na više načina mjerila da je materijalno brži od Hadoopa. To znači bolje performanse za vaš Modern Datalake.

Lagana

Binarni server MiniIO-a je sav od <100MB. Uprkos svojoj veličini, dovoljno je moćan da pokreće data centar, ali i dalje dovoljno mali da udobno živi na rubu. Ne postoji takva alternativa u Hadoop svijetu. Ono što za preduzeća znači je da vaše S3 aplikacije mogu pristupiti podacima bilo gdje, bilo kada i sa istim API-jem. Postavljanjem MinIO-a na rubnu lokaciju, možete uhvatiti i filtrirati podatke na rubu i koristiti mogućnosti replikacije MinIO-a da ih pošaljete u vaše Moderno Datalake za agregaciju i dalju analitiku.

Otporan

MinIO štiti podatke po objektu, inline kodiranje za brisanje, koje je daleko efikasnije od HDFS alternativa koje su došle nakon replikacije i nikada nisu usvojene. Osim toga, detekcija bitrota kompanije MinIO osigurava da nikada neće čitati oštećene podatke — hvatanje i liječenje oštećenih objekata u hodu. MinIO takođe podržava međuregionalnu, aktivno-aktivno replikaciju. Konačno, MinIO podržava kompletan okvir za zaključavanje objekata koji nudi i Legal Hold i Retention (sa načinima upravljanja i usklađenosti).

Software Defined

Hadoop HDFS-ov nasljednik nije hardverski uređaj; to je softver koji radi na robnom hardveru. To je ono što je MiniIO — softver. Kao i Hadoop HDFS, MinIO je dizajniran da u potpunosti iskoristi prednosti robnih servera. Sa mogućnošću iskorištavanja NVMe diskova i 100 GbE umrežavanja, MinIO može smanjiti podatkovni centar — poboljšavajući operativnu efikasnost i upravljivost.

Sigurno

MinIO podržava višestruke, sofisticirane šeme šifriranja na strani servera za zaštitu podataka — gdje god da se nalaze — u letu ili u mirovanju. MinIO-ov pristup osigurava povjerljivost, integritet i autentičnost sa zanemarljivim troškovima performansi. Šifrovanje na strani servera i klijenta podržano je korišćenjem AES-256-GCM, ChaCha20-Poly1305 i AES-CBC, čime se obezbeđuje kompatibilnost aplikacija. Štaviše, MinIO podržava vodeće sisteme za upravljanje ključevima (KMS).

Migracija sa Hadoop-a na MinIO

MinIO tim ima stručnost u prelasku sa HDFS na MinIO. Kupci koji kupe Enterprise licencu mogu dobiti pomoć od naših inženjera. Da biste saznali više o korištenju MinIO-a za zamjenu HDFS-a, pogledajte ovu kolekciju resursa .

Zaključak

Svako preduzeće je u ovom trenutku preduzeće za podatke. Skladištenje tih podataka i naknadna analiza moraju biti besprijekorni, skalabilni, sigurni i učinkoviti. Analitički alati koje je proizveo Hadoop ekosistem, kao što je Spark, efikasniji su i efikasniji kada su upareni sa jezerima podataka baziranim na pohranjivanju objekata. Tehnologije poput Flink-a poboljšavaju ukupne performanse jer obezbjeđuje jedno vrijeme rada za striming, kao i grupnu obradu koja nije dobro funkcionirala u HDFS modelu. Okviri poput Apache Arrow redefiniraju način na koji se podaci pohranjuju i obrađuju, a Iceberg i Hudi redefiniraju kako formati tablica omogućavaju efikasno ispitivanje podataka.


Sve ove tehnologije zahtijevaju moderno jezero podataka bazirano na objektima u kojem su računanje i skladištenje raščlanjeni i optimizirani za radno opterećenje. Ako imate bilo kakvih pitanja dok projektirate vlastito moderno jezero podataka, slobodno nam se obratite na [email protected] ili na našem Slack kanal.

L O A D I N G
. . . comments & more!

About Author

MinIO HackerNoon profile picture
MinIO@minio
MinIO is a high-performance, cloud-native object store that runs anywhere (public cloud, private cloud, colo, onprem).

HANG TAGS

OVAJ ČLANAK JE PREDSTAVLJEN U...