paint-brush
Arkitektimi i një liqeni modern të të dhënave në një botë post-Hadoopnga@minio
4,549 lexime
4,549 lexime

Arkitektimi i një liqeni modern të të dhënave në një botë post-Hadoop

nga MinIO7m2024/09/13
Read on Terminal Reader

Shume gjate; Te lexosh

Ky punim flet për ngritjen dhe rënien e Hadoop HDFS dhe pse ruajtja e objekteve me performancë të lartë është një pasardhës i natyrshëm në botën e të dhënave të mëdha.
featured image - Arkitektimi i një liqeni modern të të dhënave në një botë post-Hadoop
MinIO HackerNoon profile picture


Datalake moderne është gjysma e magazinës së të dhënave dhe gjysma e liqenit të të dhënave dhe përdor ruajtjen e objekteve për gjithçka. Përdorimi i ruajtjes së objekteve për të ndërtuar një magazinë të dhënash është bërë i mundur nga formatet e tabelave të hapura (OTF) si Apache Iceberg, Apache Hudi dhe Delta Lake, të cilat janë specifikime që, pasi të zbatohen, e bëjnë atë të pandërprerë që ruajtja e objekteve të përdoret si zgjidhje themelore e ruajtjes për një depo të dhënash. Këto specifikime ofrojnë gjithashtu veçori që mund të mos ekzistojnë në një Depo të Dhënave konvencionale - për shembull, fotografitë e çastit (të njohura edhe si udhëtimi në kohë), evolucioni i skemës, ndarjet, evolucioni i ndarjeve dhe degëzimi me zero kopje.


Ndërsa organizatat ndërtojnë Modern Datalakes, këtu janë disa nga faktorët kryesorë që ne mendojmë se duhet të kenë parasysh:


  1. Ndarja e llogaritjes dhe ruajtjes
  2. Migrimi nga kornizat monolitike në kornizat më të mira
  3. Konsolidimi i qendrës së të dhënave - zëvendësoni zgjidhjet e departamenteve me një zgjidhje të vetme të korporatës
  4. Performancë pa probleme në skedarë/objekte të vegjël dhe të mëdhenj
  5. Zgjidhje të përcaktuara nga softueri, të bazuara në renë kompjuterike, të cilat shkallëzohen horizontalisht


Ky punim flet për ngritjen dhe rënien e Hadoop HDFS dhe pse ruajtja e objekteve me performancë të lartë është një pasardhës i natyrshëm në botën e të dhënave të mëdha.

Miratimi i Hadoop

Me zgjerimin e aplikacioneve të internetit, sfidat e para të mëdha të ruajtjes dhe grumbullimit të të dhënave për kompanitë e teknologjisë së avancuar filluan 15 vjet më parë. RDBMS tradicionale (Sistemi i Menaxhimit të Bazave të të Dhënave Relacionale) nuk mund të shkallëzohej për t'iu afruar sasive të mëdha të të dhënave. Pastaj erdhi Hadoop, një model shumë i shkallëzuar. Në modelin Hadoop, një sasi e madhe e të dhënave ndahet në makina të shumta të lira në një grup, i cili më pas përpunohet paralelisht. Numri i këtyre makinave ose nyjeve mund të rritet ose zvogëlohet sipas kërkesave të ndërmarrjes.


Hadoop ishte me burim të hapur dhe përdorte harduer mallrash me kosto efektive, i cili siguronte një model me kosto efikase, ndryshe nga bazat e të dhënave tradicionale relacionale, të cilat kërkojnë pajisje të shtrenjta dhe procesorë të nivelit të lartë për t'u marrë me të dhëna të mëdha. Për shkak se ishte shumë e shtrenjtë për t'u shkallëzuar në modelin RDBMS, ndërmarrjet filluan të heqin të dhënat e papërpunuara. Kjo çoi në rezultate jo optimale në një numër vektorësh.


Në këtë drejtim, Hadoop dha një avantazh të rëndësishëm mbi qasjen RDBMS. Ishte më i shkallëzueshëm nga perspektiva e kostos, pa sakrifikuar performancën.

Fundi i Hadoop

Ardhja e teknologjive më të reja si kapja e të dhënave të ndryshimit (CDC) dhe transmetimi i të dhënave, të krijuara kryesisht nga kompanitë e mediave sociale si Twitter dhe Facebook, ndryshuan mënyrën se si gëlltiten dhe ruhen të dhënat. Kjo shkaktoi sfida në përpunimin dhe konsumimin e këtyre vëllimeve edhe më të mëdha të të dhënave.


Një sfidë kryesore ishte përpunimi në grup. Proceset e grupit ekzekutohen në sfond dhe nuk ndërveprojnë me përdoruesin. Hadoop ishte efikas me përpunimin e grupeve kur bëhej fjalë për skedarë shumë të mëdhenj, por vuajti me skedarë më të vegjël - si nga perspektiva e efikasitetit ashtu edhe nga këndvështrimi i vonesës - duke e bërë atë në mënyrë efektive të vjetëruar pasi ndërmarrjet kërkuan korniza përpunimi dhe konsumi që mund të gëlltitnin grupe të ndryshme të dhënash të mëdha dhe të mëdha dhe të mëdha. i vogël në grup, CDC dhe në kohë reale.


Ndarja e llogaritjes dhe ruajtjes thjesht ka kuptim sot. Hapësira ruajtëse duhet të tejkalojë llogaritjen deri në dhjetë me një. Kjo është shumë joefikase në botën Hadoop, ku ju nevojitet një nyje llogaritëse për çdo nyje ruajtëse. Ndarja e tyre do të thotë se ato mund të akordohen individualisht. Nyjet llogaritëse janë pa shtet dhe mund të optimizohen me më shumë bërthama dhe memorie të CPU. Nyjet e ruajtjes janë të gjendjes dhe mund të optimizohen I/O me një numër më të madh disqesh më të dendur dhe gjerësi bande më të lartë.


Duke zbërthyer, ndërmarrjet mund të arrijnë ekonomi superiore, menaxhim më të mirë, shkallëzim të përmirësuar dhe kosto totale të rritur të pronësisë.


HDFS nuk mund ta bëjë këtë tranzicion. Kur largoheni nga lokaliteti i të dhënave, forca e Hadoop HDFS bëhet dobësia e tij. Hadoop ishte projektuar për llogaritjen MapReduce, ku të dhënat dhe llogaritja duhej të bashkëvendosen. Si rezultat, Hadoop ka nevojë për planifikuesin e vet të punës, menaxherin e burimeve, ruajtjen dhe llogaritjen. Kjo është thelbësisht e papajtueshme me arkitekturat e bazuara në kontejnerë, ku gjithçka është elastike, e lehtë dhe me shumë qira.


Në të kundërt, MinIO ka lindur në renë kompjuterike dhe është projektuar për kontejnerë dhe orkestrim nëpërmjet Kubernetes, duke e bërë atë teknologjinë ideale për të kaluar kur të tërhiqen instancat HDFS të trashëguara.


Kjo ka krijuar Datalake Moderne. Ai përfiton nga përdorimi i qasjes së harduerit të mallrave të trashëguar nga Hadoop, por zbërthen ruajtjen dhe llogaritjen - duke ndryshuar kështu mënyrën se si të dhënat përpunohen, analizohen dhe konsumohen.

Ndërtimi i një liqeni modern të të dhënave me MinIO

MinIO është një sistem i ruajtjes së objekteve me performancë të lartë, i ndërtuar nga e para për të qenë i shkallëzueshëm dhe i bazuar në renë kompjuterike. Ekipi që ndërtoi MinIO ndërtoi gjithashtu një nga sistemet më të suksesshme të skedarëve, GlusterFS, përpara se të zhvillonte mendimin e tyre për ruajtjen. Kuptimi i tyre i thellë i sistemeve të skedarëve dhe cilat procese ishin të shtrenjta ose joefikase informoi arkitekturën e MinIO, duke ofruar performancë dhe thjeshtësi në proces.


Minio përdor kodimin e fshirjes dhe ofron një grup më të mirë algoritmesh për të menaxhuar efikasitetin e ruajtjes dhe për të siguruar elasticitet. Në mënyrë tipike, kopjohet 1.5 herë, ndryshe nga 3 herë në grupimet Hadoop. Vetëm kjo tashmë siguron efikasitet të ruajtjes dhe zvogëlon kostot në krahasim me Hadoop.


Që nga fillimi i tij, MinIO u krijua për modelin e funksionimit të cloud. Si rezultat, ai funksionon në çdo re - publike, private, prem, metal të zhveshur dhe skaj. Kjo e bën atë ideal për vendosjet me shumë re dhe hibride-cloud. Me një konfigurim hibrid, MinIO mundëson migrimin e analitikës së të dhënave dhe ngarkesave të punës së shkencës së të dhënave në përputhje me qasjet si Strangler Fig Model popullarizuar nga Martin Fowler.


Më poshtë janë disa arsye të tjera pse MinIO është blloku themelor i ndërtimit për një Datalake Moderne e aftë për të mbështetur infrastrukturën tuaj të të dhënave IA si dhe ngarkesa të tjera analitike të punës si inteligjenca e biznesit, analitika e të dhënave dhe shkenca e të dhënave.

Gati për të dhëna moderne

Hadoop u ndërtua me qëllim për të dhëna ku "të dhëna të pastrukturuara" do të thotë skedarë të mëdhenj log (me madhësi GiB në TiB). Kur përdoret si një platformë magazinimi për qëllime të përgjithshme, ku të dhënat e vërteta të pastrukturuara janë në lojë, përhapja e objekteve të vogla (KB në MB) dëmton shumë Hadoop HDFS, pasi nyjet e emrit nuk janë krijuar kurrë për t'u shkallëzuar në këtë mënyrë. MinIO shkëlqen në çdo madhësi skedari/objekti (8KiB deri në 5TiB).

Burim i hapur

Ndërmarrjet që miratuan Hadoop e bënë këtë nga një preferencë për teknologjitë me burim të hapur. Aftësia për të inspektuar, liria nga mbyllja dhe komoditeti që vjen nga dhjetëra mijëra përdorues, ka vlerë të vërtetë. MinIO është gjithashtu 100% me burim të hapur, duke siguruar që organizatat mund të qëndrojnë besnike ndaj qëllimeve të tyre ndërsa përmirësojnë përvojën e tyre.

E thjeshtë

Thjeshtësia është e vështirë. Duhet punë, disiplinë dhe mbi të gjitha përkushtim. Thjeshtësia e MinIO është legjendare dhe është rezultat i një angazhimi filozofik për ta bërë softuerin tonë të lehtë për t'u vendosur, përdorur, përmirësuar dhe shkallëzuar. Edhe fansat e Hadoop do t'ju thonë se është kompleks. Për të bërë më shumë me më pak, duhet të migroni në MinIO.

Performante

Hadoop u bë i njohur për shkak të aftësisë së tij për të ofruar performancën e të dhënave të mëdha. Ata ishin, për pjesën më të madhe të një dekade, pikë referimi për analitikën e shkallës së ndërmarrjes. Jo më. MinIO është vërtetuar në shumëfish standardet se është materialisht më i shpejtë se Hadoop. Kjo do të thotë performancë më e mirë për Modern Datalake.

Të lehta

Binar i serverit të MinIO është i gjithë <100 MB. Pavarësisht nga madhësia e tij, është mjaft i fuqishëm për të drejtuar qendrën e të dhënave, por ende mjaft i vogël për të jetuar rehat në skaj. Nuk ka një alternativë të tillë në botën Hadoop. Ajo që do të thotë për ndërmarrjet është që aplikacionet tuaja S3 mund të kenë akses në të dhëna kudo, në çdo kohë dhe me të njëjtin API. Duke vendosur MinIO në një vendndodhje të skajshme, mund të kapni dhe filtroni të dhënat në skaj dhe të përdorni aftësitë e riprodhimit të MinIO për t'i dërguar ato në Datalake juaj Moderne për grumbullim dhe analiza të mëtejshme.

Elastike

MinIO mbron të dhënat me kodimin e fshirjes për çdo objekt, i cili është shumë më efikas se alternativat HDFS që erdhën pas riprodhimit dhe nuk u miratuan kurrë. Përveç kësaj, zbulimi i bitrot i MinIO siguron që ai kurrë nuk do të lexojë të dhëna të korruptuara - duke kapur dhe shëruar objekte të dëmtuara në fluturim. MinIO gjithashtu mbështet replikimin ndër-rajonal, aktiv-aktive. Më në fund, MinIO mbështet një kornizë të plotë të bllokimit të objekteve që ofron si Legal Hold ashtu edhe Ruajtje (me modalitete Qeverisje dhe Pajtueshmëri).

Softueri i përcaktuar

Pasardhësi i Hadoop HDFS nuk është një pajisje harduerike; është softuer që funksionon në harduer të mallrave. Kjo është ajo që është MinIO - softuer. Ashtu si Hadoop HDFS, MinIO është krijuar për të përfituar plotësisht nga serverët e mallrave. Me aftësinë për të shfrytëzuar disqet NVMe dhe rrjetëzimin 100 GbE, MinIO mund të zvogëlojë qendrën e të dhënave - duke përmirësuar efikasitetin operacional dhe menaxhimin.

Sigurt

MinIO mbështet skema të shumta, të sofistikuara të kriptimit nga ana e serverit për të mbrojtur të dhënat – kudo që të jenë – në fluturim ose në pushim. Qasja e MinIO siguron konfidencialitet, integritet dhe autenticitet me performancë të papërfillshme. Kriptimi nga ana e serverit dhe nga ana e klientit mbështeten duke përdorur AES-256-GCM, ChaCha20-Poly1305 dhe AES-CBC, duke siguruar përputhshmërinë e aplikacionit. Për më tepër, MinIO mbështet sistemet e menaxhimit të çelësave kryesorë në industri (KMS).

Migrimi nga Hadoop në MinIO

Ekipi MinIO ka ekspertizë në migrimin nga HDFS në MinIO. Konsumatorët që blejnë një licencë të Ndërmarrjes mund të marrin ndihmë nga inxhinierët tanë. Për të mësuar më shumë rreth përdorimit të MinIO për të zëvendësuar HDFS, shikoni këtë koleksion burimesh .

konkluzioni

Çdo ndërmarrje është një ndërmarrje e të dhënave në këtë pikë. Ruajtja e atyre të dhënave dhe analiza pasuese duhet të jenë të pandërprera, të shkallëzueshme, të sigurta dhe performuese. Mjetet analitike të krijuara nga ekosistemi Hadoop, si Spark, janë më efektive dhe më efikase kur çiftohen me liqenet e të dhënave të bazuara në ruajtjen e objekteve. Teknologjitë si Flink përmirësojnë performancën e përgjithshme pasi siguron një kohë ekzekutimi për transmetimin, si dhe përpunimin e grupit që nuk funksionoi mirë në modelin HDFS. Kornizat si Apache Arrow po ripërcaktojnë se si ruhen dhe përpunohen të dhënat, dhe Iceberg dhe Hudi po ripërcaktojnë se si formatet e tabelave lejojnë kërkimin efikas të të dhënave.


Të gjitha këto teknologji kërkojnë një liqen të dhënash moderne, të bazuar në ruajtjen e objekteve, ku llogaritja dhe ruajtja janë të ndara dhe të optimizuara për ngarkesën e punës. Nëse keni ndonjë pyetje gjatë arkitekturës së liqenit tuaj modern të të dhënave, ju lutemi mos ngurroni të na kontaktoni në [email protected] ose në tonën I plogët kanal.

L O A D I N G
. . . comments & more!

About Author

MinIO HackerNoon profile picture
MinIO@minio
MinIO is a high-performance, cloud-native object store that runs anywhere (public cloud, private cloud, colo, onprem).

VARUR TAGS

KY ARTIKU U PARAQIT NË...