paint-brush
Go aga Letsha la Datha la Sebjalebjale Lefaseng la Ka morago ga Hadoopka@minio
Histori e mpsha

Go aga Letsha la Datha la Sebjalebjale Lefaseng la Ka morago ga Hadoop

ka MinIO7m2024/09/13
Read on Terminal Reader

Nako e telele kudu; Go bala

Pampiri ye e bolela ka go hlatloga le go wa ga Hadoop HDFS le gore ke ka lebaka la eng polokelo ya dilo ya tshepedišo ya godimo e le mohlahlami wa tlhago lefaseng la datha ye kgolo.
featured image - Go aga Letsha la Datha la Sebjalebjale Lefaseng la Ka morago ga Hadoop
MinIO HackerNoon profile picture


The Datalake ya Sebjalebjale ke polokelo ya data ya seripagare le letsha la data ya seripagare gomme e šomiša polokelo ya selo bakeng sa se sengwe le se sengwe. Tšhomišo ya polokelo ya dilo go aga polokelo ya datha e kgonega ke Difomete tša Tafola ye e Bulegilego (OTFs) tša go swana le Apache Iceberg, Apache Hudi, le Delta Lake, tšeo e lego ditlhalošo tšeo, ge di šetše di phethagaditšwe, di dirago gore e se be le mathata gore polokelo ya dilo e šomišwe bjalo ka tharollo ya polokelo ya motheo bakeng sa polokelo ya data. Ditlhalošo tše di fa gape dikarolo tšeo di ka bago gona ka go Polokelo ya Datha ye e tlwaelegilego - mohlala, diswantšho tša go tšewa ka lebelo (tšeo gape di tsebjago bjalo ka maeto a nako), tlhagelelo ya sekema, dikarolwana, tlhagelelo ya karoganyo, le go makala ga khopi ya lefela.


Ge mekgatlo e dutše e aga Di-Datalak tša Sebjalebjale, tše ke tše dingwe tša mabaka a bohlokwa ao re naganago gore e swanetše go ba e a ela hloko:


  1. Disaggregation ya khomphutha le polokelo
  2. Go huduga go tšwa go ditlhako tša monolithic go ya go ditlhako tše kaone tša tswadišo
  3. Kopanyo ya setsi sa data - nka sebaka sa ditharollo tsa kgoro ka tharollo e le nngwe ya kgwebo
  4. Seamless tshebetso ho pholletsa le difaele tse nyenyane le tse khōlō / dintho
  5. Ditharollo tše di hlalošitšwego ke disoftware, tša setlogo sa leru tšeo di lekanyago ka go rapalala


Pampiri ye e bolela ka go hlatloga le go wa ga Hadoop HDFS le gore ke ka lebaka la eng polokelo ya dilo ya tshepedišo ya godimo e le mohlahlami wa tlhago lefaseng la datha ye kgolo.

Go amogelwa ga Hadoop

Ka katološo ya dikgopelo tša inthanete, ditlhohlo tša mathomo tše kgolo tša polokelo ya datha le go kgoboketša bakeng sa dikhamphani tša theknolotši ya maemo a godimo di thomile mengwageng ye 15 ye e fetilego. RDBMS ya setšo (Relational Database Management System) e be e sa kgone go lekanywa go batamela palo ye kgolo ya datha. Ke moka gwa tla Hadoop, e lego mohlala wo o ka lekanyetšwago kudu. Mohlaleng wa Hadoop, palo ye kgolo ya datha e arotšwe ka metšhene ye mentši ye e sa bitšego kudu ka gare ga sehlopha seo ka morago se šongwago ka go bapelana. Palo ya metšhene ye goba di-node e ka oketšega goba ya fokotšwa go ya ka dinyakwa tša kgwebo.


Hadoop e be e le mohlodi wo o bulegilego gomme e šomiša didirišwa tša dithoto tšeo di sa bitšego kudu, tšeo di filego mohlala wo o sa bitšego kudu, go fapana le dipolokelo tša tshedimošo tša setšo tša kamano, tšeo di nyakago didirišwa tša go tura le diprosesa tša maemo a godimo go šomana le ya data ye kgolo. Ka lebaka la gore e be e bitša kudu go lekalekantšha mohlaleng wa RDBMS, dikgwebo di ile tša thoma go tloša ya data ye tala. Se se ile sa lebiša go dipoelo tše di sego tša maleba go ralala le palo ya diphetetši.


Mabapi le se, Hadoop e file mohola wo mogolo go feta mokgwa wa RDBMS. E be e le yeo e ka lekanyetšwago kudu go tšwa ponong ya ditshenyagalelo, ntle le go gafa tshepedišo.

Bofelo bja Hadoop

Go tšwelela ga theknolotši ye mpsha go swana le go tšea datha ya phetogo (CDC) le go phallela datha, kudukudu yeo e tšweleditšwego go tšwa go dikhamphani tša ditaba tša leago tša go swana le Twitter le Facebook, go fetotše ka fao datha e tsenywago le go bolokwa ka gona. Se se ile sa hlohleletša ditlhohlo tša go šoma le go ja dibolumo tše tše dikgolo le go feta tša data.


Tlhohlo ye bohlokwa e be e le ka tshepedišo ya dihlopha. Ditshepetšo tša sehlopha di šoma ka morago gomme ga di dirišane le mosediriši. Hadoop e be e šoma gabotse ka tshepedišo ya dihlopha ge go tliwa go difaele tše kgolo kudu eupša e ile ya tlaišega ka difaele tše nnyane—bobedi go tšwa ponong ya bokgoni gammogo le pono ya go khutša-ka mo go atlegilego e e dira gore e se sa šomišwa ka ge dikgwebo di be di nyaka ditlhako tša go šoma le tša tšhomišo tšeo di bego di ka ingest di-dataset tše di fapa-fapanego tše dikgolo le nyenyane ka sehlopha, CDC, le nako ya sebele.


Go aroganya khomphutha le polokelo go fo kwagala lehono. Polokelo e swanetše go feta khomphutha ka tekanyo e ka bago e lesome go ya go e tee. Se ga se šome gabotse kudu lefaseng la Hadoop, moo o nyakago noutu e tee ya go bala bakeng sa noutu ye nngwe le ye nngwe ya polokelo. Go di aroganya go ra gore di ka tuned ka botee. The khomphutha nodes ke stateless le ka optimized le ho feta CPU di-core le memoring ya. The polokelo nodes ba stateful le ka I / O optimized le palo e khōlō ea di-drive teteaneng le bandwidth phahameng.


Ka go aroganya, dikgwebo di ka fihlelela ekonomi ye e phagamego, go laolega gakaone, go kaonafatšwa ga go lekalekana, le palomoka ya ditshenyagalelo tše di kaonafetšego tša beng.


HDFS e ka se kgone go dira phetogo ye. Ge o tlogela selegae sa data, maatla a Hadoop HDFS a fetoga bofokodi bja yona. Hadoop e be e hlametšwe go šomiša dikhomphuthara tša MapReduce, moo datha le khomphutha di bego di swanetše go bewa mmogo. Ka lebaka leo, Hadoop e hloka morulaganyi wa yona wa mošomo, molaodi wa methopo, polokelo, le khomphutha. Se ka motheo ga se dumelelane le ditlhamo tše di theilwego godimo ga ditshelo, moo se sengwe le se sengwe se elastic, se lego boima bjo bonyenyane e bile se na le bahiri ba bantši.


Ka go fapana, MinIO e belegwe e le leru la setlogo gomme e reretšwe ditshelo le orchestration ka Kubernetes, e dira gore e be theknolotši ye e loketšego go fetogela go yona ge o rola modiro ditiragalo tša bohwa tša HDFS.


Se se hlotše Datalake ya Sebjalebjale. E diriša mohola wa go šomiša mokgwa wa didirišwa tša dithoto wo o abetšwego go tšwa go Hadoop eupša e aroganya polokelo le go bala — ka go realo e fetoša ka moo ya data e šongwago, e sekasekago, le go jewa.

Go aga Letsha la Datha la Sebjalebjale ka MiniIO

MinIO ke tshepedišo ya polokelo ya dilo ya tshepedišo ya godimo yeo e agilwego go tloga mathomong gore e be yeo e ka lekanyetšwago le ya leru. Sehlopha seo se agilego MiniIO se ile sa aga gape e nngwe ya ditshepedišo tša difaele tše di atlegilego kudu, GlusterFS, pele se hlabolla kgopolo ya bona ka polokelo. Kwešišo ya bona ye e tseneletšego ya ditshepedišo tša difaele le gore ke ditshepedišo dife tšeo di bego di bitša tšhelete e ntši goba tšeo di sa šomego gabotse e ile ya tsebiša mohlwaela wa MiniIO, go tliša tshepedišo le go ba bonolo tshepedišong yeo.


Minio e šomiša go ngwala dikhoutu tša go phumola gomme e fa sete ye kaone ya dialgoritmo go laola bokgoni bja polokelo le go fa go kgotlelela. Ka tlwaelo, ke makhetlo a 1.5 a khopi, ho fapana le makhetlo a 3 ka dihlopha tsa Hadoop. Se se nnoši se šetše se fa bokgoni bja polokelo gomme se fokotša ditshenyegelo ge se bapetšwa le Hadoop.


Go tloga mathomong a yona, MinIO e be e hlametšwe mohlala wa go šoma ka leru. Ka baka leo, e kitima lerung le lengwe le le lengwe—tša setšhaba, la poraebete, la on-prem, tšhipi e se nago selo le mošito. Se se dira gore e be ye botse bakeng sa go tsenywa tirišong ga maru a mantši le a maru a motswako. Ka peakanyo ya motswako, MinIO e kgontšha go huduga ga ditshekatsheko tša datha le merwalo ya mošomo ya saense ya datha go ya ka mekgwa ya go swana le Strangler Feiga Paterone e tumišitšwego ke Martin Fowler.


Ka fase ke mabaka a mangwe a mmalwa ao ka ona MinIO e lego sebopego sa motheo sa go aga sa Datalake ya Sebjalebjale yeo e kgonago go thekga mananeokgoparara a gago a datha ya IA gammogo le merwalo ye mengwe ya mošomo ya tshekatsheko go swana le bohlale bja kgwebo, ditshekatsheko tša datha, le saense ya datha.

Datha ya Sebjalebjale e Loketše

Hadoop e be e agilwe ka morero bakeng sa ya data moo “datha yeo e sa rulaganywago” e bolelago difaele tše kgolo (GiB go ya go TiB-sized) log files. Ge e šomišwa bjalo ka sefala sa polokelo ya morero wa kakaretšo moo datha ya nnete ye e sa rulaganywago e lego papading, go ata ga dilo tše nnyane (KB go ya go MB) go senya kudu Hadoop HDFS, ka ge di-node tša leina di be di se tša ka tša hlangwa go lekalekantšha ka mokgwa wo. MiniIO e phala ka faele efe kapa efe / ntho boholo (8KiB ho 5TiB).

Mohlodi o Bulehileng

Dikgwebo tšeo di amogetšego Hadoop di dirile bjalo ka lebaka la go rata theknolotši ya mohlodi wo o bulegilego. Bokgoni bja go hlahloba, tokologo ya go notlela, le boiketlo bjo bo tšwago go badiriši ba dikete tše masome, bo na le mohola wa kgonthe. MiniIO gape ke 100% ya mohlodi o bulegilego, e netefatša gore mekgatlo e ka dula e botegela dipakane tša yona mola e kaonafatša boitemogelo bja yona.

Bonolo

Go ba bonolo go thata. Go nyakega mošomo, tayo gomme go feta tšohle, boikgafo. Bonolo bja MinIO ke bja nonwane gomme ke sephetho sa boikgafo bja filosofi bja go dira gore softwere ya rena e be bonolo go tsenya tirišong, go šomišwa, go kaonafatša, le go lekalekantšha. Le balatedi ba Hadoop ba tla go botša gore e raragane. Go dira tše ntši ka tše nnyane, o swanetše go hudugela go MinIO.

Modiragatši

Hadoop e ile ya hlatlogela go tuma ka lebaka la bokgoni bja yona bja go tliša tshepedišo ya data ye kgolo. E be e le, karolong e kaone ya nywaga e lesome, tekanyetšo ya ditshekatsheko tša maemo a kgwebo. E sego gape. MiniIO e ipontšhitše ka bontši ditekanyetšo tša go lekanyetša gore e ka lebelo ka dilo tše di bonagalago go feta Hadoop. Se se ra gore tshepedišo ye kaone ya Datalake ya gago ya Sebjalebjale.

E bobebe

MinIO ya seva binary ke tsohle tsa <100MB. Go sa šetšwe bogolo bja yona, e matla ka mo go lekanego go ka sepetša lefelo la data, lega go le bjalo e sa dutše e le e nyenyane ka mo go lekanego gore e ka phela ka boiketlo mo ntlheng. Ga go na selo se sengwe se se bjalo lefaseng la Hadoop. Seo se bolelago go dikgwebo ke gore dikgopelo tša gago tša S3 di ka fihlelela datha kae goba kae, nako efe goba efe, le ka API ye e swanago. Ka go tsenya MinIO lefelong la mošito, o ka swara le go sefa datha mo ntlheng gomme wa šomiša bokgoni bja go tšweletša gape bja MinIO go e romela go Datalake ya gago ya Sebjalebjale bakeng sa go kgoboketša le ditshekatsheko tše dingwe.

Yo maatla

MinIO e šireletša ya data ka selo se sengwe le se sengwe, go ngwala khoutu ya go phumola ka gare ga mothaladi, yeo e šomago gabotse kudu go feta mekgwa ye mengwe ya HDFS yeo e tlilego ka morago ga phetolelo gomme ga se ya ka ya hwetša go amogelwa. Ho phaella moo, MinIO o bitrot phumano netefatsa hore e ke ke ea bala ya data senyehileng - hapa le ho folisa dintho senyehileng ka fofa. MinIO e thekga gape go selaganya selete, phetolelo ye e šomago-mafolofolo. Sa mafelelo, MinIO e thekga tlhako ye e feletšego ya go notlela dilo yeo e fago bobedi go Swara le go Boloka ka Molao (ka mekgwa ya Taolo le Kobamelo).

Software e Hlalositšwe

Mohlahlami wa Hadoop HDFS ga se sedirišwa sa didirišwa tša go šoma ka thata; ke software matha ka thepa hardware. Ke seo MinIO e lego sona - software. Go swana le Hadoop HDFS, MinIO e hlamilwe go diriša mohola ka botlalo wa di-server tša dithoto. Ka bokgoni bja go leverage NVMe drives le 100 GbE marangrang, MinIO ka shrink ya data setsi - ntlafatsa bokgoni tshebetso le taolo.

Boloka

MinIO e thekga dikema tša go šitiša tša ka lehlakoreng la seva tše ntši, tše di raraganego go šireletša ya data — kae le kae moo e ka bago gona — ka sefofaneng goba ge o khuditše. Mokgwa wa MinIO o netefatša sephiri, botshepegi, le bonnete ka tshebetšo ye e sa rego selo. Go šitiša ka lehlakoreng la seva le ka lehlakoreng la moreki di thekgwa ka go šomiša AES-256-GCM, ChaCha20-Poly1305, le AES-CBC, go netefatša go sepelelana ga tirišo. Go feta fao, MiniIO e thekga ditshepedišo tša taolo ya senotlelo (KMS) tšeo di etilego pele intasteri.

Go huduga go tšwa go Hadoop go ya go MinIO

Sehlopha sa MiniIO se na le bokgoni bja go huduga go tšwa go HDFS go ya go MinIO. Bareki bao ba rekago laesense ya Kgwebo ba ka hwetša thušo go tšwa go baentšeneare ba rena. Go ithuta ka botlalo ka ga go šomiša MiniIO go tšea sebaka sa HDFS hlahloba kgoboketšo ye ya methopo .

Mafetšo

Kgwebo ye nngwe le ye nngwe ke kgwebo ya data mo nakong ye. Polokelo ya data yeo le tshekatsheko yeo e latelago e swanetše go ba yeo e se nago mathata, yeo e ka lekanyetšwago, yeo e šireletšegilego le yeo e šomago gabotse. Didirišwa tša tshekatsheko tšeo di tswaletšwego ke tshepedišo ya tswalano ya diphedi le tikologo ya tšona ya Hadoop, go swana le Spark, di šoma gabotse kudu ebile di šoma gabotse ge di kopantšwe le matsha a datha ao a theilwego godimo ga polokelo ya dilo. Ditheknolotši tša go swana le Flink di kaonafatša tshepedišo ya kakaretšo ka ge e fa nako ya go sepela e tee ya go phallela gammogo le tshepedišo ya sehlopha yeo e sa šomego gabotse mohlaleng wa HDFS. Ditlhako tša go swana le Apache Arrow di hlaloša leswa ka fao datha e bolokwago le go šongwa ka gona, gomme Iceberg le Hudi di hlaloša leswa ka fao difomete tša tafola di dumelelago go botšiša ga datha ka bokgoni.


Dithekinolotši tše ka moka di nyaka letsha la datha la sebjalebjale, leo le theilwego godimo ga polokelo ya dilo moo go dira dikhomphuthara le polokelo di arotšwego le go lokišwa mošomong. Ge e ba o na le dipotšišo ge o dutše o aga letsha la gago la sebjalebjale la data, hle ikwe o lokologile go fihlelela rena go [email protected] goba godimo ga rena Slack ya go fokola kanale ya.

L O A D I N G
. . . comments & more!

About Author

MinIO HackerNoon profile picture
MinIO@minio
MinIO is a high-performance, cloud-native object store that runs anywhere (public cloud, private cloud, colo, onprem).

HANG TAGS YA GO FEGA

ARTICLE YE E HLAHILWE KA...