The
Байгууллагууд Орчин үеийн Datalake-ийг барьж байгуулахдаа бидний анхаарах ёстой гол хүчин зүйлүүд энд байна.
Энэ нийтлэлд Hadoop HDFS-ийн өсөлт, уналт, өндөр хүчин чадалтай объект хадгалах нь яагаад том өгөгдлийн ертөнц дэх байгалийн залгамжлагч болох тухай өгүүлдэг.
Интернетийн хэрэглээний программуудыг өргөжүүлснээр дэвшилтэт технологийн компаниудын хувьд өгөгдөл хадгалах, нэгтгэх анхны томоохон сорилтууд 15 жилийн өмнө эхэлсэн. Уламжлалт RDBMS (Харилцааны өгөгдлийн сангийн удирдлагын систем) нь их хэмжээний өгөгдөлд ойртохын тулд масштабтай байх боломжгүй байв. Дараа нь Hadoop хэмээх өндөр масштабтай загвар гарч ирэв. Hadoop загварт их хэмжээний өгөгдлийг кластерт хэд хэдэн хямд машинд хувааж, дараа нь зэрэгцээ боловсруулдаг. Эдгээр машин, зангилааны тоог аж ахуйн нэгжийн шаардлагад нийцүүлэн нэмэгдүүлж, багасгаж болно.
Hadoop нь нээлттэй эх сурвалж байсан бөгөөд том өгөгдөлтэй ажиллахад үнэтэй техник хангамж, дээд зэрэглэлийн процессор шаарддаг уламжлалт харилцааны мэдээллийн сангаас ялгаатай нь өртөг хэмнэлттэй загвар бүхий зардлын хэмнэлттэй барааны техник хангамж ашигласан. RDBMS загварт масштаблахад маш үнэтэй байсан тул аж ахуйн нэгжүүд түүхий өгөгдлийг устгаж эхэлсэн. Энэ нь хэд хэдэн векторын хувьд оновчтой бус үр дүнд хүргэсэн.
Үүнтэй холбогдуулан Hadoop нь RDBMS арга барилаас ихээхэн давуу талыг олгосон. Энэ нь гүйцэтгэлийг алдагдуулахгүйгээр зардлын үүднээс илүү өргөн цар хүрээтэй байсан.
Twitter, Facebook зэрэг олон нийтийн мэдээллийн хэрэгслээр үүсгэсэн өөрчлөлтийн өгөгдөл (CDC) болон урсгал мэдээлэл зэрэг шинэ технологиуд гарч ирснээр өгөгдлийг хэрхэн залгиж, хадгалахыг өөрчилсөн. Энэ нь илүү их хэмжээний өгөгдлийг боловсруулах, ашиглахад бэрхшээл учруулсан.
Гол сорилт бол багц боловсруулах явдал байв. Багц процессууд нь далд ажилладаг бөгөөд хэрэглэгчтэй харьцдаггүй. Hadoop нь маш том файлуудад багц боловсруулалт хийхэд үр дүнтэй байсан боловч жижиг файлууд нь үр ашиг, хоцрогдлын үүднээс хоёуланд нь зовж шаналж байсан нь аж ахуйн нэгжүүд янз бүрийн өгөгдлийн багцуудыг шингээж авах боловсруулалт, хэрэглээний тогтолцоог эрэлхийлснээр үүнийг хуучирсан. Багц, CDC, бодит цагийн хувьд жижиг.
Тооцоолох болон хадгалах санг салгах нь өнөөдөр зүгээр л утга учиртай. Хадгалах хэмжээ нь тооцооллоос араваас нэгээр илүү байх ёстой. Хадгалах цэг бүрт нэг тооцооллын зангилаа хэрэгтэй байгаа Hadoop ертөнцөд энэ нь маш үр ашиггүй юм. Тэдгээрийг салгах нь тус тусад нь тааруулж болно гэсэн үг юм. Тооцоолох цэгүүд нь харьяалалгүй бөгөөд илүү их CPU-ийн цөм болон санах ойгоор оновчтой болгох боломжтой. Хадгалах цэгүүд нь төлөвтэй бөгөөд илүү олон тооны нягт хөтчүүд болон өндөр зурвасын өргөнөөр оролт/гаралтыг оновчтой болгох боломжтой.
Аж ахуйн нэгжүүдийг задлах замаар дээд зэргийн эдийн засаг, менежментийг сайжруулах, өргөтгөх чадварыг сайжруулж, өмчлөлийн нийт өртөгийг нэмэгдүүлэх боломжтой.
HDFS энэ шилжилтийг хийж чадахгүй. Та өгөгдлийн байршлыг орхих үед Hadoop HDFS-ийн хүч чадал нь түүний сул тал болно. Hadoop нь өгөгдөл болон тооцооллыг хамтад нь байрлуулах шаардлагатай MapReduce тооцоололд зориулагдсан. Үүний үр дүнд Hadoop-д өөрийн ажлын хуваарь, нөөцийн менежер, хадгалах сан, тооцоолол хэрэгтэй. Энэ нь бүх зүйл уян хатан, хөнгөн, олон түрээслэгчтэй байдаг чингэлэгт суурилсан архитектуртай үндсэндээ нийцдэггүй.
Үүний эсрэгээр, MiniIO нь үүлэнд төрсөн бөгөөд Kubernetes-ээр дамжуулан контейнер болон зохион байгуулалтад зориулагдсан бөгөөд энэ нь хуучин HDFS инстанцуудыг ашиглахгүй байх үед шилжихэд тохиромжтой технологи юм.
Энэ нь орчин үеийн Datalake-ийг бий болгосон. Энэ нь Hadoop-оос өвлөн авсан барааны техник хангамжийн аргыг ашиглах давуу талтай боловч хадгалалт, тооцооллыг ялгаж салгаж, улмаар өгөгдлийг хэрхэн боловсруулах, дүн шинжилгээ хийх, хэрэглэхийг өөрчилдөг.
MiniIO нь эхнээс нь бүтээгдсэн өндөр хүчин чадалтай объект хадгалах систем юм. MiniIO-г бүтээсэн баг нь хадгалалтын талаарх сэтгэхүйгээ хөгжүүлэхийн өмнө хамгийн амжилттай файлын системүүдийн нэг болох GlusterFS-ийг бүтээжээ. Тэдний файлын системүүд болон ямар процессууд үнэтэй эсвэл үр ашиггүй байдаг талаар гүнзгий ойлголттой байсан нь MiniIO-ийн архитектурт мэдээлэл өгч, үйл явцын гүйцэтгэл, энгийн байдлыг хангасан.
Minio нь устгах кодчилол ашигладаг бөгөөд хадгалалтын үр ашгийг удирдах, уян хатан байдлыг хангах илүү сайн алгоритмуудыг өгдөг. Ерөнхийдөө энэ нь Hadoop кластерт 3 дахин их хуулбарлагдсанаас ялгаатай нь 1.5 дахин их байдаг. Энэ нь дангаараа аль хэдийн хадгалалтын үр ашгийг хангаж, Hadoop-той харьцуулахад зардлыг бууруулдаг.
MiniIO нь үүсгэн байгуулагдсан цагаасаа эхлэн үүлэн үйлдлийн загварт зориулагдсан болно. Үүний үр дүнд энэ нь нийтийн, хувийн, үндсэн, нүцгэн металл, зах гэсэн бүх үүлэн дээр ажилладаг. Энэ нь олон үүлэн болон эрлийз-үүлэнд байршуулахад тохиромжтой болгодог. Гибрид тохиргооны тусламжтайгаар MiniIO нь өгөгдлийн аналитик болон мэдээллийн шинжлэх ухааны ажлын ачааллыг дараах аргуудын дагуу шилжүүлэх боломжийг олгодог.
MiniIO нь IA өгөгдлийн дэд бүтэц болон бизнесийн тагнуул, өгөгдлийн аналитик, өгөгдлийн шинжлэх ухаан зэрэг бусад аналитик ачааллыг дэмжих чадвартай Орчин үеийн Datalake-ийн үндсэн барилгын материал болох хэд хэдэн шалтгааныг доор харуулав.
Hadoop нь "бүтэцгүй өгөгдөл" нь том (GiB-ээс TiB хэмжээтэй) лог файл гэсэн утгатай өгөгдөлд зориулагдсан. Жинхэнэ бүтэцгүй өгөгдөл байдаг ерөнхий зориулалтын хадгалах платформ болгон ашиглах үед жижиг объектуудын тархалт (КБ-аас МБ) нь Hadoop HDFS-д ихээхэн сөргөөр нөлөөлдөг, учир нь нэрийн зангилаанууд хэзээ ч ийм загвараар масштабаар төлөвлөгддөггүй. MiniIO нь ямар ч файл/объектийн хэмжээ (8KiB-ээс 5TiB) дээр гарна.
Hadoop-ийг нэвтрүүлсэн аж ахуйн нэгжүүд нээлттэй эхийн технологийг илүүд үзсэний үндсэн дээр үүнийг хийсэн. Шалгах чадвар, түгжигдэхээс ангид байх, олон арван мянган хэрэглэгчдийн тав тух нь бодит үнэ цэнэ юм. MiniIO нь мөн 100% нээлттэй эх сурвалж бөгөөд байгууллагууд өөрсдийн туршлагаа сайжруулахын зэрэгцээ зорилгодоо үнэнч байх боломжийг олгодог.
Энгийн байдал хэцүү. Үүнд хөдөлмөр, сахилга бат, хамгийн гол нь тууштай байх хэрэгтэй. MiniIO-ийн энгийн байдал нь домогт бөгөөд бидний програм хангамжийг ашиглах, ашиглах, шинэчлэх, масштаблахад хялбар болгох гүн ухааны амлалтын үр дүн юм. Hadoop-ийн шүтэн бишрэгчид хүртэл энэ нь төвөгтэй гэдгийг танд хэлэх болно. Бага зардлаар ихийг хийхийн тулд та MiniIO руу шилжих хэрэгтэй.
Hadoop нь том өгөгдөл дамжуулах чадвараараа алдартай болсон. Эдгээр нь сүүлийн арван жилийн туршид аж ахуйн нэгжийн түвшний аналитикийн жишиг үзүүлэлт байв. Дахиж үгүй. MiniIO олон талаараа батлагдсан
MiniIO-ийн серверийн хоёртын файл нь бүгд <100MB байна. Хэмжээтэй хэдий ч энэ нь дата төвийг ажиллуулахад хангалттай хүчтэй боловч ирмэг дээр тав тухтай амьдрахад хангалттай жижиг хэвээр байна. Hadoop ертөнцөд ийм хувилбар байдаггүй. Энэ нь аж ахуйн нэгжүүдэд юу гэсэн үг вэ гэвэл таны S3 програмууд хаана ч, хэзээ ч, ижил API ашиглан өгөгдөлд хандах боломжтой гэсэн үг юм. MiniIO-г захын байршилд байрлуулснаар та өгөгдлийг захад авч шүүж, MiniIO-ийн хуулбарлах чадварыг ашиглан нэгтгэх болон цаашдын дүн шинжилгээ хийх зорилгоор орчин үеийн Datalake руу илгээх боломжтой.
MiniIO нь өгөгдлийг объект тус бүрээр, шугаман дээр устгах кодчилолоор хамгаалдаг бөгөөд энэ нь хуулбарласны дараа гарч ирсэн, хэзээ ч үрчилж аваагүй HDFS хувилбаруудаас хамаагүй илүү үр дүнтэй байдаг. Нэмж дурдахад, MiniIO-ийн битрот илрүүлэгч нь эвдэрсэн өгөгдлийг хэзээ ч уншихгүй, гэмтсэн объектыг шууд барьж, эдгээх боломжийг олгодог. MiniIO нь бүс хоорондын идэвхтэй, идэвхтэй хуулбарыг дэмждэг. Эцэст нь, MiniIO нь Legal Hold болон Retention (Засаглал ба Нийцлийн горимуудтай) хоёуланг нь санал болгодог объект түгжих бүрэн тогтолцоог дэмждэг.
Hadoop HDFS-ийн залгамжлагч нь техник хангамжийн хэрэгсэл биш; Энэ нь барааны техник хангамж дээр ажилладаг програм хангамж юм. Энэ бол MiniIO - програм хангамж юм. Hadoop HDFS-ийн нэгэн адил MiniIO нь түүхий эд серверийн давуу талыг бүрэн ашиглах зорилготой юм. NVMe хөтчүүд болон 100 GbE сүлжээг ашиглах чадвартай MiniIO нь дата төвийг багасгаж, үйл ажиллагааны үр ашиг, удирдах чадварыг сайжруулж чадна.
MiniIO нь өгөгдлийг хаана ч байсан нислэгийн болон амарч байх үед хамгаалахын тулд сервер талын олон, боловсронгуй шифрлэлтийн схемүүдийг дэмждэг. MiniIO-ийн арга барил нь нууцлал, бүрэн бүтэн байдал, жинхэнэ байдлыг баталгаажуулдаг бөгөөд гүйцэтгэлийн нэмэлт зардал багатай байдаг. Сервер талын болон клиент талын шифрлэлтийг AES-256-GCM, ChaCha20-Poly1305, AES-CBC ашиглан дэмждэг бөгөөд програмын нийцтэй байдлыг хангадаг. Цаашилбал, MiniIO нь салбартаа тэргүүлэгч гол удирдлагын системийг (KMS) дэмждэг.
MiniIO баг нь HDFS-ээс MiniIO руу шилжих туршлагатай. Аж ахуйн нэгжийн лиценз худалдаж авсан хэрэглэгчид манай инженерүүдээс тусламж авах боломжтой. HDFS-ийг солихын тулд MiniIO ашиглах талаар илүү ихийг мэдэхийг хүсвэл шалгана уу
Энэ үед аж ахуйн нэгж бүр мэдээллийн байгууллага юм. Энэ өгөгдлийг хадгалах, дараагийн шинжилгээ нь саадгүй, өргөтгөх боломжтой, аюулгүй, гүйцэтгэлтэй байх ёстой. Spark гэх мэт Hadoop экосистемээс бий болгосон аналитик хэрэгслүүд нь объектын хадгалалтад суурилсан мэдээллийн нууруудтай хослуулснаар илүү үр дүнтэй бөгөөд үр дүнтэй байдаг. Flink гэх мэт технологиуд нь HDFS загварт сайн ажиллаагүй багц боловсруулалтаас гадна урсгалын нэг удаагийн ажиллах хугацааг хангадаг тул ерөнхий гүйцэтгэлийг сайжруулдаг. Apache Arrow гэх мэт фреймворкууд нь өгөгдөл хэрхэн хадгалагдаж, боловсруулагддагийг дахин тодорхойлж, Iceberg болон Hudi хүснэгтийн форматууд нь өгөгдлийг хэрхэн үр ашигтайгаар хайдаг болохыг дахин тодорхойлж байна.
Эдгээр технологиуд бүгд тооцоолол, хадгалалтыг салгаж, ажлын ачааллыг оновчтой болгодог орчин үеийн, объектын хадгалалтад суурилсан мэдээллийн нуурыг шаарддаг. Хэрэв танд орчин үеийн дата нуураа барих талаар асуух зүйл байвал бидэнтэй холбогдоно уу