paint-brush
Хадоопын дараах ертөнцөд орчин үеийн мэдээллийн нуурыг барих ньby@minio
4,545 уншилтууд
4,545 уншилтууд

Хадоопын дараах ертөнцөд орчин үеийн мэдээллийн нуурыг барих нь

by MinIO7m2024/09/13
Read on Terminal Reader

Хэтэрхий урт; Унших

Энэхүү нийтлэлд Hadoop HDFS-ийн өсөлт, уналт, өндөр хүчин чадалтай объект хадгалах нь яагаад том өгөгдлийн ертөнц дэх байгалийн залгамжлагч болох тухай өгүүлдэг.
featured image - Хадоопын дараах ертөнцөд орчин үеийн мэдээллийн нуурыг барих нь
MinIO HackerNoon profile picture


The Орчин үеийн Datalake нь хагас өгөгдлийн агуулах, хагас дата нуур бөгөөд бүх зүйлд объектын хадгалалтыг ашигладаг. Мэдээллийн агуулах барихын тулд объектын хадгалалтыг ашиглах нь Apache Iceberg, Apache Hudi, Delta Lake зэрэг Нээлттэй Хүснэгт Форматууд (OTFs)-ийн ачаар боломжтой болсон бөгөөд эдгээр нь нэг удаа хэрэгжсэний дараа объектын хадгалалтыг ашиглахад саадгүй болгодог. мэдээллийн агуулахын суурь хадгалах шийдэл. Эдгээр үзүүлэлтүүд нь ердийн өгөгдлийн агуулахад байхгүй байж болох боломжуудыг өгдөг - жишээлбэл, хормын хувилбарууд (цаг хугацааны аялал гэж нэрлэдэг), схемийн хувьсал, хуваалтууд, хуваалтын хувьсал, тэг хуулбар салбарлалт.


Байгууллагууд Орчин үеийн Datalake-ийг барьж байгуулахдаа бидний анхаарах ёстой гол хүчин зүйлүүд энд байна.


  1. Тооцоолол ба хадгалалтыг задлах
  2. Цул хүрээнээс шилдэг үүлдрийн хүрээ рүү шилжих
  3. Мэдээллийн төвийн нэгдэл - хэлтсийн шийдлүүдийг нэг корпорацийн шийдлээр солих
  4. Жижиг болон том файлууд/объектууд дээр тасралтгүй гүйцэтгэл
  5. Програм хангамжаар тодорхойлогдсон, үүлэнд суурилсан, хэвтээ байдлаар масштабтай шийдлүүд


Энэ нийтлэлд Hadoop HDFS-ийн өсөлт, уналт, өндөр хүчин чадалтай объект хадгалах нь яагаад том өгөгдлийн ертөнц дэх байгалийн залгамжлагч болох тухай өгүүлдэг.

Hadoop-ийг батлах

Интернетийн хэрэглээний программуудыг өргөжүүлснээр дэвшилтэт технологийн компаниудын хувьд өгөгдөл хадгалах, нэгтгэх анхны томоохон сорилтууд 15 жилийн өмнө эхэлсэн. Уламжлалт RDBMS (Харилцааны өгөгдлийн сангийн удирдлагын систем) нь их хэмжээний өгөгдөлд ойртохын тулд масштабтай байх боломжгүй байв. Дараа нь Hadoop хэмээх өндөр масштабтай загвар гарч ирэв. Hadoop загварт их хэмжээний өгөгдлийг кластерт хэд хэдэн хямд машинд хувааж, дараа нь зэрэгцээ боловсруулдаг. Эдгээр машин, зангилааны тоог аж ахуйн нэгжийн шаардлагад нийцүүлэн нэмэгдүүлж, багасгаж болно.


Hadoop нь нээлттэй эх сурвалж байсан бөгөөд том өгөгдөлтэй ажиллахад үнэтэй техник хангамж, дээд зэрэглэлийн процессор шаарддаг уламжлалт харилцааны мэдээллийн сангаас ялгаатай нь өртөг хэмнэлттэй загвар бүхий зардлын хэмнэлттэй барааны техник хангамж ашигласан. RDBMS загварт масштаблахад маш үнэтэй байсан тул аж ахуйн нэгжүүд түүхий өгөгдлийг устгаж эхэлсэн. Энэ нь хэд хэдэн векторын хувьд оновчтой бус үр дүнд хүргэсэн.


Үүнтэй холбогдуулан Hadoop нь RDBMS арга барилаас ихээхэн давуу талыг олгосон. Энэ нь гүйцэтгэлийг алдагдуулахгүйгээр зардлын үүднээс илүү өргөн цар хүрээтэй байсан.

Hadoop-ийн төгсгөл

Twitter, Facebook зэрэг олон нийтийн мэдээллийн хэрэгслээр үүсгэсэн өөрчлөлтийн өгөгдөл (CDC) болон урсгал мэдээлэл зэрэг шинэ технологиуд гарч ирснээр өгөгдлийг хэрхэн залгиж, хадгалахыг өөрчилсөн. Энэ нь илүү их хэмжээний өгөгдлийг боловсруулах, ашиглахад бэрхшээл учруулсан.


Гол сорилт бол багц боловсруулах явдал байв. Багц процессууд нь далд ажилладаг бөгөөд хэрэглэгчтэй харьцдаггүй. Hadoop нь маш том файлуудад багц боловсруулалт хийхэд үр дүнтэй байсан боловч жижиг файлууд нь үр ашиг, хоцрогдлын үүднээс хоёуланд нь зовж шаналж байсан нь аж ахуйн нэгжүүд янз бүрийн өгөгдлийн багцуудыг шингээж авах боловсруулалт, хэрэглээний тогтолцоог эрэлхийлснээр үүнийг хуучирсан. Багц, CDC, бодит цагийн хувьд жижиг.


Тооцоолох болон хадгалах санг салгах нь өнөөдөр зүгээр л утга учиртай. Хадгалах хэмжээ нь тооцооллоос араваас нэгээр илүү байх ёстой. Хадгалах цэг бүрт нэг тооцооллын зангилаа хэрэгтэй байгаа Hadoop ертөнцөд энэ нь маш үр ашиггүй юм. Тэдгээрийг салгах нь тус тусад нь тааруулж болно гэсэн үг юм. Тооцоолох цэгүүд нь харьяалалгүй бөгөөд илүү их CPU-ийн цөм болон санах ойгоор оновчтой болгох боломжтой. Хадгалах цэгүүд нь төлөвтэй бөгөөд илүү олон тооны нягт хөтчүүд болон өндөр зурвасын өргөнөөр оролт/гаралтыг оновчтой болгох боломжтой.


Аж ахуйн нэгжүүдийг задлах замаар дээд зэргийн эдийн засаг, менежментийг сайжруулах, өргөтгөх чадварыг сайжруулж, өмчлөлийн нийт өртөгийг нэмэгдүүлэх боломжтой.


HDFS энэ шилжилтийг хийж чадахгүй. Та өгөгдлийн байршлыг орхих үед Hadoop HDFS-ийн хүч чадал нь түүний сул тал болно. Hadoop нь өгөгдөл болон тооцооллыг хамтад нь байрлуулах шаардлагатай MapReduce тооцоололд зориулагдсан. Үүний үр дүнд Hadoop-д өөрийн ажлын хуваарь, нөөцийн менежер, хадгалах сан, тооцоолол хэрэгтэй. Энэ нь бүх зүйл уян хатан, хөнгөн, олон түрээслэгчтэй байдаг чингэлэгт суурилсан архитектуртай үндсэндээ нийцдэггүй.


Үүний эсрэгээр, MiniIO нь үүлэнд төрсөн бөгөөд Kubernetes-ээр дамжуулан контейнер болон зохион байгуулалтад зориулагдсан бөгөөд энэ нь хуучин HDFS инстанцуудыг ашиглахгүй байх үед шилжихэд тохиромжтой технологи юм.


Энэ нь орчин үеийн Datalake-ийг бий болгосон. Энэ нь Hadoop-оос өвлөн авсан барааны техник хангамжийн аргыг ашиглах давуу талтай боловч хадгалалт, тооцооллыг ялгаж салгаж, улмаар өгөгдлийг хэрхэн боловсруулах, дүн шинжилгээ хийх, хэрэглэхийг өөрчилдөг.

MiniIO ашиглан орчин үеийн дата нуур байгуулах

MiniIO нь эхнээс нь бүтээгдсэн өндөр хүчин чадалтай объект хадгалах систем юм. MiniIO-г бүтээсэн баг нь хадгалалтын талаарх сэтгэхүйгээ хөгжүүлэхийн өмнө хамгийн амжилттай файлын системүүдийн нэг болох GlusterFS-ийг бүтээжээ. Тэдний файлын системүүд болон ямар процессууд үнэтэй эсвэл үр ашиггүй байдаг талаар гүнзгий ойлголттой байсан нь MiniIO-ийн архитектурт мэдээлэл өгч, үйл явцын гүйцэтгэл, энгийн байдлыг хангасан.


Minio нь устгах кодчилол ашигладаг бөгөөд хадгалалтын үр ашгийг удирдах, уян хатан байдлыг хангах илүү сайн алгоритмуудыг өгдөг. Ерөнхийдөө энэ нь Hadoop кластерт 3 дахин их хуулбарлагдсанаас ялгаатай нь 1.5 дахин их байдаг. Энэ нь дангаараа аль хэдийн хадгалалтын үр ашгийг хангаж, Hadoop-той харьцуулахад зардлыг бууруулдаг.


MiniIO нь үүсгэн байгуулагдсан цагаасаа эхлэн үүлэн үйлдлийн загварт зориулагдсан болно. Үүний үр дүнд энэ нь нийтийн, хувийн, үндсэн, нүцгэн металл, зах гэсэн бүх үүлэн дээр ажилладаг. Энэ нь олон үүлэн болон эрлийз-үүлэнд байршуулахад тохиромжтой болгодог. Гибрид тохиргооны тусламжтайгаар MiniIO нь өгөгдлийн аналитик болон мэдээллийн шинжлэх ухааны ажлын ачааллыг дараах аргуудын дагуу шилжүүлэх боломжийг олгодог. Strangler инжирийн загвар Мартин Фаулер алдаршуулсан.


MiniIO нь IA өгөгдлийн дэд бүтэц болон бизнесийн тагнуул, өгөгдлийн аналитик, өгөгдлийн шинжлэх ухаан зэрэг бусад аналитик ачааллыг дэмжих чадвартай Орчин үеийн Datalake-ийн үндсэн барилгын материал болох хэд хэдэн шалтгааныг доор харуулав.

Орчин үеийн өгөгдөл бэлэн

Hadoop нь "бүтэцгүй өгөгдөл" нь том (GiB-ээс TiB хэмжээтэй) лог файл гэсэн утгатай өгөгдөлд зориулагдсан. Жинхэнэ бүтэцгүй өгөгдөл байдаг ерөнхий зориулалтын хадгалах платформ болгон ашиглах үед жижиг объектуудын тархалт (КБ-аас МБ) нь Hadoop HDFS-д ихээхэн сөргөөр нөлөөлдөг, учир нь нэрийн зангилаанууд хэзээ ч ийм загвараар масштабаар төлөвлөгддөггүй. MiniIO нь ямар ч файл/объектийн хэмжээ (8KiB-ээс 5TiB) дээр гарна.

Нээлттэй эх сурвалж

Hadoop-ийг нэвтрүүлсэн аж ахуйн нэгжүүд нээлттэй эхийн технологийг илүүд үзсэний үндсэн дээр үүнийг хийсэн. Шалгах чадвар, түгжигдэхээс ангид байх, олон арван мянган хэрэглэгчдийн тав тух нь бодит үнэ цэнэ юм. MiniIO нь мөн 100% нээлттэй эх сурвалж бөгөөд байгууллагууд өөрсдийн туршлагаа сайжруулахын зэрэгцээ зорилгодоо үнэнч байх боломжийг олгодог.

Энгийн

Энгийн байдал хэцүү. Үүнд хөдөлмөр, сахилга бат, хамгийн гол нь тууштай байх хэрэгтэй. MiniIO-ийн энгийн байдал нь домогт бөгөөд бидний програм хангамжийг ашиглах, ашиглах, шинэчлэх, масштаблахад хялбар болгох гүн ухааны амлалтын үр дүн юм. Hadoop-ийн шүтэн бишрэгчид хүртэл энэ нь төвөгтэй гэдгийг танд хэлэх болно. Бага зардлаар ихийг хийхийн тулд та MiniIO руу шилжих хэрэгтэй.

Гүйцэтгэгч

Hadoop нь том өгөгдөл дамжуулах чадвараараа алдартай болсон. Эдгээр нь сүүлийн арван жилийн туршид аж ахуйн нэгжийн түвшний аналитикийн жишиг үзүүлэлт байв. Дахиж үгүй. MiniIO олон талаараа батлагдсан жишиг үзүүлэлтүүд Энэ нь Hadoop-оос илүү хурдан юм. Энэ нь таны Орчин үеийн Datalake-ийн гүйцэтгэл сайжирна гэсэн үг.

Хөнгөн жинтэй

MiniIO-ийн серверийн хоёртын файл нь бүгд <100MB байна. Хэмжээтэй хэдий ч энэ нь дата төвийг ажиллуулахад хангалттай хүчтэй боловч ирмэг дээр тав тухтай амьдрахад хангалттай жижиг хэвээр байна. Hadoop ертөнцөд ийм хувилбар байдаггүй. Энэ нь аж ахуйн нэгжүүдэд юу гэсэн үг вэ гэвэл таны S3 програмууд хаана ч, хэзээ ч, ижил API ашиглан өгөгдөлд хандах боломжтой гэсэн үг юм. MiniIO-г захын байршилд байрлуулснаар та өгөгдлийг захад авч шүүж, MiniIO-ийн хуулбарлах чадварыг ашиглан нэгтгэх болон цаашдын дүн шинжилгээ хийх зорилгоор орчин үеийн Datalake руу илгээх боломжтой.

Уян хатан

MiniIO нь өгөгдлийг объект тус бүрээр, шугаман дээр устгах кодчилолоор хамгаалдаг бөгөөд энэ нь хуулбарласны дараа гарч ирсэн, хэзээ ч үрчилж аваагүй HDFS хувилбаруудаас хамаагүй илүү үр дүнтэй байдаг. Нэмж дурдахад, MiniIO-ийн битрот илрүүлэгч нь эвдэрсэн өгөгдлийг хэзээ ч уншихгүй, гэмтсэн объектыг шууд барьж, эдгээх боломжийг олгодог. MiniIO нь бүс хоорондын идэвхтэй, идэвхтэй хуулбарыг дэмждэг. Эцэст нь, MiniIO нь Legal Hold болон Retention (Засаглал ба Нийцлийн горимуудтай) хоёуланг нь санал болгодог объект түгжих бүрэн тогтолцоог дэмждэг.

Програм хангамжийг тодорхойлсон

Hadoop HDFS-ийн залгамжлагч нь техник хангамжийн хэрэгсэл биш; Энэ нь барааны техник хангамж дээр ажилладаг програм хангамж юм. Энэ бол MiniIO - програм хангамж юм. Hadoop HDFS-ийн нэгэн адил MiniIO нь түүхий эд серверийн давуу талыг бүрэн ашиглах зорилготой юм. NVMe хөтчүүд болон 100 GbE сүлжээг ашиглах чадвартай MiniIO нь дата төвийг багасгаж, үйл ажиллагааны үр ашиг, удирдах чадварыг сайжруулж чадна.

Аюулгүй

MiniIO нь өгөгдлийг хаана ч байсан нислэгийн болон амарч байх үед хамгаалахын тулд сервер талын олон, боловсронгуй шифрлэлтийн схемүүдийг дэмждэг. MiniIO-ийн арга барил нь нууцлал, бүрэн бүтэн байдал, жинхэнэ байдлыг баталгаажуулдаг бөгөөд гүйцэтгэлийн нэмэлт зардал багатай байдаг. Сервер талын болон клиент талын шифрлэлтийг AES-256-GCM, ChaCha20-Poly1305, AES-CBC ашиглан дэмждэг бөгөөд програмын нийцтэй байдлыг хангадаг. Цаашилбал, MiniIO нь салбартаа тэргүүлэгч гол удирдлагын системийг (KMS) дэмждэг.

Hadoop-оос MiniIO руу шилжиж байна

MiniIO баг нь HDFS-ээс MiniIO руу шилжих туршлагатай. Аж ахуйн нэгжийн лиценз худалдаж авсан хэрэглэгчид манай инженерүүдээс тусламж авах боломжтой. HDFS-ийг солихын тулд MiniIO ашиглах талаар илүү ихийг мэдэхийг хүсвэл шалгана уу энэ нөөцийн цуглуулга .

Дүгнэлт

Энэ үед аж ахуйн нэгж бүр мэдээллийн байгууллага юм. Энэ өгөгдлийг хадгалах, дараагийн шинжилгээ нь саадгүй, өргөтгөх боломжтой, аюулгүй, гүйцэтгэлтэй байх ёстой. Spark гэх мэт Hadoop экосистемээс бий болгосон аналитик хэрэгслүүд нь объектын хадгалалтад суурилсан мэдээллийн нууруудтай хослуулснаар илүү үр дүнтэй бөгөөд үр дүнтэй байдаг. Flink гэх мэт технологиуд нь HDFS загварт сайн ажиллаагүй багц боловсруулалтаас гадна урсгалын нэг удаагийн ажиллах хугацааг хангадаг тул ерөнхий гүйцэтгэлийг сайжруулдаг. Apache Arrow гэх мэт фреймворкууд нь өгөгдөл хэрхэн хадгалагдаж, боловсруулагддагийг дахин тодорхойлж, Iceberg болон Hudi хүснэгтийн форматууд нь өгөгдлийг хэрхэн үр ашигтайгаар хайдаг болохыг дахин тодорхойлж байна.


Эдгээр технологиуд бүгд тооцоолол, хадгалалтыг салгаж, ажлын ачааллыг оновчтой болгодог орчин үеийн, объектын хадгалалтад суурилсан мэдээллийн нуурыг шаарддаг. Хэрэв танд орчин үеийн дата нуураа барих талаар асуух зүйл байвал бидэнтэй холбогдоно уу [email protected] эсвэл манай дээр Сул суваг.

L O A D I N G
. . . comments & more!

About Author

MinIO HackerNoon profile picture
MinIO@minio
MinIO is a high-performance, cloud-native object store that runs anywhere (public cloud, private cloud, colo, onprem).

TAG ҮҮ

ЭНЭ ӨГҮҮЛЛИЙГ ТОЛГОЙЛУУЛСАН...