paint-brush
Post-Hadoop Dünyasında Müasir Məlumat Gölünün Memarlığıtərəfindən@minio
Yeni tarix

Post-Hadoop Dünyasında Müasir Məlumat Gölünün Memarlığı

tərəfindən MinIO7m2024/09/13
Read on Terminal Reader

Çox uzun; Oxumaq

Bu məqalə Hadoop HDFS-in yüksəlişi və enişindən və nə üçün yüksək performanslı obyekt yaddaşının böyük verilənlər dünyasında təbii vari olduğundan bəhs edir.
featured image - Post-Hadoop Dünyasında Müasir Məlumat Gölünün Memarlığı
MinIO HackerNoon profile picture


The Müasir Datalake yarım məlumat anbarı və bir yarım data göldür və hər şey üçün obyekt yaddaşından istifadə edir. Məlumat anbarının qurulması üçün obyekt yaddaşının istifadəsi Apache Aysberq, Apache Hudi və Delta Gölü kimi Açıq Cədvəl Formatları (OTF) vasitəsilə mümkün olur ki, bu spesifikasiyalar həyata keçirildikdən sonra obyektin saxlanması kimi istifadə edilməsini qüsursuz edir. məlumat anbarı üçün əsas saxlama həlli. Bu spesifikasiyalar həmçinin adi Məlumat Anbarında mövcud olmayan funksiyaları təmin edir - məsələn, anlıq görüntülər (həmçinin vaxt səyahəti kimi tanınır), sxem təkamülü, bölmələr, bölmə təkamülü və sıfır nüsxə budaqlanması.


Təşkilatlar Müasir Datalakes qurarkən, onların nəzərə almalı olduqlarını düşündüyümüz əsas amillərdən bəziləri bunlardır:


  1. Hesablama və saxlama hissələrinin ayrılması
  2. Monolit çərçivələrdən ən yaxşı cins çərçivələrə miqrasiya
  3. Məlumat mərkəzinin konsolidasiyası - departament həllərini vahid korporativ həll ilə əvəz edin
  4. Kiçik və böyük fayllar/obyektlər arasında qüsursuz performans
  5. Proqram təminatı ilə müəyyən edilmiş, üfüqi olaraq miqyas alan bulud-doğma həllər


Bu yazı Hadoop HDFS-in yüksəlişi və enişindən danışır və nə üçün yüksək performanslı obyekt yaddaşının böyük verilənlər dünyasında təbii varisidir.

Hadoop-un qəbulu

İnternet tətbiqlərinin genişlənməsi ilə qabaqcıl texnologiya şirkətləri üçün ilk böyük məlumatların saxlanması və yığılması problemləri 15 il əvvəl başladı. Ənənəvi RDBMS (Relational Database Management System) böyük həcmdə məlumatlara yaxınlaşmaq üçün ölçülənə bilməz. Daha sonra yüksək miqyaslı model olan Hadoop gəldi. Hadoop modelində məlumatların böyük miqdarı bir çoxluqda bir neçə ucuz maşına bölünür və sonra paralel olaraq emal edilir. Bu maşınların və ya qovşaqların sayı müəssisənin tələblərinə uyğun olaraq artırıla və ya azaldıla bilər.


Hadoop açıq mənbə idi və böyük verilənlərlə işləmək üçün bahalı avadanlıq və yüksək səviyyəli prosessorlar tələb edən ənənəvi relational verilənlər bazalarından fərqli olaraq sərfəli model təmin edən sərfəli əmtəə avadanlıqlarından istifadə edirdi. RDBMS modelində miqyaslandırma çox baha olduğu üçün müəssisələr xam məlumatları silməyə başladılar. Bu, bir sıra vektorlar üzrə suboptimal nəticələrə gətirib çıxardı.


Bu baxımdan, Hadoop RDBMS yanaşması üzərində əhəmiyyətli bir üstünlük təmin etdi. Performansdan ödün vermədən, xərc baxımından daha miqyaslı idi.

Hadoopun Sonu

Dəyişiklik məlumatlarının tutulması (CDC) və ilk növbədə Twitter və Facebook kimi sosial media şirkətlərindən yaradılan axın məlumatları kimi daha yeni texnologiyaların yaranması məlumatların qəbulu və saxlanma qaydasını dəyişdi. Bu, daha böyük həcmli məlumatların işlənməsi və istehlakında çətinliklərə səbəb oldu.


Əsas problem toplu emal ilə bağlı idi. Toplu proseslər fonda işləyir və istifadəçi ilə əlaqə yaratmır. Hadoop çox böyük fayllara gəldikdə toplu emalda səmərəli idi, lakin daha kiçik fayllardan əziyyət çəkdi - həm səmərəlilik, həm də gecikmə perspektivi - müəssisələr böyük və müxtəlif verilənlər toplularını qəbul edə bilən emal və istehlak çərçivələrini axtardıqları üçün onu effektiv şəkildə köhnəldi. toplu, CDC və real vaxtda kiçik.


Hesablama və yaddaşı ayırmaq bu gün sadəcə məna kəsb edir. Yaddaş hesablamanı 10-a qədər qabaqlamalıdır. Bu, Hadoop dünyasında çox səmərəsizdir, burada hər saxlama qovşağı üçün bir hesablama node lazımdır. Onları ayırmaq, ayrı-ayrılıqda sazlana biləcəyini bildirir. Hesablama qovşaqları vətəndaşsızdır və daha çox CPU nüvəsi və yaddaşla optimallaşdırıla bilər. Saxlama qovşaqları vəziyyətlidir və daha çox sayda daha sıx disklər və daha yüksək bant genişliyi ilə I/O optimallaşdırıla bilər.


Ayrı-ayrılıqda müəssisələr daha yüksək iqtisadiyyata, daha yaxşı idarə oluna bilənliyə, təkmilləşdirilmiş miqyaslılığa və ümumi mülkiyyət dəyərinə nail ola bilərlər.


HDFS bu keçidi edə bilməz. Məlumat lokalizasiyasını tərk etdiyiniz zaman Hadoop HDFS-in gücü onun zəifliyinə çevrilir. Hadoop MapReduce hesablamaları üçün nəzərdə tutulmuşdu, burada verilənlər və hesablamalar birlikdə yerləşməlidir. Nəticədə Hadoop-un öz iş planlayıcısına, resurs menecerinə, yaddaşa və hesablamaya ehtiyacı var. Bu, hər şeyin elastik, yüngül və çox kirayəçi olduğu konteyner əsaslı arxitekturalarla əsaslı şəkildə uyğun gəlmir.


Bunun əksinə olaraq, MiniIO buludda doğulmuşdur və Kubernetes vasitəsilə konteynerlər və orkestrasiya üçün nəzərdə tutulmuşdur ki, bu da onu köhnə HDFS nümunələrini təqaüdə çıxararkən keçid üçün ideal texnologiya edir.


Bu, Müasir Datalake-in yaranmasına səbəb oldu. O, Hadoop-dan miras qalmış əmtəə avadanlıqları yanaşmasından istifadə edir, lakin saxlama və hesablamaları ayırır - bununla da məlumatların işlənməsi, təhlili və istehlakı necə dəyişir.

MiniIO ilə Müasir Məlumat Gölünün qurulması

MiniIO, miqyaslana bilən və buludda yerli olmaq üçün sıfırdan qurulmuş yüksək performanslı obyekt saxlama sistemidir. MiniIO-nu quran komanda, yaddaşa dair düşüncələrini təkmilləşdirməzdən əvvəl ən uğurlu fayl sistemlərindən biri olan GlusterFS-i də qurdu. Onların fayl sistemlərini və hansı proseslərin bahalı və ya səmərəsiz olduğunu dərindən başa düşmələri MiniIO-nun arxitekturasını məlumatlandıraraq, prosesdə performans və sadəlik təmin etdi.


Minio silmə kodlaşdırmasından istifadə edir və yaddaşın səmərəliliyini idarə etmək və davamlılığı təmin etmək üçün daha yaxşı alqoritmlər dəsti təqdim edir. Tipik olaraq, Hadoop klasterlərindəki 3 dəfədən fərqli olaraq 1,5 dəfə nüsxələnir. Yalnız bu, Hadoop ilə müqayisədə artıq saxlama səmərəliliyini təmin edir və xərcləri azaldır.


Yarandığı gündən MiniIO bulud əməliyyat modeli üçün nəzərdə tutulmuşdur. Nəticədə, o, hər bir buludda işləyir - ictimai, özəl, yerli, çılpaq metal və kənar. Bu, onu çoxlu bulud və hibrid-bulud yerləşdirmələri üçün ideal edir. Hibrid konfiqurasiya ilə MiniIO, məlumat analitikası və məlumat elmi iş yüklərinin aşağıdakı kimi yanaşmalara uyğun olaraq köçürülməsinə imkan verir. Strangler əncir nümunəsi Martin Fowler tərəfindən populyarlaşdı.


Aşağıda, MiniIO-nun IA məlumat infrastrukturunuzu, eləcə də biznes kəşfiyyatı, məlumat analitikası və məlumat elmi kimi digər analitik iş yüklərini dəstəkləyə bilən Müasir Datalake üçün əsas tikinti bloku olmasının bir neçə başqa səbəbləri var.

Müasir Data Hazır

Hadoop, “strukturlaşdırılmamış məlumat”ın böyük (GiB-dən TiB ölçülü) log faylları mənasını verdiyi məlumatlar üçün nəzərdə tutulmuşdur. Həqiqi strukturlaşdırılmamış məlumatların oynandığı ümumi təyinatlı saxlama platforması kimi istifadə edildikdə, kiçik obyektlərin yayılması (KB-dan MB) Hadoop HDFS-ni xeyli pisləşdirir, çünki ad qovşaqları heç vaxt bu şəkildə miqyaslanmaq üçün nəzərdə tutulmayıb. MiniIO istənilən fayl/obyekt ölçüsündə (8KiB-dən 5TiB) üstündür.

Açıq Mənbə

Hadoop-u qəbul edən müəssisələr bunu açıq mənbə texnologiyalarına üstünlük verərək etdilər. Yoxlama qabiliyyəti, kilidlənmədən azad olmaq və on minlərlə istifadəçidən gələn rahatlıq real dəyərə malikdir. MiniIO həmçinin 100% açıq mənbədir və təşkilatların öz təcrübələrini təkmilləşdirərkən məqsədlərinə sadiq qalmasını təmin edir.

Sadə

Sadəlik çətindir. Bu iş, nizam-intizam və hər şeydən əvvəl öhdəlik tələb edir. MiniIO-nun sadəliyi əfsanəvidir və proqram təminatımızı yerləşdirməyi, istifadə etməyi, təkmilləşdirməyi və miqyasını asanlaşdırmaq üçün fəlsəfi öhdəliyin nəticəsidir. Hətta Hadoop-un pərəstişkarları bunun mürəkkəb olduğunu söyləyəcəklər. Daha az xərclə daha çox iş görmək üçün siz MiniIO-ya köçməlisiniz.

İfaçı

Hadoop böyük məlumat performansını təqdim etmək qabiliyyətinə görə məşhurlaşdı. Onlar on ilin ən yaxşı hissəsi üçün müəssisə səviyyəli analitika üçün etalon idi. Artıq yox. MiniIO bir çox cəhətdən sübut edilmişdir meyarlar Hadoop-dan maddi cəhətdən daha sürətli olduğunu. Bu, Müasir Datalake üçün daha yaxşı performans deməkdir.

Yüngül

MiniIO-nun server binarının hamısı <100MB-dır. Ölçüsünə baxmayaraq, məlumat mərkəzini idarə etmək üçün kifayət qədər güclüdür, lakin kənarda rahat yaşamaq üçün kifayət qədər kiçikdir. Hadoop dünyasında belə bir alternativ yoxdur. Bunun müəssisələr üçün mənası odur ki, S3 proqramlarınız istənilən yerdə, istənilən vaxt və eyni API ilə məlumatlara daxil ola bilər. MiniIO-nu kənar bir yerə yerləşdirməklə siz kənardakı məlumatları tuta və süzgəcdən keçirə və toplama və sonrakı analitika üçün onları Müasir Datalake-ə göndərmək üçün MiniIO-nun təkrarlama imkanlarından istifadə edə bilərsiniz.

Davamlı

MiniIO, məlumatları hər bir obyekt, daxili silmə kodlaşdırması ilə qoruyur, bu, replikasiyadan sonra gələn və heç vaxt qəbul olunmayan HDFS alternativlərindən daha səmərəlidir. Bundan əlavə, MiniIO-nun bitrot aşkarlanması onun heç vaxt pozulmuş məlumatları oxumayacağına zəmanət verir - tez pozulmuş obyektləri tutmaq və müalicə etmək. MiniIO həmçinin regionlararası, aktiv-aktiv replikasiyanı dəstəkləyir. Nəhayət, MiniIO həm Legal Saxlama, həm də Saxlama (İdarəetmə və Uyğunluq rejimləri ilə) təklif edən tam obyekt kilidləmə çərçivəsini dəstəkləyir.

Proqram təminatı müəyyən edilmişdir

Hadoop HDFS-in varisi hardware cihazı deyil; əmtəə avadanlıqları üzərində işləyən proqramdır. MiniIO budur - proqram təminatı. Hadoop HDFS kimi, MiniIO da əmtəə serverlərindən tam istifadə etmək üçün nəzərdə tutulub. NVMe disklərindən və 100 GbE şəbəkəsindən istifadə etmək qabiliyyəti ilə MiniIO məlumat mərkəzini kiçilə bilər - əməliyyat səmərəliliyini və idarə oluna bilənliyini artırır.

Təhlükəsiz

MiniIO məlumatların harada olmasından asılı olmayaraq uçuşda və ya istirahətdə qorunması üçün çoxsaylı, mürəkkəb server tərəfi şifrələmə sxemlərini dəstəkləyir. MiniIO-nun yanaşması cüzi performans yükü ilə məxfilik, bütövlük və orijinallığı təmin edir. Tətbiq uyğunluğunu təmin edən AES-256-GCM, ChaCha20-Poly1305 və AES-CBC istifadə edərək server tərəfi və müştəri tərəfi şifrələməsi dəstəklənir. Bundan əlavə, MiniIO sənayedə aparıcı əsas idarəetmə sistemlərini (KMS) dəstəkləyir.

Hadoop-dan MiniIO-ya köçür

MiniIO komandası HDFS-dən MiniIO-ya keçiddə təcrübəyə malikdir. Müəssisə lisenziyası alan müştərilər mühəndislərimizdən kömək ala bilərlər. HDFS-i əvəz etmək üçün MiniIO-dan istifadə haqqında ətraflı öyrənmək üçün yoxlayın bu resurslar toplusu .

Nəticə

Hər bir müəssisə bu nöqtədə bir məlumat müəssisəsidir. Həmin məlumatların saxlanması və sonrakı təhlili qüsursuz, genişlənə bilən, təhlükəsiz və performanslı olmalıdır. Spark kimi Hadoop ekosistemi tərəfindən yaradılan analitik alətlər obyekt saxlama əsaslı məlumat gölləri ilə birləşdirildikdə daha effektiv və səmərəli olur. Flink kimi texnologiyalar ümumi performansı yaxşılaşdırır, çünki bu, HDFS modelində yaxşı işləməyən axın üçün tək iş vaxtı, eləcə də toplu emal təmin edir. Apache Arrow kimi çərçivələr məlumatların necə saxlandığını və emal edildiyini, Iceberg və Hudi isə cədvəl formatlarının verilənlərin effektiv sorğulanmasına necə imkan verdiyini yenidən müəyyənləşdirir.


Bu texnologiyaların hamısı müasir, obyekt saxlama əsaslı məlumat gölünü tələb edir, burada hesablama və saxlama parçalanır və iş yükü optimallaşdırılır. Öz müasir data gölünüzün memarlığı ilə bağlı hər hansı sualınız varsa, bizimlə əlaqə saxlamaqdan çəkinməyin [email protected] ya da bizim Sülh kanal.

L O A D I N G
. . . comments & more!

About Author

MinIO HackerNoon profile picture
MinIO@minio
MinIO is a high-performance, cloud-native object store that runs anywhere (public cloud, private cloud, colo, onprem).

ETİKET ASIN

BU MƏQALƏ TƏQDİM EDİLMİŞDİR...