paint-brush
ポストHadoopの世界における最新のデータレイクの設計@minio
新しい歴史

ポストHadoopの世界における最新のデータレイクの設計

MinIO7m2024/09/13
Read on Terminal Reader

長すぎる; 読むには

このホワイト ペーパーでは、Hadoop HDFS の盛衰と、なぜ高性能オブジェクト ストレージがビッグ データの世界で自然な後継者となるのかについて説明します。
featured image - ポストHadoopの世界における最新のデータレイクの設計
MinIO HackerNoon profile picture


最新のデータレイクは、半分がデータ ウェアハウス、半分がデータ レイクで、すべてにオブジェクト ストレージを使用します。データ ウェアハウスを構築するためにオブジェクト ストレージを使用するのは、Apache Iceberg、Apache Hudi、Delta Lake などの Open Table Formats (OTF) によって可能になります。これらの仕様を実装すると、オブジェクト ストレージをデータ ウェアハウスの基盤となるストレージ ソリューションとしてシームレスに使用できるようになります。これらの仕様では、スナップショット (タイム トラベルとも呼ばれます)、スキーマの進化、パーティション、パーティションの進化、ゼロ コピー ブランチなど、従来のデータ ウェアハウスには存在しない機能も提供されます。


組織が最新のデータレイクを構築する際には、考慮すべき重要な要素をいくつか挙げます。


  1. コンピューティングとストレージの分離
  2. モノリシックフレームワークからベストオブブリードフレームワークへの移行
  3. データセンターの統合 - 部門別ソリューションを単一の企業ソリューションに置き換える
  4. 小さなファイルやオブジェクトから大きなファイルやオブジェクトまで、シームレスなパフォーマンスを実現
  5. 水平方向に拡張可能なソフトウェア定義のクラウドネイティブ ソリューション


このホワイト ペーパーでは、Hadoop HDFS の盛衰と、なぜ高性能オブジェクト ストレージがビッグ データの世界で自然な後継者となるのかについて説明します。

Hadoopの導入

インターネット アプリケーションの拡大に伴い、先進テクノロジー企業にとって最初の大きなデータ ストレージと集約の課題が 15 年前に始まりました。従来の RDBMS (リレーショナル データベース管理システム) では、大量のデータに対応できるほど拡張できませんでした。そこで登場したのが、拡張性に優れたモデルである Hadoop です。Hadoop モデルでは、大量のデータがクラスター内の複数の安価なマシンに分割され、並列処理されます。これらのマシンまたはノードの数は、企業の要件に応じて増減できます。


Hadoop はオープンソースであり、コスト効率の高いコモディティ ハードウェアを使用していました。これは、ビッグ データの処理に高価なハードウェアとハイエンド プロセッサを必要とする従来のリレーショナル データベースとは異なり、コスト効率の高いモデルを提供しました。RDBMS モデルでは拡張に非常にコストがかかるため、企業は生データを削除し始めました。これにより、さまざまなベクトルで最適ではない結果が生じました。


この点において、Hadoop は RDBMS アプローチに比べて大きな利点がありました。パフォーマンスを犠牲にすることなく、コストの観点からよりスケーラブルでした。

Hadoop の終焉

主に Twitter や Facebook などのソーシャル メディア企業から生成される変更データ キャプチャ (CDC) やストリーミング データなどの新しいテクノロジの登場により、データの取り込みと保存の方法が変化しました。これにより、さらに大量のデータの処理と使用に関する課題が生じました。


主な課題はバッチ処理でした。バッチ処理はバックグラウンドで実行され、ユーザーと対話しません。Hadoop は、非常に大きなファイルに関してはバッチ処理が効率的でしたが、小さなファイルに関しては効率性とレイテンシの両方の観点から問題があり、企業がバッチ、CDC、リアルタイムで大小さまざまなデータセットを取り込むことができる処理および消費フレームワークを求めていたため、事実上時代遅れになっていました。


コンピューティングとストレージを分離することは、今日では理にかなっています。ストレージはコンピューティングを 10 倍も上回る必要があります。これは、ストレージ ノードごとに 1 つのコンピューティング ノードが必要な Hadoop の世界では、非常に非効率的です。これらを分離すると、個別に調整できるようになります。コンピューティング ノードはステートレスであり、CPU コアとメモリを増やすことで最適化できます。ストレージ ノードはステートフルであり、高密度ドライブの数を増やし、帯域幅を広くすることで I/O を最適化できます。


分散化により、企業は優れた経済性、より優れた管理性、拡張性の向上、および総所有コストの強化を実現できます。


HDFS ではこの移行はできません。データのローカリティを離れると、Hadoop HDFS の強みが弱みに変わります。Hadoop は MapReduce コンピューティング用に設計されており、データとコンピューティングを同じ場所に配置する必要があります。その結果、Hadoop には独自のジョブ スケジューラ、リソース マネージャ、ストレージ、コンピューティングが必要になります。これは、すべてが弾力性があり、軽量で、マルチテナントであるコンテナ ベースのアーキテクチャとは根本的に互換性がありません。


対照的に、MinIO はクラウド ネイティブとして生まれ、Kubernetes を介したコンテナとオーケストレーション用に設計されているため、従来の HDFS インスタンスを廃止するときに移行するのに最適なテクノロジーです。


これにより、モダン データレイクが誕生しました。これは、Hadoop から継承されたコモディティ ハードウェア アプローチを活用しながら、ストレージとコンピューティングを分離することで、データの処理、分析、および消費の方法を変えています。

MinIO で最新のデータ レイクを構築する

MinIO は、スケーラブルでクラウドネイティブになるようにゼロから構築された高性能オブジェクト ストレージ システムです。MinIO を開発したチームは、ストレージに関する考え方を進化させる前に、最も成功したファイル システムの 1 つである GlusterFS も構築しました。ファイル システムと、コストがかかったり非効率的なプロセスに関する深い理解が MinIO のアーキテクチャに反映され、プロセスのパフォーマンスとシンプルさが実現されました。


Minio は、消失訂正符号を使用し、ストレージ効率を管理して復元力を提供するための優れたアルゴリズム セットを提供します。通常、Hadoop クラスターの 3 回のコピーとは異なり、1.5 回のコピーです。これだけでも、ストレージ効率が提供され、Hadoop と比較してコストが削減されます。


MinIOは当初からクラウド運用モデル向けに設計されました。そのため、パブリック、プライベート、オンプレミス、ベアメタル、エッジなど、あらゆるクラウドで実行できます。そのため、マルチクラウドやハイブリッドクラウドの導入に最適です。ハイブリッド構成のMinIOは、次のようなアプローチに従ってデータ分析やデータサイエンスのワークロードを移行できます。絞め殺しのイチジクのパターンマーティン・ファウラーによって普及されました。


MinIO が、IA データ インフラストラクチャだけでなく、ビジネス インテリジェンス、データ分析、データ サイエンスなどのその他の分析ワークロードをサポートできる最新のデータレイクの基本的な構成要素である理由は、他にもいくつかあります。以下にそのいくつかを示します。

最新のデータに対応

Hadoop は、「非構造化データ」が大きな (GiB から TiB のサイズ) ログ ファイルを意味するデータ専用に構築されました。真の非構造化データが使用される汎用ストレージ プラットフォームとして使用する場合、ネーム ノードはこのような方法でスケーリングするように設計されていないため、小さなオブジェクト (KB から MB) の普及により Hadoop HDFS は大幅に損なわれます。MinIO は、あらゆるファイル/オブジェクト サイズ (8KiB から 5TiB) で優れています。

オープンソース

Hadoop を採用した企業は、オープンソース テクノロジーを好んで採用しました。検査機能、ロックインからの解放、そして何万人ものユーザーから得られる安心感は、真の価値があります。MinIO も 100% オープンソースであるため、組織は目標に忠実でありながら、エクスペリエンスを向上させることができます。

単純

シンプルさは難しいものです。作業、規律、そして何よりもコミットメントが必要です。MinIO のシンプルさは伝説的であり、ソフトウェアの導入、使用、アップグレード、拡張を容易にするという哲学的なコミットメントの結果です。Hadoop のファンでさえ、Hadoop は複雑だと言うでしょう。より少ない労力でより多くのことを実現するには、MinIO に移行する必要があります。

高性能

Hadoopはビッグデータのパフォーマンスを提供する能力によって注目を集めました。10年近く、Hadoopはエンタープライズグレードの分析のベンチマークでした。しかし、もう違います。MinIOは複数の分野でその能力を証明しました。 ベンチマークHadoop よりも大幅に高速です。つまり、モダン データレイクのパフォーマンスが向上します。

軽量

MinIO のサーバー バイナリは 100 MB 未満です。そのサイズにもかかわらず、データ センターを実行するのに十分なパワーがあり、エッジで快適に使用できるほど小さいです。Hadoop の世界にはこのような代替手段はありません。企業にとって、これは S3 アプリケーションがいつでもどこでも同じ API を使用してデータにアクセスできることを意味します。MinIO をエッジ ロケーションに展開すると、エッジでデータをキャプチャしてフィルター処理し、MinIO のレプリケーション機能を使用してデータを最新のデータレイクに送信して集約し、さらに分析することができます。

回復力のある

MinIO は、オブジェクトごとのインライン消去コーディングでデータを保護します。これは、レプリケーション後に登場して採用されなかった HDFS の代替手段よりもはるかに効率的です。さらに、MinIO のビットロット検出により、破損したデータが読み取られることがなくなり、破損したオブジェクトが即座にキャプチャされて修復されます。MinIO は、クロスリージョンのアクティブ/アクティブ レプリケーションもサポートしています。最後に、MinIO は、法的保留と保持の両方 (ガバナンス モードとコンプライアンス モード付き) を提供する完全なオブジェクト ロック フレームワークをサポートしています。

ソフトウェア定義

Hadoop HDFS の後継はハードウェア アプライアンスではなく、コモディティ ハードウェア上で実行されるソフトウェアです。MinIO はまさにソフトウェアです。Hadoop HDFS と同様に、MinIO はコモディティ サーバーを最大限に活用するように設計されています。NVMe ドライブと 100 GbE ネットワークを活用できる MinIO は、データ センターを縮小し、運用効率と管理性を向上させることができます。

安全な

MinIO は、複数の高度なサーバー側暗号化方式をサポートしており、転送中または保存中のデータ (場所を問わず) を保護します。MinIO のアプローチは、パフォーマンス オーバーヘッドを無視できるレベルで、機密性、整合性、信頼性を保証します。サーバー側とクライアント側の暗号化は、AES-256-GCM、ChaCha20-Poly1305、AES-CBC を使用してサポートされており、アプリケーションの互換性を確保します。さらに、MinIO は業界をリードするキー管理システム (KMS) をサポートしています。

Hadoop から MinIO への移行

MinIOチームはHDFSからMinIOへの移行に関する専門知識を持っています。エンタープライズライセンスを購入したお客様は、当社のエンジニアからサポートを受けることができます。HDFSをMinIOで置き換える方法の詳細については、こちらをご覧ください。このリソースのコレクション

結論

現時点では、すべての企業はデータ企業です。そのデータの保存とその後の分析は、シームレスで、スケーラブルで、安全で、パフォーマンスに優れている必要があります。Spark などの Hadoop エコシステムによって生み出された分析ツールは、オブジェクト ストレージ ベースのデータ レイクと組み合わせると、より効果的かつ効率的になります。Flink などのテクノロジは、ストリーミングとバッチ処理に単一のランタイムを提供するため、全体的なパフォーマンスが向上します。これは、HDFS モデルではうまく機能しませんでした。Apache Arrow などのフレームワークは、データの保存と処理の方法を再定義しており、Iceberg と Hudi は、テーブル形式がデータの効率的なクエリを可能にする方法を再定義しています。


これらのテクノロジーはすべて、コンピューティングとストレージが分離され、ワークロードが最適化された最新のオブジェクトストレージベースのデータレイクを必要とします。独自の最新のデータレイクを設計する際にご質問がある場合は、お気軽にお問い合わせください。こんにちはまたは当社のスラックチャネル。