現代のデータ環境では、構造化データと非構造化データをシームレスに統合し、簡単に拡張でき、効率的なAI/MLワークロードを実現する新しいタイプのインフラストラクチャが必要です。 あらゆるデータ ニーズに対応する中央ハブを提供します。ただし、効果的なデータ レイクの構築と管理は複雑になる場合があります。 最新のデータレイク このブログ記事では、現在のアプローチを最適化できる 3 つの強力なツールについて詳しく説明します。 、 および MinIO。以下の手順では、これらのサービスをシームレスに組み合わせて、AI/ML ワークロード向けに特別に最適化された堅牢なクラウドネイティブ データ レイク アーキテクチャを作成する方法について説明します。 アパッチ アイスバーグ 表形式、  Tabular とは何ですか?  Tabular は、Apache Iceberg のオリジナル作成者によって作成されたデータ プラットフォームです。任意のコンピューティング レイヤーに接続できる独立したユニバーサル ストレージ プラットフォームを提供するように設計されており、データ ベンダーのロックインを排除します。この機能は最新のデータ スタックにとって重要であり、ユーザーは特定のベンダーの古いツール セットや不一致なツール セットに縛られることなく、クラス最高のコンピューティング ツールとストレージ ツールを選択できます。 で MinIO と Iceberg の統合であり、Tabular によって拡張できます。Tabular を使用すると、MinIO に保存されている Iceberg データの管理とクエリを実行でき、スケーラブルで高性能なクラウド ネイティブな方法で構造化データを保存および管理できます。これらの Kubernetes ネイティブ コンポーネントは、ほとんど摩擦なくスムーズに連携し、互いの機能を活用して大規模に実行します。 建築  Hadoop のファイル IO ではなく S3FileIO を使用する理由は何ですか? この実装はIcebergのS3FileIOを活用しています。S3FileIOはいくつかの理由からHadoopのファイルIOよりも優れていると考えられています。そのいくつかについてはすでに説明しました。 : 他の場所 : Iceberg の S3FileIO は、クラウド ネイティブ ストレージで動作するように設計されています。 クラウド ストレージ向けに最適化  Icebergは MinIO バケット内の複数のプレフィックスにファイルを分散することで、S3 関連の IO 操作のスロットルを最小限に抑え、スループットを最大化できます。 スループットの向上とスロットリングの最小化: オブジェクトストアロケーションプロバイダー アイスバーグは パフォーマンスに影響を与える可能性のある冗長な一貫性チェックを排除することで、厳密な一貫性を最大限に活用します。 厳格な一貫性： 更新しました  IcebergのS3FileIOは、 このアルゴリズムは、データ ファイルの各部分が準備でき次第、各部分を並行してアップロードするため、ローカル ディスクの使用量が減少し、アップロード速度が向上します。 プログレッシブマルチパートアップロード： プログレッシブマルチパートアップロード  Icebergでは S3 API 書き込みでは、アップロードされたオブジェクトの整合性が確保されます。これは、適切なカタログ プロパティを設定することで有効にできます。 チェックサム検証: チェックサム検証  Icebergは追加をサポートします S3 API を使用した書き込みおよび削除操作中にオブジェクトにアクセスできるため、コストの追跡と管理に役立ちます。 カスタムタグ: カスタムタグ  IcebergのFileIOインターフェースは、Hadoop互換のファイルシステムほど厳格な保証を必要としないため、 そうしないとパフォーマンスが低下する可能性があります。 ネガティブキャッシュの回避: ネガティブキャッシュを避ける 対照的に、S3FileIO より前に使用されていた Hadoop の S3A FileSystem は、クラウド ストレージに対して同じレベルの最適化を提供しません。つまり、過去の罠で将来を見据えたデータ レイク インフラストラクチャを妨げないでください。 前提条件 始める前に、システムが次の要件を満たしていることを確認してください。 ドッカー Docker の作成 最初から始める場合は、 特定のプラットフォーム用のインストーラーをダウンロードしてください。多くの場合、Docker と Docker Compose を個別にダウンロードするよりも簡単です。次のコマンドを実行して、Docker がインストールされているかどうかを確認します。   Dockerデスクトップ   docker-compose --version はじめる まず、TabularのYAMLファイルを複製またはコピーします。 このチュートリアルでは YAML だけが必要です。リポジトリの残りの部分は後で自由に調べてください。   Gitリポジトリ 詳しく見る 提供されている YAML ファイルは、Docker Compose 構成ファイルです。これは、マルチコンテナ Docker アプリケーションの一連のサービスとその構成を定義します。この場合、Spark-Iceberg と MinIO の 2 つのサービスがあります。各セクションを詳しく見ていきましょう。   1. Spark-Icebergサービス:   spark-iceberg: image: tabulario/spark-iceberg container_name: spark-iceberg build: spark/ networks: iceberg_net: depends_on: - rest - minio volumes: - ./warehouse:/home/iceberg/warehouse - ./notebooks:/home/iceberg/notebooks/notebooks environment: - AWS_ACCESS_KEY_ID=admin - AWS_SECRET_ACCESS_KEY=password - AWS_REGION=us-east-1 ports: - 8888:8888 - 8080:8080 - 10000:10000 - 10001:10001 rest: image: tabulario/iceberg-rest container_name: iceberg-rest networks: iceberg_net: ports: - 8181:8181 environment: - AWS_ACCESS_KEY_ID=admin - AWS_SECRET_ACCESS_KEY=password - AWS_REGION=us-east-1 - CATALOG_WAREHOUSE=s3://warehouse/ - CATALOG_IO__IMPL=org.apache.iceberg.aws.s3.S3FileIO - CATALOG_S3_ENDPOINT=http://minio:9000    spark-iceberg サービスに使用する Docker イメージを指定します。この場合、tabulario/spark-iceberg:latest イメージが使用されます。 image:    spark-iceberg サービスが rest サービスと minio サービスに依存することを指定します。 depends_on:   コンテナに特定の名前 (spark-iceberg) を割り当てます。 container_name:    Spark や AWS 認証情報など、コンテナの環境変数を設定します。 environment: ローカル ディレクトリ (./warehouse および ./notebooks) をコンテナー内のボリュームとしてマウントします。 ボリューム:  Spark UI やその他のサービスにアクセスするために、コンテナー ポートをホスト ポートにマップします。 ポート:   2. Minioサービス:   minio: image: minio/minio container_name: minio environment: - MINIO_ROOT_USER=admin - MINIO_ROOT_PASSWORD=password - MINIO_DOMAIN=minio networks: iceberg_net: aliases: - warehouse.minio ports: - 9001:9001 - 9000:9000 command: ["server", "/data", "--console-address", ":9001"]    MinIO サービスの Docker イメージを指定します。 image:   コンテナに特定の名前 (MinIO) を割り当てます。 container_name:   ルート ユーザーの資格情報を含む MinIO を構成するための環境変数を設定します。 environment:  MinIO UI にアクセスするためにコンテナ ポートをホスト ポートにマッピングします。 ポート:   特定のパラメータを使用して MinIO サーバーを起動するコマンドを指定します。 command:  MinIOサービスのもう一つの側面は  MinIO のコマンドライン ツール。 MC  mc: depends_on: - minio image: minio/mc container_name: mc networks: iceberg_net: environment: - AWS_ACCESS_KEY_ID=admin - AWS_SECRET_ACCESS_KEY=password - AWS_REGION=us-east-1 entrypoint: > /bin/sh -c " until (/usr/bin/mc config host add minio http://minio:9000 admin password) do echo '...waiting...' && sleep 1; done; /usr/bin/mc rm -r --force minio/warehouse; /usr/bin/mc mb minio/warehouse; /usr/bin/mc policy set public minio/warehouse; tail -f /dev/null "    mc サービスが MinIO サービスに依存することを指定します。 depends_on:    mc サービスの Docker イメージを指定します。 image:   コンテナに特定の名前 (mc) を割り当てます。 container_name:    MinIO クライアントを構成するための環境変数を設定します。 environment:    MinIO クライアントのセットアップ手順を含む、コンテナーのエントリ ポイント コマンドを定義します。 entrypoint:  /usr/bin/mc rm -r --force minio/warehouse; /usr/bin/mc mb minio/warehouse; /usr/bin/mc policy set public minio/warehouse; tail -f /dev/null " このコマンドのシーケンスは基本的に次のタスクを実行します。 既存のウェアハウス ディレクトリとその内容を MinIO サーバーから削除します。  warehouse という名前の新しいバケットを作成します。 ウェアハウス バケットのアクセス ポリシーをパブリックに設定します。 この Docker Compose ファイルは、Spark、PostgreSQL、MinIO のサービスを使用してマルチコンテナ環境をオーケストレーションします。依存関係、環境変数、およびサービスを一緒に実行するために必要なコマンドを設定します。サービスは連携して動作し、Spark と Iceberg を使用し、MinIO をオブジェクト ストレージ バックエンドとしてデータ処理の開発環境を作成します。 起動 ターミナル ウィンドウで、リポジトリの tabular-spark-setup ディレクトリに cd し、次のコマンドを実行します。   docker-compose up 資格情報 使用して で MinIO にログインし、ウェアハウス バケットが作成されたことを確認します。  admin:password http://127.0.0.1:9001 すべてのコンテナが起動したら、  に移動して Jupyter Notebook サーバーにアクセスできます。  http://localhost:8888 サンプル ノートブックの 1 つを実行し、  の MinIO に戻って、ウェアハウスにデータが取り込まれていることを確認します。  http://127.0.0.1:9001 最新のデータレイクの構築 Iceberg、Tabular、MinIO を使用した最新のデータレイクの構築に関するこのチュートリアルは、ほんの始まりに過ぎません。この強力な 3 部構成は、可能性の世界への扉を開きます。これらのツールを使用すると、構造化データと非構造化データをすべてシームレスに統合して分析し、隠れたパターンを発見して、イノベーションを促進するデータ主導の意思決定を行うことができます。このアーキテクチャの効率性と柔軟性を本番環境で活用して、AI/ML イニシアチブを促進し、機械学習モデルの真の可能性を解き放ち、画期的な発見への道を加速します。お問い合わせください。 または当社の 構築中に質問がある場合は、チャンネルにお問い合わせください。 こんにちは スラック

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

This writer has a vested interest be it monetary, business, or otherwise, with 1 or more of the products or companies mentioned within.

Developers do. Download MinIO and see for yourself. 

MinIO

このオーディオは、ストーリーの元の言語で制作されています。

Iceberg、Tabular、MinIO を使用した効果的な最新データアーキテクチャの構築

About Author

コメント

ラベル

この記事は

Related Stories

AI の力を解き放つ。最先端技術の体系的レビュー: 概要と序論

ワークフローを10倍に向上させる方法: 必須アプリ17選

ユーザー中心の暗号通貨製品の作成: 顧客からのフィードバックの重要性

タップして稼ぐ：テレグラムはソラナより先に次の100億人の暗号通貨ユーザーを獲得する可能性がある

AI の力を解き放つ。最先端技術の体系的レビュー: 概要と序論

ワークフローを10倍に向上させる方法: 必須アプリ17選

ユーザー中心の暗号通貨製品の作成: 顧客からのフィードバックの重要性

タップして稼ぐ：テレグラムはソラナより先に次の100億人の暗号通貨ユーザーを獲得する可能性がある

Light-Mode

Classic

Newspaper

Dark-Mode

Neon Noir

Minty

HN StartUps

Iceberg、Tabular、MinIO を使用した効果的な最新データ アーキテクチャの構築