paint-brush
オープン テーブル フォーマットの相互運用性トレンドがエンタープライズ データ アーキテクチャに何を意味するか@minio
987 測定値
987 測定値

オープン テーブル フォーマットの相互運用性トレンドがエンタープライズ データ アーキテクチャに何を意味するか

MinIO6m2024/02/16
Read on Terminal Reader

長すぎる; 読むには

オープン テーブル フォーマット、最新のデータ スタック、クラウド オペレーティング モデルの融合は、データ管理における変革の時代を意味します。
featured image - オープン テーブル フォーマットの相互運用性トレンドがエンタープライズ データ アーキテクチャに何を意味するか
MinIO HackerNoon profile picture


この夏、Databricks と Apache Iceberg は両方とも、オープン テーブル形式の機能強化を展開しました。データブリックが発表されましたデルタ レイク 3.0最も一般的なオープン テーブル形式すべて (Delta Table、Iceberg、Apache Hudi) に対してデータを読み書きできます。 Delta Universal Format (UniForm) を使用すると、オープン テーブル フォーマットが相互運用可能になり、特定のフォーマットでデータの追加コピーを作成して保存する必要がなくなります。次のような既存のクエリ エンジンを使用するデータ チームアヒルDBドレミオなど、Iceberg または Hudi ファイルを介してクエリを実行する場合は、変換せずに Delta テーブルを直接読み取ることができます。


同じ頃、Iceberg はクエリ エンジンとプラットフォームに対する多数の新しいサポートを発表しました。 スノーフレーク AWS アテナアパッチ・ドリスそしてスターロックス。 Databricks と Iceberg からのこれらの発表により、相互運用性とデータのポータビリティが連携して実現されました。オープン テーブル フォーマットは、設計上、パブリック クラウドであろうとプライベート クラウドであろうと、どこにいても、必要なツールを使用してデータにアクセス、制御、共有、操作できなければならないという概念を促進します。 -エッジ、またはベアメタル上。

オープンテーブル形式を理解する

これらの発表を文脈に沿って見てみましょう。オープン テーブル形式により、データ レイク環境の柔軟性を維持しながら、これまでは従来のデータ ウェアハウスまたはデータベースでしか達成できなかったパフォーマンスとコンプライアンスの標準をデータ レイクで達成できます。


オープン テーブル形式には主に次の 3 つがあります。


氷山はもともと、データレイク内で大量のデータを処理するために Netflix によって特別に設計されました。このオープン テーブル形式は、タイム トラベル、動的スキーマの進化、パーティションの進化などの独特の機能を備えています。これらの機能により革新的なものとなり、同じデータセットに対するクエリ エンジンによる同時かつ安全な操作が可能になります。


デルタ湖は、Lakehouse アーキテクチャのオープンソース ストレージ フレームワークで、MinIO のようなオブジェクト ストレージ上のデータ レイクを強化します。 ACID トランザクション、スケーラブルなメタデータ処理、Apache Spark の統合処理を保証し、信頼性とスケーラビリティを提供します。 Delta Lake は、特に同時実行性が高く、非アトミックな更新やメタデータ操作が重大なボトルネックを引き起こす複雑な Spark ワークロードのパフォーマンスと正確性の課題に対処できます。


フーディHadoop エコシステムに根ざしており、Hudi の主な目的は、テーブル、トランザクション、更新/挿入/削除、高度なインデックス、クラウドネイティブ オブジェクト ストレージを含むさまざまなストレージ実装との互換性などの機能を提供して、ストリーミング データの取り込み中のレイテンシを短縮することです。 MinIOのような。


異なるフォーマットの選択については多くのことが書かれており、中には次のように主張する人もいます。 80% の機能同等性3 つの主要な Open Table 形式のうちの 1 つです。これらのオープン テーブル フォーマットが作成され、繁栄し続けている相互運用性の環境を考えると、このような違いの融合は理にかなっています。これらのフォーマットの作成者は、ベンダー ロックインや運用管理という従来の概念よりも機能を優先しました。

最新のデータスタックの一部としてのオープンテーブルフォーマット

こうした最近の発表の前から、オープン テーブル形式はすでに最新のデータ レイク設計に不可欠なものとなっていました。そして逆に、データ レイクは最新のデータ スタックに不可欠なものとなっています。最近の調査によるドレミオ回答者の 70% が、分析の半分以上が 3 年以内にデータ レイクにある、またはデータ レイクに置かれると回答したことがわかりました。この普及の普及は、組織がデータを構造化して管理する方法におけるパラダイムシフトを意味し、相互運用性、柔軟性、パフォーマンスに重点が置かれています。


クラウド ネイティブのデータ レイクとそのコンポーネント、オープン テーブル フォーマットなどのテクノロジーが最新のデータ スタックの中心的な役割を果たしているのは、まったく驚くべきことではありません。これは、老朽化したシステムに「クラウド テクノロジー」というフレーズを叩き込もうとする組織に卸売りされる、従来のモノリシックなレガシー ハードウェアおよびソフトウェアとはまったく対照的です。クラウド ネイティブになることは、API を追加するだけではありません。最新のデータ スタックは、さまざまなデータ処理面に合わせて調整されたモジュール式の特殊なツールのアンサンブルです。適応性を考慮して構築されており、クラウドで生まれ、高いパフォーマンス基準を維持しています。最新のデータ スタックを組織にとって魅力的な選択肢にする機能。スタックのモジュール性により幅広いオプションが提供され、組織が特定のニーズに合わせたオーダーメイドのデータ インフラストラクチャを作成できるようになり、進化し続けるデータ環境での俊敏性が促進されます。


このようにオプションの範囲が継続的に進化しているにもかかわらず、スタックのコンポーネントには次のような特徴があります。


  • クラウドネイティブ:最新のデータ スタックは、さまざまなクラウド環境にわたってシームレスに拡張できるように設計されており、複数のクラウドとの互換性を確保してベンダー ロックインを防ぎます。


  • 最適化されたパフォーマンス:効率を重視して設計されたスタックには、ソフトウェアファーストのアプローチとパフォーマンスを重視した設計を採用したコンポーネントが組み込まれています。


  • RESTful API 互換性:スタックは、コンポーネント間の標準化された通信フレームワークを確立します。これにより相互運用性が促進され、マイクロサービスの作成がサポートされます。


  • 細分化されたストレージとコンピューティング:スタックにより、コンピューティング リソースとストレージ容量を独立してスケーリングできます。このアプローチにより、コスト効率が最適化され、特定のニーズに応じて各側面を拡張できるようになり、全体的なパフォーマンスが向上します。


  • オープン性への取り組み:オープン テーブル形式をサポートするだけでなく、最新のデータ スタックはオープンソース ソリューションの形でオープン性を採用しています。この取り組みにより、独自のサイロが排除され、ベンダー ロックインが軽減され、コラボレーション、イノベーション、およびデータ アクセシビリティの向上が促進されます。オープン性への取り組みにより、さまざまなプラットフォームやツールに対するスタックの適応性が強化され、包括性が確保されます。

ビジネス標準としてのデータの可搬性と相互運用性


データのポータビリティと相互運用性を真に受け入れるということは、どこにいてもデータを作成してアクセスできることを意味します。このアプローチにより柔軟性が向上し、組織はベンダー ロックインやデータ サイロの制約を受けることなく、さまざまなツールの機能を活用できるようになります。目標は、データへの普遍的なアクセスを可能にし、組織内でより俊敏で適応性のあるデータ エコシステムを促進することです。


データのポータビリティを実現するには、オペレーティング モデルとしてのクラウドが特定の場所ではなくクラウド ネイティブ テクノロジの原則に基づいて構築されていることを理解することが重要です。一部の組織闘争この取り組みでは、莫大な費用をかけてクラウドへの参入を試みています。現実には、クラウドの導入は平均的な企業にチャンスをもたらしますが、 収益性を 20 ~ 30% 向上させる、本当の効果と真のコスト削減は、プライベート インフラストラクチャでクラウド オペレーティング モデルを採用することによってもたらされます。


多くの確立された組織はこの理念を積極的に採用しており、ワークロードをクラウドから本国に戻すことを選択し、大幅なコスト削減を実現しています。 X.com 、37Signals、および大手エンタープライズ セキュリティ会社平均 60% の節約雲の出口から。クラウド運用モデルでは、一見矛盾した考え方の共存が可能になります。企業は、クラウドへの移行ワークロードの本国送還から利益を得ることができます。重要な決定要因はクラウド運用モデルの採用であり、組織がインフラストラクチャ、開発、技術効率に取り組む方法を根本的に変革します。このモデルは、パブリック クラウドであろうとそれ以外であろうと、柔軟性、効率性、長期的な成功を実現するために最適化されており、最新のデータ スタックの概念と正確に一致し、データの移植性とオープン テーブル形式との相互運用性を可能にします。

結論

Databricks、Apache Iceberg、Hudi によるオープン テーブル フォーマットの最近の進歩は、データ管理における極めて重要な瞬間を示しています。 Delta Lake 3.0 のユニバーサルな互換性と Apache Iceberg のサポートの拡張は、データ インフラストラクチャ企業と現場実装者の両方によるシームレスなデータの移植性と相互運用性への取り組みを示しています。


これらの開発は、オープン テーブル形式がパフォーマンスとコンプライアンスの標準を達成する上で中心的な役割を果たす、最新のデータ スタックの固有のモジュール性と一致しています。この変化は単独ではなく、クラウドのオペレーティング モデルと交差しています。パブリック クラウドの魅力を超えて、プライベート インフラストラクチャ上でクラウド オペレーティング モデルを採用することで、真の効果とコスト削減が生まれます。


オープン テーブル フォーマット、最新のデータ スタック、クラウド オペレーティング モデルの融合は、データ管理における変革の時代を意味します。このアプローチにより、パブリックかプライベートか、オンプレミスかエッジかを問わず、さまざまな環境にわたる適応性が確保されます。データ レイク アーキテクチャの複雑さを解決するために、MinIO チームがいつでもお手伝いいたします。 [email protected] またはスラックデータの取り組みに着手する際に、共同でディスカッションを行うためのチャネルです。