paint-brush
SQL Server 2022 で外部テーブルを利用して MinIO にデータを保存およびクエリする@minio
8,831 測定値
8,831 測定値

SQL Server 2022 で外部テーブルを利用して MinIO にデータを保存およびクエリする

MinIO8m2023/07/27
Read on Terminal Reader

長すぎる; 読むには

Microsoft SQL Server 2022 では、外部テーブルと呼ばれる技術を通じて、オブジェクト ストレージが第一級市民になります。 2 つの部分があります。まずはS3コネクタ。 2 番目は、Polybase データ仮想化フレームワークの機能強化です。 この追加により、企業は、オブジェクト ストアが存在する場所であればどこでも、SQL Server 2022 を使用して大規模なオブジェクト ストアにクエリを実行できるようになります。この新機能は、データが存在する場所にアクセスする方法と、新しい言語を学習する必要がないという 2 つの重要な顧客の課題に対処します。 MinIO を使用すると、データはパブリック クラウド インフラストラクチャ、プライベート クラウド、Kubernetes ディストリビューション、エッジなど、どこにでも配置できます。
featured image - SQL Server 2022 で外部テーブルを利用して MinIO にデータを保存およびクエリする
MinIO HackerNoon profile picture
0-item

データと洞察は別のものです。情報から洞察を引き出すにはさまざまな方法がありますが、その範囲にはトレードオフが伴います。これをピラミッドとして考えると、頂点に AI、そのすぐ下に ML、その下に高度な分析、そして基盤として SQL があります。これは、企業における分析の簡略化された代表的な図です。



課題は、AI/ML の人材を獲得するのが非常に難しいことです。これは必ずしもニュースではありませんが、フォーチュン 500 の大手企業の一部で分析の実行を担当する同僚との会話の中で具体化されました。 AI と ML はデータに関する最も深い洞察を提供すると約束されていますが、これらの ML パイプラインを設定して活用するには、非常に洗練されたデータ サイエンス機能が必要です。多くの場合、これらは完了までに数年とは言わないまでも数か月かかる長期にわたるプロジェクトであり、これらの新しいデータ サイエンス パラダイムを学ぶために既存のスタッフの再トレーニングが必要になる場合があります。


一方で、SQL スキルは組織内のあらゆる場所に存在し、データの共通語となっています。それが世界がデータベースに対して語る方法です。 Fortune 500 企業の 95% が Microsoft の SQL Server を実行しているのはこのためです。企業内でこれほどユビキタスなデータ テクノロジはないかもしれません。


Microsoft SQL Server 2022では、外部テーブルと呼ばれる技術を通じて、オブジェクト ストレージが第一級市民になります。 2 つの部分があります。まずはS3コネクタ。 2 番目は、Polybase データ仮想化フレームワークの機能強化です。


この追加により、企業は、オブジェクト ストアが存在する場所であればどこでも、SQL Server 2022 を使用して大規模なオブジェクト ストアにクエリを実行できるようになります。この新機能は、データが存在する場所にアクセスする方法と、新しい言語を学習する必要がないという 2 つの重要な顧客の課題に対処します。


MinIO を使用すると、データはパブリック クラウド インフラストラクチャ、プライベート クラウド、Kubernetes ディストリビューション、エッジなど、どこにでも配置できます。


もう少し深く掘り下げてみましょう。

Minio と Microsoft SQL Server 2022 の組み合わせでどこからでもデータにアクセス

Microsoft SQL Server 2022 には、MinIO のユーザーが利用できる 2 つの重要な機能があります。

まず、データベース管理者が S3 API を使用して任意のクラウド環境にデータをバックアップおよび復元できるようになります。次に、SQL Server 2022 では、SQL Server 2016 で最初に導入された外部テーブル機能が拡張されています。


外部テーブルを使用すると、ユーザーは SQL Server に直接保存されていないデータに対してクエリを実行できます。これにより、ユーザーは、データを移動せずにクエリを実行できる機能を維持しながら、必要な場所で SQL Server を実行し、必要な場所と方法でデータを保存できるアーキテクチャ上の柔軟性が解放されます。新しい外部テーブル機能により、通常サポートされているすべてのファイル形式に加えて、Parquet および S3 オブジェクト指向ストレージにアクセスできるようになりました。


これにより、SQL サーバーでクエリできるデータの量が大幅に増加します。


たとえば、EnterpriseCo は Azure で SQL Server を実行している可能性があります。以前は、クエリを実行するためにデータを Azure/SQL サーバーに移動していました。現在、EnterpriseCo は、データをどこにも移動することなく、オンプレミスでそのデータにアクセスできるようになりました。これは、これらのクエリを PB サイズのデータセットに対して実行できることを意味します。


アーキテクチャの選択肢はほぼ無限になります。 SQL Server をオンプレミスで実行し、クラウド内のデータにアクセスします。 SQL Server をオンプレミスで実行し、プライベート クラウドのデータにアクセスします。クラウドで SQL Server を実行し、エッジでデータにアクセスします。 MinIO と SQL Server を使用して、アクティブ/アクティブのマルチクラウド レプリケーションを備えたフォールト トレラントな分析システムを構築します。主な考慮事項はパフォーマンスであり、それらは SQL Server とデータの相対的な位置によって決まります。


秘訣は、デプロイメントを最適化することです。すべてのオブジェクト ストアは外部テーブル機能の恩恵を受けますが、MinIO の恩恵は不釣り合いです。理由は簡単です。エンタープライズ データが複数のクラウドに分散されている世界では、一貫性が重要です。 MinIO は、パブリック クラウド、プライベート クラウド、エッジ上のデータストアとして機能できます。一貫したデータ層として、セキュリティ、アクセス管理、復元力、ライフサイクル管理も一貫しています。パフォーマンスは一貫したものにすることも、ビジネスのニーズに合わせて階層化することもできますが、他のすべては同じままです。


SQL Server 2022 でこれを行うメカニズムは、Polybase として知られるデータ仮想化機能を通じて行われます。


Polybase を使用すると、ユーザーは SQL Server だけでなく、他のほとんどのデータベース インストール (Oracle、Teradata、MongoDB など)、さらには S3 API からも直接 Transact-SQL を使用してデータをクエリできるようになります。 MinIO は、すべてのハイパースケーラー クラウド環境にアクセスするための独自の機能を提供します。この 2 つ (SQL Server 2022 と MinIO) を組み合わせることで、企業はデータにアクセスし、これまでセグメント化されて結合することが困難だったデータ サイロから洞察を得ることができます。


PolyBase の重要な機能は、データを元の場所と形式に維持できる機能です。 SQL Server の他のテーブルと同様に、外部データをその場でクエリできます。このシナリオでは、データの移動とデータのレプリケーションの必要性が最小限に抑えられます。データ レプリケーションが引き起こす最大の問題の 1 つは調整です。企業は数千人時間を無駄にし、データを調整するために毎晩計算能力を計算しています。


SQL Server 2022 では、クラウドとの間でのデータの継続的なレプリケーションが可能になり、災害復旧機能が可能になります。 MinIO と組み合わせることで、高速データを NVMe ベースの高速データ エンジンに常駐させ、それを任意の数の低速層に階層化することができます。これらのコンポーネントは並列して実行され、Transact-SQL または Spark ライブラリを使用してビッグ データの読み取り、書き込み、処理を可能にし、価値の高いリレーショナル データと非リレーショナルの大容量ビッグ データを簡単に組み合わせて分析できるようになります。


さらに、SQL Server 2022 は Active Directory と統合されており、企業のセキュリティとコンプライアンスのニーズを満たす役割ベースのアクセス制御が含まれています。

なぜこれが重要なのか

外部テーブルの追加の重要性は、どれだけ強調してもしすぎることはありません。


まず、データ インフラストラクチャに関しては、オブジェクト ストレージがプライマリ ストレージになっているというさらなる証拠です。 SAN/NAS の群衆はこのメッセージを好まないでしょうが、毎週、別の主要なデータベースまたはデータ コンポーネントが第一級市民のような方法でオブジェクト ストレージを有効にします。ホールドアウトしている企業はそれほど多くなく、最近はホールドアウトしている企業はかなりニッチに見えます。


第 2 に、これにより、これまでよりもはるかに大規模なデータセットに対して SQL クエリを実行できるようになります。その結果、既存のデータからより多くの価値を生み出したり、ロングテールまたは「ダーク」データから新しい価値を生み出したりする可能性が生まれます。 SAN/NAS リポジトリは通常、数 PB で壁にぶつかります。数十または数百の PB に対してクエリを実行することを想像してみてください。それは現時点でのテーブルの上にあります。


第三に、これは私たちがここ数年見てきた第二世代の分離の物語をさらに強固なものにします。第一世代はストレージとコンピューティングの分離でした。 2 番目の並列生成は、クエリ機能をストレージ機能から分離する分析アプリケーション層 (SQL、Splunk、または Vertica) です。率直に言って、これはどこにでもあり、クエリ プレーヤー、ストレージ プレーヤー、および顧客にとって最大の利益になります。これは、顧客がユースケース固有のニーズに合わせて最高の特注スタックを構築することを意味します。ストレージ側のパフォーマンス、復元力、セキュリティ、クラウドネイティブ性、スケーラビリティが強調され、その結果、ソリューションがソフトウェア定義であることが求められます。


第 4 に、これにより、マルチクラウドの観点から顧客がいる場所に対応できます。顧客は SQL Server 2022 を 1 か所で実行することを望んでいません。データが存在する場所ならどこでも SQL Server 2022 を実行したいと考えています。外部テーブル (およびパートナーとしての MinIO) を追加することで、そのニーズに応えます。オンプレミス。チェック。アズール。チェック。他のすべてのパブリック クラウドと Kubernetes ディストリビューション。チェック。


これは SQL Server と MinIO にとって転換点です。上記のすべての理由により、当社は頼りになるオブジェクト ストアになる予定であり、それにより、F500 アカウントでのすでに深い浸透がさらに拡大することになります。

お客様の使用例

現段階ではあまり詳しくお話しすることはできませんが、11 月の GA 日に向けて構築を開始するため、早期アクセス ウィンドウを心待ちにしているお客様が何人かいらっしゃいます。


たとえば、当社が提携している Fortune100 銀行の 1 つは、大量の顧客行動データを S3 ストレージ クラスターに保存しています。単純な SQL クエリを実行してこのデータから基本的なインテリジェンスを引き出すために、彼らは過去にこのデータの一部を特定のデータベースに取り込み、それに対してクエリを実行する技術を使用していました。このクライアントは、新しいデータベース インスタンスにデータをレプリケートすることなく、データに対してクエリを実行できるように、Microsoft 早期アクセス プログラムにサインアップしています。これにより、大幅な時間が節約され、ほとんどの銀行が対処する必要があるデータ調整の頭痛の種が軽減されます。さらに、この銀行が機械学習技術を採用してこのデータからより高度な洞察を引き出すことに決めた場合、元の実装と並行して Kubernetes クラスター上で簡単に拡張できる MLOps プラットフォームを活用できるようになります。


別の例では、大規模な小売顧客が、分散型 POS システムから、夜間のすべてのアクティビティのオブジェクト ストレージ プラットフォームとして MinIO を使用する集中型データストアに情報を取り込む必要があると考えています。ファイルは寄木細工または CSV 形式であり、バケットに転送されます。以前は、ビジネス分析チームは、このデータに対してバッチ分析を実行するために、このデータを SQL Server 環境にインポートする必要がありました。ただし、SQL Server 2022 の導入により、このようなクライアントは、MinIO 上の S3 バケットにあるデータに対して直接分析を実行できるようになります。これにより、時間を節約できるだけでなく、データの複製や調整に関連する費用も節約できます。同様に重要なことは、小売業者 (さらに言えばあらゆる企業) が AI/ML パイプラインを活用して、このデータから直接、より深い洞察を引き出すことができるようになるということです。 Microsoft の場合、小売業者は深い ML パイプラインを推進するために Azure Synapse との統合を提供しました。このレベルの洞察を推進する他の方法では、MinIO とのファーストクラスの統合を備えた TensorFlow、Kubeflow、および Pytorch を活用する場合があります。

何を期待します

本日の発表により、早期アクセス期間がオープンしました。このリリースには含まれていないものがいくつかありますが (災害復旧など)、それらはすぐに利用できるようになる予定です。


一般リリースは 11 月の予定ですが、すべての企業顧客に今すぐ開始することをお勧めします。これは、特定のワークロードの要件を満たすサイジングに役立ちます。規模を大きくする顧客もいれば、数百 TB に留める顧客もいます。重要なのは、適切に構成されていれば、どちらも高速に動作することです。

次は何ですか

7 月 12 日に、DevOps.com で Hugo Queiroz とのウェビナーを開催する予定です。これは、共同の価値提案の概要を提供し、外部テーブルを使用して大規模に機能するように SQL Server 2022 を構成する方法を実際に見て正確に確認する機会を提供します。登録は間もなく開始されます。


それまでの間、ご質問がございましたら、お気軽に[email protected]にご連絡いただくか、Slack チャンネルにご参加ください。


ここでも公開されています。