paint-brush
ディープラーニングのためのレイクハウス「Deep Lake」:現在の課題@dataology
115 測定値

ディープラーニングのためのレイクハウス「Deep Lake」:現在の課題

長すぎる; 読むには

研究者らは、ディープラーニング フレームワーク向けに複雑なデータ ストレージとストリーミングを最適化する、ディープラーニング用のオープンソース レイクハウスである Deep Lake を紹介します。
featured image - ディープラーニングのためのレイクハウス「Deep Lake」:現在の課題
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

著者:

(1)サスン・ハンバルズミアン、アクティブループ、カリフォルニア州マウンテンビュー、米国

(2)アビナブ・トゥリ、アクティブループ、カリフォルニア州マウンテンビュー、米国

(3)レヴォン・グカシアン、アクティブループ、カリフォルニア州マウンテンビュー、米国

(4)ファリズ・ラーマン、アクティブループ、カリフォルニア州マウンテンビュー、米国。

(5)Hrant Topchyan、Activeloop、カリフォルニア州マウンテンビュー、米国

(6)デビッド・イサヤン、アクティブループ、カリフォルニア州マウンテンビュー、米国

(7)マーク・マククエイド、アクティブループ、カリフォルニア州マウンテンビュー、米国

(8)ミカエル・ハルティニャン、アクティブループ、カリフォルニア州マウンテンビュー、米国

(9)Tatevik Hakobyan、Activeloop、カリフォルニア州マウンテンビュー、米国

(10)イヴォ・ストラニック、アクティブループ、カリフォルニア州マウンテンビュー、米国

(11)ダビット・ブニアティアン、アクティブループ、カリフォルニア州マウンテンビュー、米国。

リンク一覧

2. 現在の課題

このセクションでは、非構造化データや複雑なデータ管理の現在の課題と過去の課題について説明します。

2.1 データベース内の複雑なデータ型

一般的に、画像などのバイナリ データをデータベースに直接保存することは推奨されません。これは、データベースが大きなファイルの保存と提供に最適化されておらず、パフォーマンスの問題が発生する可能性があるためです。さらに、バイナリ データはデータベースの構造化形式にうまく適合しないため、クエリや操作が困難になります。これにより、ユーザーの読み込み時間が遅くなる可能性があります。データベースは通常、ファイル システムやクラウド ストレージ サービスなどの他の種類のストレージよりも運用と保守にコストがかかります。したがって、大量のバイナリ データをデータベースに保存すると、他のストレージ ソリューションよりもコストがかかる可能性があります。

2.2 複雑なデータと表形式

大規模な分析およびBIワークロードの増加により、Parquet、ORC、Avroなどの圧縮構造化形式、またはArrow [79、6、20、13]などの一時的なインメモリ形式が開発されました。表形式が採用されるにつれて、Petastorm [18]やFeather [7]など、これらの形式をディープラーニング用に拡張する試みが登場しました。私たちの知る限りでは、これらの形式はまだ広く採用されていません。このアプローチは主に、Modern Data Stack (MDS)とのネイティブ統合の恩恵を受けています。ただし、前述したように、上流のツールはディープラーニングアプリケーションに適応するために根本的な変更が必要です。

2.3 ディープラーニングのためのオブジェクトストレージ

大規模な非構造化データセットを保存するための現在のクラウドネイティブの選択肢は、AWS S3 [1]、Google Cloud Storage (GCS) [3]、MinIO [17] などのオブジェクトストレージです。オブジェクトストレージは、分散ネットワークファイルシステムに比べて、主に 3 つの利点があります。(a) コスト効率が高い、(b) スケーラブル、(c) 形式に依存しないリポジトリとして機能する、です。ただし、クラウドストレージに欠点がないわけではありません。まず、テキストや JSON などの小さなファイルを多数反復処理する場合は特に、レイテンシのオーバーヘッドが大きくなります。次に、メタデータ制御なしで非構造化データを取り込むと、「データスワンプ」が発生する可能性があります。さらに、オブジェクトストレージにはバージョン管理が組み込まれていますが、データサイエンスのワークフローではほとんど使用されません。最後に、オブジェクトストレージ上のデータはトレーニング前に仮想マシンにコピーされるため、ストレージのオーバーヘッドと追加コストが発生します。

2.4 第2世代のデータレイク

Delta、Iceberg、Hudi[27、15、10]が主導する第2世代データレイクは、次の主要な特性を持つ表形式のファイルを管理することでオブジェクトストレージを拡張します。


(1)更新操作:表形式ファイルの先頭に行を挿入または削除する。


(2)ストリーミング:ACIDプロパティを備えたダウンストリームデータの取り込みと、SQLインターフェースを公開するクエリエンジンとのアップストリーム統合。


(3)スキーマの進化:下位互換性を維持しながら列構造を進化させる。


(4)タイムトラベルと監査ログの追跡:クエリを再現可能なロールバックプロパティを使用して履歴状態を保存します。また、データ系統の行レベルの制御もサポートします。


(5)レイアウト最適化:カスタム順序付けをサポートし、ファイルサイズとデータ圧縮を最適化する組み込み機能。クエリの速度が大幅に向上します。


ただし、第 2 世代のデータ レイクは、セクション 2.2 で説明したように、ディープラーニングで使用される固有のデータ形式の制限に依然として縛られています。そのため、このホワイト ペーパーでは、クエリ、視覚化、ディープラーニング フレームワークへのネイティブ統合などの形式と上流機能を再考し、図 2 に示すように ML ライフサイクルを完了することで、ディープラーニングのユース ケース向けに第 2 世代のデータ レイク機能を拡張します。


この論文はCC 4.0ライセンスの下でarxivで公開されています