paint-brush
ディープラーニングのためのレイクハウス「Deep Lake」:議論と限界@dataology
166 測定値

ディープラーニングのためのレイクハウス「Deep Lake」:議論と限界

長すぎる; 読むには

研究者らは、ディープラーニング フレームワーク向けに複雑なデータ ストレージとストリーミングを最適化する、ディープラーニング用のオープンソース レイクハウスである Deep Lake を紹介します。
featured image - ディープラーニングのためのレイクハウス「Deep Lake」:議論と限界
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

著者:

(1)サスン・ハンバルズミアン、アクティブループ、カリフォルニア州マウンテンビュー、米国

(2)アビナブ・トゥリ、アクティブループ、カリフォルニア州マウンテンビュー、米国

(3)レヴォン・グカシアン、アクティブループ、カリフォルニア州マウンテンビュー、米国

(4)ファリズ・ラーマン、アクティブループ、カリフォルニア州マウンテンビュー、米国。

(5)Hrant Topchyan、Activeloop、カリフォルニア州マウンテンビュー、米国

(6)デビッド・イサヤン、アクティブループ、カリフォルニア州マウンテンビュー、米国

(7)マーク・マククエイド、アクティブループ、カリフォルニア州マウンテンビュー、米国

(8)ミカエル・ハルティニャン、アクティブループ、カリフォルニア州マウンテンビュー、米国

(9)Tatevik Hakobyan、Activeloop、カリフォルニア州マウンテンビュー、米国

(10)イヴォ・ストラニック、アクティブループ、カリフォルニア州マウンテンビュー、米国

(11)ダビット・ブニアティアン、アクティブループ、カリフォルニア州マウンテンビュー、米国。

リンク一覧

7. 議論と制限

Deep Lakeの主な使用例には、(a)ディープラーニングモデルのトレーニング、(b)データ系統とバージョン管理、(c)データクエリと分析、(d)データ検査と品質管理などがある。NumPy [55]配列を基本ブロックとして採用し、


図10:1BパラメータCLIPモデル[60]のトレーニング中の単一16xA100 GPUマシンのGPU使用率。データセットはAWS us-eastからGCP us-centralデータセンターにストリーミングされるLAION-400M [68]です。各色はトレーニング中の単一A100 GPUの使用率を示しています。


バージョン管理、ストリーミング データローダー、ゼロからの視覚化エンジン。

7.1 フォーマット設計スペース

テンソル ストレージ形式 (TSF) は、多くの機械学習およびディープラーニング アルゴリズムで使用される数値の多次元配列であるテンソルを保存するために特別に設計されたバイナリ ファイル形式です。TSF 形式は効率的でコンパクトになるように設計されており、テンソル データの高速で効率的な保存とアクセスを可能にします。TSF 形式の主な利点の 1 つは、動的に形作られるテンソルを含む、幅広いテンソル データ タイプをサポートしていることです。


比較すると、Parquet [79] と Arrow [13] 形式は、大規模な分析データセットの保存と処理用に設計された列指向ファイル形式です。テンソルデータ専用に設計された TSF とは異なり、Parquet と Arrow は、表形式と時系列データの分析ワークロードの効率的な保存とクエリに最適化されています。列指向ストレージと圧縮技術を使用してストレージスペースを最小限に抑え、パフォーマンスを向上させるため、ビッグデータアプリケーションに適しています。ただし、テンソルデータに関しては、TSF には Parquet や Arrow よりも優れた点がいくつかあります。TSF は、テンソル演算とディープラーニングフレームワークへの効率的なストリーミングをサポートできます。


他のテンソル形式 [18、52、23、57] は、チャンク間の調整を必要としないため、非常に並列化可能なワークロードに効率的です。テンソル ストレージ形式の主なトレードオフは、メモリ フットプリントをパディングせずにテンソル内に形状配列を動的に格納できることです。たとえば、コンピューター ビジョンでは、形状の異なる複数の画像を保存したり、長さが動的なビデオを保存したりすることが非常に一般的です。柔軟性をサポートするために、前述のチャンク エンコーダーの形でわずかなオーバーヘッドが導入されていますが、実際には実稼働ワークロードへの影響は確認されていません。

7.2 データローダー

Deep Lakeは、大きな画像の反復処理のベンチマークで見られるように、ローカルおよびリモート設定で最先端の結果を達成しています(図7)。主に、ImageNetモデルのトレーニングをモデルトレーニングごとに最大98セント削減したと主張するFFCV [39]よりも高速です。さらに、Deep LakeはWebDataset [19]と同様の取り込みパフォーマンスを実現します。Deep Lakeは、大きな画像で大幅に優れています。Parquetは小さなセルと分析ワークロードに最適化されているのに対し、Deep Lakeは大規模で動的に形成されたテンソルデータに最適化されています。他のデータレイクソリューションと比較して、最小限のPythonパッケージ設計により、Deep Lakeは大規模な分散トレーニングまたは推論ワークロードに簡単に統合できます。

7.3 今後の課題

Deep Lakeの現在の実装には、さらなる改善の余地があります。まず、ストレージ形式では、ベクトル検索やキー値インデックスに必要な、さらに効率的なストレージレイアウトのためのカスタム順序付けがサポートされていません。次に、Deep Lakeは、同時アクセスのためにブランチベースのロックを実装しています。Delta ACIDトランザクションモデル[27]と同様に、Deep Lakeは高性能な並列ワークロードに拡張できます。3つ目に、TQLの現在の実装では、SQL操作のサブセットのみがサポートされています(つまり、結合などの操作はサポートされていません)。今後の作業では、SQL完全なものにすること、より多くの数値操作に拡張すること、外部データソースでフェデレーテッドクエリを実行すること、SQLエンジンに対するベンチマークに重点が置かれる予定です。


この論文はCC 4.0ライセンスの下でarxivで公開されています