著者:  （１）サスン・ハンバルズミアン、アクティブループ、カリフォルニア州マウンテンビュー、米国 （２）アビナブ・トゥリ、アクティブループ、カリフォルニア州マウンテンビュー、米国 （３）レヴォン・グカシアン、アクティブループ、カリフォルニア州マウンテンビュー、米国 （4）ファリズ・ラーマン、アクティブループ、カリフォルニア州マウンテンビュー、米国。  （５）Hrant Topchyan、Activeloop、カリフォルニア州マウンテンビュー、米国 （6）デビッド・イサヤン、アクティブループ、カリフォルニア州マウンテンビュー、米国 （7）マーク・マククエイド、アクティブループ、カリフォルニア州マウンテンビュー、米国 （8）ミカエル・ハルティニャン、アクティブループ、カリフォルニア州マウンテンビュー、米国 （9）Tatevik Hakobyan、Activeloop、カリフォルニア州マウンテンビュー、米国 （10）イヴォ・ストラニック、アクティブループ、カリフォルニア州マウンテンビュー、米国 （11）ダビット・ブニアティアン、アクティブループ、カリフォルニア州マウンテンビュー、米国。 リンク一覧 概要と序文 現在の課題 テンソル保存形式 ディープレイクシステムの概要 機械学習のユースケース パフォーマンスベンチマーク 議論と制限 関連作業 結論、謝辞、参考文献 2. 現在の課題 このセクションでは、非構造化データや複雑なデータ管理の現在の課題と過去の課題について説明します。  2.1 データベース内の複雑なデータ型 一般的に、画像などのバイナリ データをデータベースに直接保存することは推奨されません。これは、データベースが大きなファイルの保存と提供に最適化されておらず、パフォーマンスの問題が発生する可能性があるためです。さらに、バイナリ データはデータベースの構造化形式にうまく適合しないため、クエリや操作が困難になります。これにより、ユーザーの読み込み時間が遅くなる可能性があります。データベースは通常、ファイル システムやクラウド ストレージ サービスなどの他の種類のストレージよりも運用と保守にコストがかかります。したがって、大量のバイナリ データをデータベースに保存すると、他のストレージ ソリューションよりもコストがかかる可能性があります。  2.2 複雑なデータと表形式 大規模な分析およびBIワークロードの増加により、Parquet、ORC、Avroなどの圧縮構造化形式、またはArrow [79、6、20、13]などの一時的なインメモリ形式が開発されました。表形式が採用されるにつれて、Petastorm [18]やFeather [7]など、これらの形式をディープラーニング用に拡張する試みが登場しました。私たちの知る限りでは、これらの形式はまだ広く採用されていません。このアプローチは主に、Modern Data Stack (MDS)とのネイティブ統合の恩恵を受けています。ただし、前述したように、上流のツールはディープラーニングアプリケーションに適応するために根本的な変更が必要です。  2.3 ディープラーニングのためのオブジェクトストレージ 大規模な非構造化データセットを保存するための現在のクラウドネイティブの選択肢は、AWS S3 [1]、Google Cloud Storage (GCS) [3]、MinIO [17] などのオブジェクトストレージです。オブジェクトストレージは、分散ネットワークファイルシステムに比べて、主に 3 つの利点があります。(a) コスト効率が高い、(b) スケーラブル、(c) 形式に依存しないリポジトリとして機能する、です。ただし、クラウドストレージに欠点がないわけではありません。まず、テキストや JSON などの小さなファイルを多数反復処理する場合は特に、レイテンシのオーバーヘッドが大きくなります。次に、メタデータ制御なしで非構造化データを取り込むと、「データスワンプ」が発生する可能性があります。さらに、オブジェクトストレージにはバージョン管理が組み込まれていますが、データサイエンスのワークフローではほとんど使用されません。最後に、オブジェクトストレージ上のデータはトレーニング前に仮想マシンにコピーされるため、ストレージのオーバーヘッドと追加コストが発生します。  2.4 第2世代のデータレイク Delta、Iceberg、Hudi[27、15、10]が主導する第2世代データレイクは、次の主要な特性を持つ表形式のファイルを管理することでオブジェクトストレージを拡張します。  （１） 表形式ファイルの先頭に行を挿入または削除する。 更新操作：  （2） ：ACIDプロパティを備えたダウンストリームデータの取り込みと、SQLインターフェースを公開するクエリエンジンとのアップストリーム統合。 ストリーミング  （３） 下位互換性を維持しながら列構造を進化させる。 スキーマの進化：  （4） クエリを再現可能なロールバックプロパティを使用して履歴状態を保存します。また、データ系統の行レベルの制御もサポートします。 タイムトラベルと監査ログの追跡：  (5) カスタム順序付けをサポートし、ファイルサイズとデータ圧縮を最適化する組み込み機能。クエリの速度が大幅に向上します。 レイアウト最適化: ただし、第 2 世代のデータ レイクは、セクション 2.2 で説明したように、ディープラーニングで使用される固有のデータ形式の制限に依然として縛られています。そのため、このホワイト ペーパーでは、クエリ、視覚化、ディープラーニング フレームワークへのネイティブ統合などの形式と上流機能を再考し、図 2 に示すように ML ライフサイクルを完了することで、ディープラーニングのユース ケース向けに第 2 世代のデータ レイク機能を拡張します。 この論文はCC 4.0ライセンスの下で 。 arxivで公開されています

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Dataology.TECH

Dataology is the study of data. We publish the highest quality university papers & blog posts about the essence of data.

Dataology

このオーディオは、ストーリーの元の言語で制作されています。

ディープラーニングのためのレイクハウス「Deep Lake」：現在の課題

About Author

コメント

ラベル

この記事は

Related Stories

フォーラムからフィードへ: ソーシャルメディアアルゴリズムがデジタルインタラクションを形作る仕組み

AI/ML データレイクのリファレンスアーキテクチャを構築するためのアーキテクトガイド

18 種類の開発者ツールで生産性を向上しましょう 🚀🔥

ユニークなエコシステムを支えるビットコインUTXOのモデル

フォーラムからフィードへ: ソーシャルメディアアルゴリズムがデジタルインタラクションを形作る仕組み

AI/ML データレイクのリファレンスアーキテクチャを構築するためのアーキテクトガイド

18 種類の開発者ツールで生産性を向上しましょう 🚀🔥

ユニークなエコシステムを支えるビットコインUTXOのモデル

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps