著者:  （１）サスン・ハンバルズミアン、アクティブループ、カリフォルニア州マウンテンビュー、米国 （２）アビナブ・トゥリ、アクティブループ、カリフォルニア州マウンテンビュー、米国 （３）レヴォン・グカシアン、アクティブループ、カリフォルニア州マウンテンビュー、米国 （4）ファリズ・ラーマン、アクティブループ、カリフォルニア州マウンテンビュー、米国。  （５）Hrant Topchyan、Activeloop、カリフォルニア州マウンテンビュー、米国 （6）デビッド・イサヤン、アクティブループ、カリフォルニア州マウンテンビュー、米国 （7）マーク・マククエイド、アクティブループ、カリフォルニア州マウンテンビュー、米国 （8）ミカエル・ハルティニャン、アクティブループ、カリフォルニア州マウンテンビュー、米国 （9）Tatevik Hakobyan、Activeloop、カリフォルニア州マウンテンビュー、米国 （10）イヴォ・ストラニック、アクティブループ、カリフォルニア州マウンテンビュー、米国 （11）ダビット・ブニアティアン、アクティブループ、カリフォルニア州マウンテンビュー、米国。 リンク一覧 概要と序文 現在の課題 テンソル保存形式 ディープレイクシステムの概要 機械学習のユースケース パフォーマンスベンチマーク 議論と制限 関連作業 結論、謝辞、参考文献 5. 機械学習のユースケース このセクションでは、Deep Lake のアプリケーションについて説明します。 ディープラーニングアプリケーションの典型的なシナリオは、  (1) オブジェクトストレージバケットに収集された生のファイルセット。JPEG、PNG、MP4などのネイティブ形式の画像、ビデオ、その他の種類のマルチメディアデータが含まれる場合があります。  （2）リレーショナルデータベースに保存されている関連メタデータとラベル。オプションで、CSV、JSON、Parquet形式などの正規化された表形式で生データとともに同じバケットに保存することもできます。 図4に示すように、空のDeep Lakeデータセットが作成されます。次に、生データとメタデータの両方を格納するための空のテンソルが定義されます。テンソルの数は任意です。画像分類タスクの基本的な例では、2つのテンソルがあります。  • htypeが𝑖𝑚𝑎𝑔𝑒でサンプル圧縮がJPEGの画像テンソル • htype が 𝑐𝑙𝑎𝑠𝑠_𝑙𝑎𝑏𝑒𝑙 で、チャンク圧縮が LZ4 のテンソルにラベルを付けます。 テンソルを宣言した後、データをデータセットに追加できます。生の画像圧縮がテンソル サンプルの圧縮と一致する場合、バイナリは追加のデコードなしでチャンクに直接コピーされます。ラベル データは、SQL クエリまたは CSV テーブルからカテゴリ整数に抽出され、ラベル テンソルに追加されます。ラベル テンソル チャンクは、LZ4 圧縮を使用して保存されます。Deep Lake データはすべてバケットに保存され、自己完結型です。保存後、データには NumPy インターフェイスまたはストリーミング可能なディープ ラーニング データローダーとしてアクセスできます。次に、コンピューティング マシンで実行されるモデルが画像テンソルのストリームを反復処理し、モデルの出力を予測と呼ばれる新しいテンソルに保存します。さらに、Deep Lake データセットのトレーニング、バージョン管理、クエリ、および品質の検査方法については以下で説明します。  5.1 ディープラーニングモデルのトレーニング ディープラーニング モデルは、パーソナル コンピューターで行われる探索的トレーニングから、多数の GPU を含む分散マシンで行われる大規模なトレーニングまで、組織内の複数のレベルでトレーニングされます。長期ストレージからトレーニング クライアントにデータを移動するために必要な時間と労力は、多くの場合、トレーニング自体に匹敵します。Deep Lake は、下流のトレーニング プロセスをボトルネックにすることなくデータの高速ストリーミングを可能にすることでこの問題を解決し、ローカル ストレージにデータを複製するために必要なコストと時間を回避します。  5.2 データ系統とバージョン管理 ディープラーニング データは、新しいデータが追加され、既存のデータが品質管理されるにつれて、常に進化しています。分析とトレーニングのワークロードは、データが変更される一方で並行して発生します。したがって、特定のワークロードで使用されたデータ バージョンを知ることは、データとモデルのパフォーマンスの関係を理解するために重要です。Deep Lake を使用すると、ディープラーニングの実践者は、どのバージョンのデータが分析ワークロードで使用されたかを理解し、監査が必要な場合はこれらのバージョン間をタイム トラベルできます。すべてのデータは変更可能であるため、コンプライアンス関連のプライバシー要件を満たすように編集できます。コード用の Git と同様に、Deep Lake ではデータ ブランチの概念も導入されており、同僚の作業に影響を与えることなくデータの実験と編集が可能です。  5.3 データのクエリと分析 ディープラーニング モデルのトレーニングは、組織が特定のアプリケーション用に収集したすべてのデータに対して行われることはほとんどありません。トレーニング データセットは、多くの場合、モデルのパフォーマンスを向上させる条件に基づいて生データをフィルタリングすることによって構築されます。これには、データのバランス調整、冗長データの削除、特定の機能を含むデータの選択などが含まれます。Deep Lake は、ディープラーニング エンジニアが最高精度のモデルを生み出すデータセットを作成できるように、データをクエリおよび分析するためのツールを提供します。  5.4 データ検査と品質管理 教師なし学習は現実世界のユースケースでより適用しやすくなっていますが、ほとんどのディープラーニング アプリケーションは依然として教師あり学習に依存しています。教師あり学習システムの質はデータの品質によって決まり、多くの場合、手作業による徹底的なデータ検査によって達成されます。このプロセスは時間がかかるため、膨大な量のデータを非常に迅速に検査するためのツールを関係者に提供することが重要です。Deep Lake を使用すると、セットアップ時間やデータのダウンロードを必要とせずに、ブラウザーから任意のサイズのディープラーニング データセットを検査できます。さらに、ツールを拡張して、モデルの結果を実際の結果と比較することもできます。クエリとバージョン管理を組み合わせることで、データの反復的な改善に適用し、可能な限り最高のモデルを実現できます。 この論文はCC 4.0ライセンスの下で 。 arxivで公開されています

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Dataology.TECH

Dataology is the study of data. We publish the highest quality university papers & blog posts about the essence of data.

Dataology

このオーディオは、ストーリーの元の言語で制作されています。

ディープラーニングのためのレイクハウス、Deep Lake: 機械学習のユースケース

About Author

コメント

ラベル

この記事は

Related Stories

ユーザー中心の暗号通貨製品の作成: 顧客からのフィードバックの重要性

フォーラムからフィードへ: ソーシャルメディアアルゴリズムがデジタルインタラクションを形作る仕組み

クラウド移行を成功させるための完全ガイド: 戦略とベストプラクティス

海を航海する: データレイクを使用した本番環境レベルの RAG アプリケーションの開発

ユーザー中心の暗号通貨製品の作成: 顧客からのフィードバックの重要性

フォーラムからフィードへ: ソーシャルメディアアルゴリズムがデジタルインタラクションを形作る仕組み

クラウド移行を成功させるための完全ガイド: 戦略とベストプラクティス

海を航海する: データレイクを使用した本番環境レベルの RAG アプリケーションの開発

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps