paint-brush
データローダーの概要: 関連作業@serialization

データローダーの概要: 関連作業

長すぎる; 読むには

この論文では、研究者はデータローダーを ML トレーニング改善の鍵として強調し、ライブラリの機能性、使いやすさ、パフォーマンスを比較しています。
featured image - データローダーの概要: 関連作業
The Serialization Publication HackerNoon profile picture
0-item

著者:

(1)イアソン・オフェイディス、イェール大学電気工学部およびイェールネットワーク科学研究所、ニューヘブン {同等の貢献}

(2)ディエゴ・キエダンスキ、イェール大学電気工学部およびイェールネットワーク科学研究所、ニューヘブン {同等の貢献}

(3)Leandros TassiulasLevon Ghukasyan、Activeloop、米国カリフォルニア州マウンテンビュー、電気工学部およびイェール大学ネットワーク科学研究所、ニューヘブン。

リンク一覧

6. 関連研究

このセクションでは、ディープラーニング ライブラリ、モデル、フレームワークをベンチマークするためのコミュニティでのいくつかの取り組みについて説明します。


ディープラーニングのツールと手法のベンチマークに向けた膨大な研究が存在します。MLPerf (Mattson et al., 2020) は、さまざまな AI タスクにわたるトレーニングと推論の両方を対象とする、最新の ML ワークロード向けの最も人気のある ML ベンチマーク プロジェクトと言えるでしょう。著者らは、特定の精度レベルに到達するために必要なトレーニング時間を客観的な指標として使用しています。この指標は、計算リソースの増加を必要とするため、データローダー パラメーターのテストには適していません。DeepBench (Baidu-Research, 2020) は、ディープラーニング スタック内のカーネル レベルの操作に焦点を当てた Baidu Research のオープンソース プロジェクトです。ライブラリに実装され、基盤となるハードウェアで直接実行される個々の操作 (行列乗算など) のパフォーマンスをベンチマークします。同様に、AI Matrix (Zhang et al., 2019) は、マイクロベンチマークを使用して基本的な演算子をカバーし、完全に接続されたレイヤーやその他の一般的なレイヤーのパフォーマンスを測定し、合成ベンチマークを提供することで実際のワークロードの特性と一致します。


フレームワークの比較:このセクションには、PyTorch、TensorFlow などのさまざまなディープラーニング フレームワークのベンチマークと比較に向けた取り組みが含まれています。


Deep500 (Ben-Nun et al., 2019) では、著者らは DL トレーニング パフォーマンスを測定するためのモジュール式ソフトウェア フレームワークを提供しています。カスタマイズ可能ではありますが、ハイパーパラメータ ベンチマークがなく、新しいライブラリやワークフローを追加して実験するための使いやすい方法は提供されていません。AIBench (Gao et al., 2020) と DAWNBench (Coleman et al., 2019) はどちらもエンドツーエンドのベンチマークであり、後者はディープラーニング システムのエンドツーエンドのパフォーマンスを測定する最初のマルチエントラント ベンチマーク コンペティションです。MLPerf と同様に、ワークフローで代替のロード ライブラリの効果を調べているものはありません。(Wu et al., 2019) では、著者らはさまざまな並列コンピューティング ライブラリとバッチ サイズの CPU とメモリの使用パターンと、それらが精度とトレーニング効率に与える影響の体系的な分析を示しています。この分析は私たちの研究に近いものです。ただし、新しいライブラリを操作したりベンチマークしたりするためのオープンソース リソースは提供されません。


(Shi et al., 2016) では、著者らはさまざまなニューラル ネットワーク (例: 全結合型、畳み込み型、再帰型ニューラル ネットワーク) のパフォーマンスに基づいてディープラーニング フレームワークを比較しています。dPRO (Hu et al., 2022) は、複数のフレームワークにわたる分散 DNN トレーニングのランタイム トレースを収集するプロファイラーを利用して、分散 (マルチ GPU) トレーニング ベンチマークに焦点を当てています。DLBench (HKBU の Heterogeneous Computing Lab、2017) は、Caffe、Tensorflow、MXNet などのさまざまなディープラーニング ツールを測定するためのベンチマーク フレームワークです。(Liu et al., 2018) では、著者らは各フレームワークのデフォルト構成がモデルのパフォーマンス (時間と精度) に与える影響を調査し、データセット固有の特性を持つ DNN パラメーターとハイパーパラメーターの複雑な相互作用を示しています。ただし、実験には各フレームワークのデフォルト構成のみが含まれ、デフォルト以外の設定の分析はありません。 (Wu et al., 2018) では、著者らはフレームワークのデフォルト設定をテストし、各データセットに最適なものを見つけようとしています。また、データ読み込みプロセスも調べていますが、サードパーティのライブラリは評価していません。この段落でこれまでに発表されたすべての研究は、私たちの研究と多くの類似点がありますが、1 つの重要な違いがあります。それは、PyTorch や、この論文で説明されているデータ読み込み用のライブラリのエコシステムに関する分析やベンチマークを行っていないことです。PyTorch は、導入部で述べたように、現在、産業界と学術界の両方で広く利用されている最も人気のあるディープラーニング フレームワークの 1 つです。


さまざまな DNN アーキテクチャとハードウェアの比較: ParaDNN (Wang ら、2020 年) は、基盤となるハードウェアの限界に挑戦するためにバッチ サイズを変更するなど、ターゲット プラットフォームで実行するためのパラメーター化されたエンドツーエンドのモデルを生成しますが、専用プラットフォーム (TPU v2/v3) とデバイス アーキテクチャ (TPU、GPU、CPU) の比較に重点を置いています。ParaDNN に関連するのは (Bianco ら、2018 年) の研究で、これは、多様な計算リソースを備えたハードウェア システムの分析に基づいて、実際の展開とアプリケーションにおけるリソースの制約に応じて適切なアーキテクチャを選択するための包括的なツールを提供します。ただし、これは、これらが実装されるディープラーニング フレームワークよりも、ディープラーニング モデルの設計に重点を置いています。 Fathom (Adolf et al., 2016) と TBD Suite (Zhu et al., 2018) はどちらも、さまざまなタスクと多様なワークロードにわたる完全なモデル アーキテクチャの評価に重点を置いていますが、これらには限界があり、最先端のトレーニング イノベーションのベンチマークが欠けています。


Other Devices: AI Benchmark (Ignatov 他、2018 年) は、おそらく最初のモバイル推論ベンチマーク スイートです。ただし、その結果は Android スマートフォンのみに焦点を当てており、レイテンシのみを測定し、品質目標を明示的に指定していない要約スコアを提供しています。 (Hadidi 他、2019 年) は、実行時間、エネルギー消費、温度の観点から、DNN のエッジ内推論を調査しています。 (Tao 他、2018 年) は、分岐予測率やデータ再利用距離など、さまざまなハードウェア動作を持つ構成をカバーし、インテリジェンス プロセッサとハードウェア プラットフォームの精度、パフォーマンス、エネルギーを評価しています。これらの研究はどちらも、エッジ デバイスやインテリジェンス プロセッサなどの異なる範囲のデバイスに焦点が当てられており、これはこの研究の範囲外です。


この論文はCC 4.0ライセンスの下でarxivで公開されています