paint-brush
数据加载器概况:相关工作经过@serialization

数据加载器概况:相关工作

太長; 讀書

在本文中,研究人员强调数据加载器是改进 ML 训练的关键,并比较了库的功能、可用性和性能。
featured image - 数据加载器概况:相关工作
The Serialization Publication HackerNoon profile picture
0-item

作者:

(1) Iason Ofeidis,耶鲁大学电气工程系、耶鲁网络科学研究所,纽黑文{同等贡献};

(2)Diego Kiedanski,耶鲁大学电气工程系、耶鲁网络科学研究所,纽黑文{同等贡献};

(3) Leandros TassiulasLevon Ghukasyan,Activeloop,美国加利福尼亚州山景城,电气工程系,耶鲁大学网络科学研究所,纽黑文。

链接表

6.相关工作

本节介绍了社区对深度学习库、模型和框架进行基准测试的几项努力。


目前,有大量工作致力于对深度学习工具和方法进行基准测试。MLPerf(Mattson 等人,2020 年)可以说是针对现代 ML 工作负载最受欢迎的 ML 基准测试项目,它针对训练和推理,涵盖各种 AI 任务。作者使用达到给定准确度水平所需的训练时间作为客观指标。此指标需要增加计算资源,不太适合测试数据加载器参数。DeepBench(百度研究,2020 年)是百度研究的一个开源项目,专注于深度学习堆栈中的内核级操作;它对在库中实现并直接在底层硬件上执行的单个操作(例如矩阵乘法)的性能进行基准测试。同样,AI Matrix(Zhang 等人,2019 年)使用微基准测试来涵盖基本运算符,测量全连接层和其他常见层的性能,并通过提供综合基准测试来匹配实际工作负载的特征。


框架比较:本节包括对不同深度学习框架(如 PyTorch、TensorFlow 等)进行基准测试和比较的努力。


在 Deep500 (Ben-Nun et al., 2019) 中,作者提供了一个用于测量深度学习训练性能的模块化软件框架;虽然可定制,但它缺乏超参数基准测试,并且不提供易于使用的方式来添加和试验新的库和工作流程。AIBench (Gao et al., 2020) 和 DAWNBench (Coleman et al., 2019) 都是端到端基准测试,后者是第一个用于测量深度学习系统端到端性能的多参赛者基准测试竞赛。与 MLPerf 一样,没有一个测试在其工作流程中检查替代加载库的影响。在 (Wu et al., 2019) 中,作者对不同并行计算库和批处理大小的 CPU 和内存使用模式及其对准确性和训练效率的影响进行了系统分析。该分析与我们的工作很接近;但是,它没有提供与新库交互和对新库进行基准测试的开源资源。


在 (Shi et al., 2016) 中,作者根据不同神经网络(例如全连接、卷积和循环神经网络)的性能比较了深度学习框架。dPRO (Hu et al., 2022) 专注于分布式(多 GPU)训练基准,它利用一个分析器收集跨多个框架的分布式 DNN 训练的运行时轨迹。DLBench(香港浸会大学异构计算实验室,2017)是一个用于测量不同深度学习工具(如 Caffe、Tensorflow 和 MXNet)的基准框架。在 (Liu et al., 2018) 中,作者研究了每个框架的默认配置对模型性能(时间和准确性)的影响,展示了 DNN 参数和超参数与数据集特定特征之间的复杂相互作用。然而,实验仅包括每个框架的默认配置,缺乏对非默认设置的任何分析。在 (Wu et al., 2018) 中,作者测试了框架的默认配置,并尝试为每个数据集找到最佳配置;他们还检查了数据加载过程,但没有评估第三方库。本段中所有之前发表的作品,虽然与我们的作品有许多相似之处,但它们有一个显着的区别;他们没有对 PyTorch 或本文中描述的数据加载库生态系统进行任何分析或基准测试,正如介绍中所述,它是目前最流行的深度学习框架之一,在工业界和学术界都得到了广泛的应用。


不同 DNN 架构和硬件的比较: ParaDNN (Wang et al., 2020) 生成参数化的端到端模型以在目标平台上运行,例如改变批处理大小以挑战底层硬件的界限,但重点是比较专用平台 (TPU v2/v3) 和设备架构 (TPU、GPU、CPU)。与 ParaDNN 相关的是 (Bianco et al., 2018) 的工作,它基于对具有不同计算资源的硬件系统的分析,提供了一个全面的工具,用于选择适当的架构以响应实际部署和应用中的资源限制。然而,它更专注于深度学习模型的设计,而不是实现这些模型的深度学习框架。虽然 Fathom (Adolf et al., 2016) 和 TBD Suite (Zhu et al., 2018) 都专注于在各种任务和各种工作负载中评估完整的模型架构,但它们在这方面受到限制,并且缺乏最先进的训练创新的基准。


其他设备: AI Benchmark(Ignatov 等人,2018 年)可以说是第一个移动推理基准套件。然而,其结果仅关注 Android 智能手机,并且仅测量延迟,同时提供的汇总分数明确未能指定质量目标。(Hadidi 等人,2019 年)从执行时间、能耗和温度角度研究了 DNN 的边缘推理。(Tao 等人,2018 年)涵盖了具有各种硬件行为的配置,例如分支预测率和数据重用距离,并评估了智能处理器和硬件平台的准确性、性能和能耗。这两项工作都专注于不同范围的设备,例如边缘设备和智能处理器,这超出了本文的范围。