paint-brush
数据加载器概况:结论、致谢和参考文献经过@serialization

数据加载器概况:结论、致谢和参考文献

太長; 讀書

在本文中,研究人员强调数据加载器是改进 ML 训练的关键,并比较了库的功能、可用性和性能。
featured image - 数据加载器概况:结论、致谢和参考文献
The Serialization Publication HackerNoon profile picture
0-item

作者:

(1) Iason Ofeidis,耶鲁大学电气工程系、耶鲁网络科学研究所,纽黑文{同等贡献};

(2)Diego Kiedanski,耶鲁大学电气工程系、耶鲁网络科学研究所,纽黑文{同等贡献};

(3) Leandros TassiulasLevon Ghukasyan,Activeloop,美国加利福尼亚州山景城,电气工程系,耶鲁大学网络科学研究所,纽黑文。

链接表

7. 结论

在本文中,我们探讨了 Pytorch 库的当前状况,这些库允许机器学习从业者将他们的数据集加载到他们的模型中。这些库提供了广泛的功能,包括提高速度、仅创建数据子集的视图以及从远程存储加载数据。我们认为远程加载对所有这些功能最有希望,因为它能够将数据存储和模型训练分离。尽管通过公共互联网加载的速度自然比从本地磁盘加载的速度慢,但一些库(如 Deep Lake)显示出了显著的效果(时间仅增加了 13%)。在大多数情况下,除了用于多 GPU 的 FFCV 和用于网络加载的 Deep Lake 之外,我们没有发现各个库之间的性能有显著差异,它们的表现非常出色。然而,我们确实注意到,大多数这些库的文档都不容易获得或不全面,这可能会导致设置配置错误。由于很难找到好的做法,程序员可能会使用在其他数据加载器中运行良好的方法,而这些方法在新库中不一定有效。目前,性能提升似乎不足以证明将现有代码库迁移到中小型作业是合理的。对于大型作业,切换到更快的库之一可能会显著降低成本。最后,我们相信,为机器学习应用程序设计的创新缓存系统可能是实现真正解耦数据集模型系统愿景的最后一块拼图。任何此类方法都必须建立在数据集汇总和主动学习方面的现有知识之上。

致谢

作者要感谢 Activeloop 团队在开发本项目期间提供的支持和见解。作者还要感谢 Tryolabs 和 Activeloop 为运行部分实验提供的资源。

参考

Abadi, M., Agarwal, A., Barham, P., Brevdo, E., Chen, Z., Citro, C., Corrado, GS, Davis, A., Dean, J., Devin, M., Ghemawat, S., Goodfellow, I., Harp, A., Irving, G., Isard, M., Jia, Y., Jozefowicz, R., Kaiser, L., Kudlur, M., Levenberg, J., Mane, D., Monga, R., Moore, S., Murray, D., ´ Olah, C., Schuster, M., Shlens, J., Steiner, B., Sutskever, I., Talwar, K., Tucker, P., Vanhoucke, V., Vasudevan, V., Viegas, F., Vinyals, O., Warden, P., Wattenberg, M., ´ Wicke, M.、Yu, Y. 和 Zheng, X. TensorFlow:异构系统上的大规模机器学习,2015 年。网址 https://www.tensorflow.org/。软件可从 tensorflow.org 获取。


Adolf, R.、Rama, S.、Reagen, B.、Wei, G.-Y. 和 Brooks, D. Fathom:现代深度学习方法的参考工作负载。2016 年 IEEE 工作负载特性国际研讨会 (IISWC),第 1-10 页。IEEE,2016 年。


Baidu-Research. DeepBench,2020. URL https://github.com/baidu-research/DeepBench。


Ben-Nun, T.、Besta, M.、Huber, S.、Ziogas, AN、Peter, D. 和 Hoefler, T. 高性能和可重复深度学习的模块化基准测试基础设施。2019 年 IEEE 国际并行和分布式处理研讨会 (IPDPS),第 66-77 页。IEEE,2019 年。


Bianco, S.、Cadene, R.、Celona, L. 和 Napoletano, P. 代表性深度神经网络架构的基准分析。IEEE access,6:64270–64277,2018 年


Buslaev, A.、Iglovikov, VI、Khvedchenya, E.、Parinov, A.、Druzhinin, M. 和 Kalinin, AA Albumentations:快速灵活的图像增强。Information,11(2): 125,2020 年。


Coleman, C.、Kang, D.、Narayanan, D.、Nardi, L.、Zhao, T.、Zhang, J.、Bailis, P.、Olukotun, K.、Re, C. 和 Zaharia, ´ M. 对 dawnbench 的分析,一种时间到准确度的机器学习性能基准。ACM SIGOPS 操作系统评论,53(1):14–25,2019 年。


Gao, W., Tang, F., Zhan, J., Lan, C., Luo, C., Wang, L., Dai, J., Cao, Z., Xiong, X., Jiang, Z. 等。Aibench:一种敏捷领域特定基准测试方法和人工智能基准测试套件。arXiv 预印本 arXiv:2002.07162,2020 年。


Hadidi, R.、Cao, J.、Xie, Y.、Asgari, B.、Krishna, T. 和 Kim, H. 描述深度神经网络在商用边缘设备上的部署。2019 年 IEEE 国际工作负载特性研讨会 (IISWC),第 35-48 页。IEEE,2019 年。


Hambardzumyan, S.、Tuli, A.、Ghukasyan, L.、Rahman, F.、Topchyan, H.、Isayan, D.、Harutyunyan, M.、Hakobyan, T.、Stranic, I. 和 Buniatyan, D. 深湖:深度学习的湖屋,2022 年。URL https://arxiv.org/abs/2209.10785。


香港浸会大学异构计算实验室,D. DLBench,2017 年。网址 https://github.com/hclhkbu/ dlbench。


Hinton, G.、Srivastava, N. 和 Swersky, K. 机器学习神经网络讲座 6a 小批量梯度下降概述。引用于,14(8):2,2012 年。


Hu, H., Jiang, C., Zhong, Y., Peng, Y., Wu, C., Zhu, Y., Lin, H., 和 Guo, C. dpro:用于加快分布式 dnn 训练的通用性能诊断和优化工具包。机器学习与系统论文集,第 4 卷:623–637 页,2022 年。


Ignatov, A.、Timofte, R.、Chou, W.、Wang, K.、Wu, M.、Hartley, T. 和 Van Gool, L. Ai 基准:在 Android 智能手机上运行深度神经网络。《欧洲计算机视觉会议 (ECCV) 研讨会论文集》,第 0-0 页,2018 年。


Krizhevsky, A.、Hinton, G. 等人。从微小图像中学习多层特征。2009 年。


Kumar, AV 和 Sivathanu, M. Quiver:用于深度学习的明智存储缓存。第 18 届 USENIX 文件和存储技术会议 (FAST 20),第 283–296 页,加利福尼亚州圣克拉拉,2020 年 2 月。USENIX 协会。ISBN 978-1-939133-12-0。URL https://www.usenix.org/conference/fast20/presentation/kumar。


Leclerc, G.、Ilyas, A.、Engstrom, L.、Park, SM、Salman, H. 和 Madry, A. ffcv。https://github.com/libffcv/ffcv/,2022 年。提交 xxxxxxx。


Li, S., Zhao, Y., Varma, R., Salpekar, O., Noordhuis, P., Li, T., Paszke, A., Smith, J., Vaughan, B., Damania, P., et al. Pytorch 分布式:加速数据并行训练的经验。arXiv 预印本 arXiv:2006.15704,2020 年。


Lin, T.-Y.、Maire, M.、Belongie, S.、Hays, J.、Perona, P.、Ramanan, D.、Dollar, P. 和 Zitnick, CL Microsoft coco:´ 上下文中的常见对象。欧洲计算机视觉会议,第 740-755 页。Springer,2014 年。


Liu, L., Wu, Y., Wei, W., Cao, W., Sahin, S., 和 Zhang, Q. 深度学习框架基准测试:设计考虑、指标及其他。2018 年 IEEE 第 38 届分布式计算系统国际会议 (ICDCS),第 1258-1269 页。IEEE,2018 年。


Mattson, P.、Cheng, C.、Diamos, G.、Coleman, C.、Micikevicius, P.、Patterson, D.、Tang, H.、Wei, G.-Y.、Bailis, P.、Bittorf, V. 等人。Mlperf 训练基准。机器学习与系统论文集,第 2 卷:336–349 页,2020 年。


Mohan, J.、Phanishayee, A.、Raniwala, A. 和 Chidambaram, V. 分析和缓解 dnn 训练中的数据停顿,2020 年。URL https://arxiv.org/abs/ 2007.06775。


Paszke, A.、Gross, S.、Massa, F.、Lerer, A.、Bradbury, J.、Chanan, G.、Killeen, T.、Lin, Z.、Gimelshein, N.、Antiga, L. 等人。Pytorch:一种命令式高性能深度学习库。神经信息处理系统进展,32,2019 年。


PyTorch 核心团队。PyTorch:PyTorch 文档。PyTorch。


Shi, S.、Wang, Q.、Xu, P. 和 Chu, X. 对最先进的深度学习软件工具进行基准测试。2016 年第 7 届云计算和大数据国际会议 (CCBD),第 99-104 页。IEEE,2016 年。


陶建华,杜志东,郭倩,兰红艳,张玲,周胜燕,徐玲娟,刘晨,刘红锋,唐诗等。Benchip:智能处理器基准测试。计算机科学技术学报,33(1):1–23,2018。


团队,AD Hub:一种用于人工智能的数据集格式。一种用于创建、存储、协作处理任意大小的人工智能数据集并将它们大规模传输到机器学习框架的简单 API。GitHub。注:https://github.com/activeloopai/Hub,2022a。


团队,SD Squirrel:一个 Python 库,使机器学习团队能够以协作、灵活和高效的方式共享、加载和转换数据。GitHub。注:https://github.com/merantix-momentum/squirrelcore,2022b。doi:10.5281/zenodo.6418280。


TorchData。Torchdata:一个常见模块化数据加载原语的原型库,用于轻松构建灵活且高性能的数据管道。https://github.com/pytorch/data,2021 年。


Wang, Y.、Wei, G.-Y. 和 Brooks, D. 深度学习硬件和软件平台分析的系统方法。机器学习与系统论文集,2:30–43,2020 年。


Webdataset。Webdataset 格式。https://github. com/webdataset/webdataset,2013 年。


Wu, Y.、Cao, W.、Sahin, S. 和 Liu, L. 深度学习框架的实验表征与分析。2018 年 IEEE 大数据国际会议 (Big Data),第 372-377 页。IEEE,2018 年。


Wu, Y.、Liu, L.、Pu, C.、Cao, W.、Sahin, S.、Wei, W. 和 Zhang, Q. 深度学习作为服务框架的比较测量研究。IEEE 服务计算学报,2019 年。


Zhang, W., Wei, W., Xu, L., Jin, L. 和 Li, C. Ai 矩阵:阿里巴巴数据中心的深度学习基准。arXiv 预印本 arXiv:1909.10562,2019 年。


Zhu, H., Akrout, M., Zheng, B., Pelegris, A., Phanishayee, A., Schroeder, B. 和 Pekhimenko, G. Tbd:对深度神经网络训练进行基准测试和分析。arXiv 预印本 arXiv:1803.06905,2018 年。