Data-Loader 환경 개요: 결론, 승인 및 참고 자료

~에 의해 The Serialization Publication6m2024/06/04

너무 오래; 읽다

이 문서에서 연구자들은 ML 훈련을 개선하고 라이브러리의 기능, 유용성 및 성능을 비교하는 핵심 요소로 데이터로더를 강조합니다.

featured image - Data-Loader 환경 개요: 결론, 승인 및 참고 자료

저자:

(1) Iason Ofeidis, 뉴헤이븐 소재 예일대학교 전기공학과 및 예일 네트워크 과학 연구소 {동등 기여};

(2) Diego Kiedanski, 뉴헤이븐 소재 예일대학교 전기공학과 및 예일 네트워크 과학 연구소 {동등 기여};

(3) Leandros TassiulasLevon Ghukasyan, Activeloop, Mountain View, CA, USA, 전기 공학과, Yale University, New Haven의 네트워크 과학 연구소.

링크 표

7. 결론

이 문서에서는 기계 학습 실무자가 데이터 세트를 모델에 로드할 수 있는 Pytorch 라이브러리의 현재 환경을 탐색했습니다. 이러한 라이브러리는 속도 향상, 데이터 하위 집합에 대한 보기 생성, 원격 저장소에서 데이터 로드 등 다양한 기능을 제공합니다. 우리는 원격 로딩이 데이터 저장과 모델 훈련의 분리를 가능하게 하기 때문에 이러한 모든 기능에 대해 가장 가능성이 높다고 믿습니다. 공용 인터넷을 통한 로딩 속도는 당연히 로컬 디스크보다 느리지만, Deep Lake와 같은 일부 라이브러리에서는 놀라운 결과(13% 증가에 불과)를 보였습니다. 대부분의 경우 멀티 GPU용 FFCV와 네트워크 로딩용 Deep Lake를 제외하면 라이브러리 전반에 걸쳐 상당한 성능 차이를 발견하지 못했는데, 이는 매우 좋은 성능을 보였습니다. 그러나 대부분의 라이브러리에 대한 설명서는 쉽게 사용할 수 없거나 포괄적이지 않아 설정이 잘못 구성될 수 있다는 점을 확인했습니다. 좋은 사례를 찾기가 어렵기 때문에 프로그래머는 새 라이브러리에서는 작동하지 않아도 되는 다른 데이터로더에서 잘 작동하는 것을 사용할 수 있습니다. 현 시점에서는 성능 향상이 중소 규모 작업을 위한 기존 코드 기반의 마이그레이션을 정당화할 만큼 크지 않은 것 같습니다. 대규모 작업의 경우 더 빠른 라이브러리 중 하나로 전환하면 비용이 크게 절감될 수 있습니다. 마지막으로, 우리는 기계 학습 애플리케이션을 위해 설계된 혁신적인 캐싱 시스템이 진정한 분리된 데이터 세트 모델 시스템의 비전을 실현하는 마지막 부분이 될 수 있다고 믿습니다. 그러한 접근 방식은 데이터 세트 요약 및 활성 학습에 대한 기존 지식을 구축해야 합니다.

감사의 말

저자는 이 프로젝트를 개발하는 동안 지원과 통찰력을 제공한 Activeloop 팀에 감사를 표하고 싶습니다. 저자는 또한 일부 실험을 실행하기 위한 리소스를 제공한 Tryolabs와 Activeloop 모두에게 감사의 말씀을 전하고 싶습니다.

참고자료

Abadi, M., Agarwal, A., Barham, P., Brevdo, E., Chen, Z., Citro, C., Corrado, GS, Davis, A., Dean, J., Devin, M., Ghemawat , S., Goodfellow, I., Harp, A., Irving, G., Isard, M., Jia, Y., Jozefowicz, R., Kaiser, L., Kudlur, M., Levenberg, J., Mane , D., Monga, R., Moore, S., Murray, D., ´ Olah, C., Schuster, M., Shlens, J., Steiner, B., Sutskever, I., Talwar, K., Tucker, P., Vanhoucke, V., Vasudevan, V., Viegas, F., Vinyals, O., Warden, P., Wattenberg, M., 'Wicke, M., Yu, Y. 및 Zheng, X . TensorFlow: 이기종 시스템에 대한 대규모 기계 학습, 2015. URL https://www.tensorflow.org/. tensorflow.org에서 제공되는 소프트웨어입니다.

Adolf, R., Rama, S., Reagen, B., Wei, G.-Y. 및 Brooks, D. Fathom: 최신 딥 러닝 방법에 대한 참조 워크로드. 2016년 IEEE 워크로드 특성화에 관한 국제 심포지엄(IISWC), 페이지 1–10. IEEE, 2016.

바이두-리서치. DeepBench, 2020. URL https://github.com/baidu-research/DeepBench.

Ben-Nun, T., Besta, M., Huber, S., Ziogas, AN, Peter, D. 및 Hoefler, T. 고성능 및 재현 가능한 딥 러닝을 위한 모듈식 벤치마킹 인프라. 2019 IEEE 국제 병렬 및 분산 처리 심포지엄(IPDPS), 페이지 66–77. IEEE, 2019.

Bianco, S., Cadene, R., Celona, L. 및 Napoletano, P. 대표적인 심층 신경망 아키텍처에 대한 벤치마크 분석. IEEE 액세스, 6:64270–64277, 2018

Buslaev, A., Iglovikov, VI, Khvedchenya, E., Parinov, A., Druzhinin, M. 및 Kalinin, AA 앨범화: 빠르고 유연한 이미지 확대. 정보, 11(2): 125, 2020.

Coleman, C., Kang, D., Narayanan, D., Nardi, L., Zhao, T., Zhang, J., Bailis, P., Olukotun, K., Re, C. 및 Zaharia, 'M . 시간 정확도 머신러닝 성능 벤치마크인 Dawnbench 분석. ACM SIGOPS 운영 체제 검토, 53(1):14–25, 2019.

Gao, W., Tang, F., Zhan, J., Lan, C., Luo, C., Wang, L., Dai, J., Cao, Z., Xiong, X., Jiang, Z., 외. Aibench: 민첩한 도메인별 벤치마킹 방법론 및 AI 벤치마크 제품군입니다. arXiv 사전 인쇄 arXiv:2002.07162, 2020.

Hadidi, R., Cao, J., Xie, Y., Asgari, B., Krishna, T. 및 Kim, H. 상용 엣지 장치에 심층 신경망 배포 특성화. 2019 IEEE 워크로드 특성화에 관한 국제 심포지엄(IISWC), 페이지 35–48. IEEE, 2019.

Hambardzumyan, S., Tuli, A., Ghukasyan, L., Rahman, F., Topchyan, H., Isayan, D., Harutyunyan, M., Hakobyan, T., Stranic, I. 및 Buniatyan, D. 딥 레이크: 딥 러닝을 위한 호수집, 2022. URL https://arxiv.org/abs/2209.10785.

HKBU의 이기종 컴퓨팅 연구소, D. DLBench, 2017. URL https://github.com/hclhkbu/dlbench.

Hinton, G., Srivastava, N. 및 Swersky, K. 기계 학습을 위한 신경망 강의 6a 미니 배치 경사 하강 개요. 인용, 14(8):2, 2012.

Hu, H., Jiang, C., Zhong, Y., Peng, Y., Wu, C., Zhu, Y., Lin, H., and Guo, C. dpro: 일반적인 성능 진단 및 최적화 툴킷 분산 DNS 교육을 가속화합니다. 기계 학습 및 시스템 간행물, 4:623–637, 2022.

Ignatov, A., Timofte, R., Chou, W., Wang, K., Wu, M., Hartley, T. 및 Van Gool, L. Ai 벤치마크: 안드로이드 스마트폰에서 심층 신경망 실행. 컴퓨터 비전에 관한 유럽 회의(ECCV) 워크숍 간행물, pp. 0–0, 2018.

Krizhevsky, A., Hinton, G., et al. 작은 이미지에서 여러 계층의 기능을 학습합니다. 2009.

Kumar, AV 및 Sivathanu, M. Quiver: 딥 러닝을 위한 정보가 담긴 스토리지 캐시입니다. 제18회 파일 및 스토리지 기술에 관한 USENIX 컨퍼런스(FAST 20), pp. 283–296, 캘리포니아주 산타클라라, 2020년 2월. USENIX 협회. ISBN 978-1-939133-12-0. URL https://www.usenix.org/conference/fast20/presentation/kumar.

Leclerc, G., Ilyas, A., Engstrom, L., Park, SM, Salman, H. 및 Madry, A. ffcv. https://github.com/libffcv/ffcv/, 2022. xxxxxxx를 커밋합니다.

Li, S., Zhao, Y., Varma, R., Salpekar, O., Noordhuis, P., Li, T., Paszke, A., Smith, J., Vaughan, B., Damania, P., 외. Pytorch 분산: 데이터 병렬 훈련 가속화 경험. arXiv 사전 인쇄 arXiv:2006.15704, 2020.

Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollar, P. 및 Zitnick, CL Microsoft coco: ´ 컨텍스트 내 공통 개체 . 컴퓨터 비전에 관한 유럽 회의, pp. 740–755. 스프링거, 2014.

Liu, L., Wu, Y., Wei, W., Cao, W., Sahin, S. 및 Zhang, Q. 딥 러닝 프레임워크 벤치마킹: 설계 고려 사항, 측정 기준 및 그 이상. 2018년 IEEE 38차 분산 컴퓨팅 시스템(ICDCS) 국제 회의, 1258-1269페이지. IEEE, 2018.

Mattson, P., Cheng, C., Diamos, G., Coleman, C., Micikevicius, P., Patterson, D., Tang, H., Wei, G.-Y., Bailis, P., Bittorf, V., et al. Mlperf 훈련 벤치마크. 기계 학습 및 시스템 간행물, 2:336–349, 2020.

Mohan, J., Phanishayee, A., Raniwala, A. 및 Chidambaram, V. dnn 교육에서 데이터 중단 분석 및 완화, 2020. URL https://arxiv.org/abs/2007.06775.

Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., Killeen, T., Lin, Z., Gimelshein, N., Antiga, L., 외. Pytorch: 명령형 스타일의 고성능 딥 러닝 라이브러리입니다. 신경 정보 처리 시스템의 발전, 32, 2019.

PyTorch 핵심 팀. PyTorch: PyTorch 문서. 파이토치.

Shi, S., Wang, Q., Xu, P. 및 Chu, X. 최첨단 딥 러닝 소프트웨어 도구 벤치마킹. 2016년 제7차 클라우드 컴퓨팅 및 빅데이터 국제 컨퍼런스(CCBD), pp. 99–104. IEEE, 2016.

Tao, J.-H., Du, Z.-D., Guo, Q., Lan, H.-Y., Zhang, L., Zhou, S.-Y., Xu, L.-J., Liu, C., Liu, H.-F., Tang, S. 등. 벤치칩: 벤치마킹 인텔리전스 프로세서. 컴퓨터 과학 및 기술 저널, 33(1):1–23, 2018.

Team, AD Hub: ai용 데이터 세트 형식입니다. 모든 크기의 AI 데이터 세트를 생성, 저장, 협업하고 이를 대규모로 ML 프레임워크로 스트리밍하기 위한 간단한 API입니다. GitHub. 참고: https://github.com/activeloopai/Hub, 2022a.

Team, SD Squirrel: ml 팀이 협업적이고 유연하며 효율적인 방식으로 데이터를 공유, 로드 및 변환할 수 있게 해주는 Python 라이브러리입니다. GitHub. 참고: https://github.com/merantix-momentum/squirrelcore, 2022b. 도이: 10.5281/zenodo.6418280.

토치데이터. Torchdata: 유연하고 성능이 뛰어난 데이터 파이프라인을 쉽게 구성하기 위한 공통 모듈식 데이터 로딩 기본 요소의 프로토타입 라이브러리입니다. https: //github.com/pytorch/data, 2021.

Wang, Y., Wei, G.-Y., Brooks, D. 딥 러닝 하드웨어 및 소프트웨어 플랫폼 분석을 위한 체계적인 방법론. 기계 학습 및 시스템 간행물, 2:30–43, 2020.

웹데이터세트. 웹데이터세트 형식. https://github. com/webdataset/webdataset, 2013.

Wu, Y., Cao, W., Sahin, S., Liu, L. 딥 러닝 프레임워크의 실험적 특성화 및 분석. 2018년 IEEE 빅데이터 국제회의(빅데이터), pp. 372–377. IEEE, 2018.

Wu, Y., Liu, L., Pu, C., Cao, W., Sahin, S., Wei, W. 및 Zhang, Q. 서비스 프레임워크로서의 딥 러닝에 대한 비교 측정 연구. 서비스 컴퓨팅에 대한 IEEE 거래, 2019.

Zhang, W., Wei, W., Xu, L., Jin, L. 및 Li, C. Ai 매트릭스: alibaba 데이터 센터에 대한 딥 러닝 벤치마크. arXiv 사전 인쇄 arXiv:1909.10562, 2019.

Zhu, H., Akrout, M., Zheng, B., Pelegris, A., Phanishayee, A., Schroeder, B. 및 Pekhimenko, G. Tbd: 심층 신경망 훈련 벤치마킹 및 분석. arXiv 사전 인쇄 arXiv:1803.06905, 2018.

이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.

L O A D I N G
. . . comments & more!

About Author

The Serialization Publication@serialization

We cover the most cutting edge academic research and expert blog posts on serialization. Also big fans of the Serial pod

Read my stories

Data-Loader 환경 개요: 결론, 승인 및 참고 자료

너무 오래; 읽다

링크 표

7. 결론

감사의 말

참고자료

About Author

태그 걸기

Languages

이 기사는 다음에서 발표되었습니다....

관련 기사