저자:
(1) Iason Ofeidis, 뉴헤이븐 소재 예일 대학교 전기공학과 및 예일 네트워크 과학 연구소 {동등 기여};
(2) Diego Kiedanski, 뉴헤이븐 소재 예일대학교 전기공학과 및 예일 네트워크 과학 연구소 {동등 기여};
(3) Leandros TassiulasLevon Ghukasyan, Activeloop, Mountain View, CA, USA, 전기 공학과, Yale University, New Haven의 네트워크 과학 연구소.
이 섹션에서는 딥 러닝 라이브러리, 모델 및 프레임워크를 벤치마킹하기 위한 커뮤니티의 여러 노력에 대해 설명합니다.
딥러닝 도구와 방법을 벤치마킹하기 위한 많은 작업이 존재합니다. MLPerf(Mattson et al., 2020)는 다양한 AI 작업에 걸쳐 훈련과 추론을 모두 대상으로 하는 최신 ML 워크로드를 위한 가장 인기 있는 ML 벤치마킹 프로젝트입니다. 저자는 주어진 정확도 수준에 도달하는 데 필요한 훈련 시간을 객관적인 측정 기준으로 사용합니다. 이 측정항목에는 증가된 계산 리소스가 필요하며 데이터로더 매개변수를 테스트하는 데 적합하지 않습니다. DeepBench(Baidu-Research, 2020)는 딥 러닝 스택 내 커널 수준 작업에 초점을 맞춘 Baidu Research의 오픈소스 프로젝트입니다. 이는 라이브러리에서 구현되고 기본 하드웨어에서 직접 실행되는 개별 연산(예: 행렬 곱셈)의 성능을 벤치마킹합니다. 마찬가지로 AI Matrix(Zhang et al., 2019)는 마이크로벤치마크를 사용하여 기본 연산자를 포괄하고 완전 연결 및 기타 공통 계층의 성능을 측정하며 합성 벤치마크를 제공하여 실제 워크로드의 특성을 일치시킵니다.
프레임워크 비교: 이 섹션에는 PyTorch, TensorFlow 등과 같은 다양한 딥 러닝 프레임워크를 벤치마킹하고 비교하기 위한 노력이 포함되어 있습니다.
Deep500(Ben-Nun et al., 2019)에서 저자는 DL 훈련 성능을 측정하기 위한 모듈식 소프트웨어 프레임워크를 제공합니다. 사용자 정의가 가능하지만 하이퍼파라미터 벤치마킹이 부족하고 새로운 라이브러리 및 작업 흐름을 추가하고 실험하는 사용하기 쉬운 방법을 제공하지 않습니다. AIBench(Gao et al., 2020) 및 DAWNBench(Coleman et al., 2019)는 모두 엔드 투 엔드 벤치마크이며, 후자는 AIBench의 엔드 투 엔드 성능을 측정하는 최초의 다중 참가자 벤치마크 경쟁입니다. 딥러닝 시스템. MLPerf와 마찬가지로 워크플로에서 대체 로딩 라이브러리의 효과를 조사하는 사람은 없습니다. (Wu et al., 2019)에서 저자는 다양한 병렬 컴퓨팅 라이브러리 및 배치 크기에 대한 CPU 및 메모리 사용 패턴과 정확도 및 교육 효율성에 미치는 영향에 대한 체계적인 분석을 제시합니다. 이 분석은 우리 작업과 가깝습니다. 그러나 새로운 라이브러리와 상호 작용하고 벤치마킹할 수 있는 오픈 소스 리소스는 제공하지 않습니다.
(Shi et al., 2016)에서 저자는 다양한 신경망(예: Fully Connected, Convolutional 및 Recurrent Neural Networks)의 성능을 기반으로 딥 러닝 프레임워크를 비교합니다. dPRO(Hu et al., 2022)는 여러 프레임워크에 걸쳐 분산 DNN 교육의 런타임 추적을 수집하는 프로파일러를 활용하여 분산(다중 GPU) 교육 벤치마크에 중점을 둡니다. DLBench(HKBU의 Heterogeneous Computing Lab, 2017)는 Caffe, Tensorflow 및 MXNet과 같은 다양한 딥 러닝 도구를 측정하기 위한 벤치마크 프레임워크입니다. (Liu et al., 2018)에서 저자는 각 프레임워크의 기본 구성이 모델 성능(시간 및 정확도)에 미치는 영향을 연구하여 DNN 매개변수 및 하이퍼 매개변수와 데이터 세트별 특성의 복잡한 상호 작용을 보여줍니다. 그러나 실험에는 각 프레임워크의 기본 구성만 포함되어 있으며 기본이 아닌 설정에 대한 분석은 부족합니다. (Wu et al., 2018)에서 저자는 프레임워크의 기본 구성을 테스트하고 각 데이터 세트에 대한 최적의 구성을 찾으려고 시도합니다. 또한 데이터 로딩 프로세스를 검사하지만 타사 라이브러리를 평가하지는 않습니다. 이 단락에서 이전에 출판된 모든 작업은 우리 작업과 많은 유사점을 갖고 있지만 한 가지 중요한 차이점이 있습니다. 그들은 PyTorch 또는 이 문서에 설명된 데이터 로딩을 위한 라이브러리 생태계에 대한 분석이나 벤치마킹을 수행하지 않습니다. 이는 서문에서 언급했듯이 현재 산업계와 학계 모두에서 널리 활용되는 가장 인기 있는 딥 러닝 프레임워크 중 하나입니다. .
다양한 DNN 아키텍처 및 하드웨어 비교: ParaDNN(Wang et al., 2020)은 기본 하드웨어의 경계에 도전하기 위해 배치 크기를 변경하는 등 대상 플랫폼에서 실행할 매개변수화된 엔드투엔드 모델을 생성하지만 특수 플랫폼(TPU v2/v3)과 장치 아키텍처(TPU, GPU, CPU) 비교. ParaDNN과 관련된 작업은 (Bianco et al., 2018)의 작업으로, 다양한 컴퓨팅 리소스를 갖춘 하드웨어 시스템 분석을 기반으로 실제 배포 및 애플리케이션에서 리소스 제약에 대응하는 적절한 아키텍처를 선택하기 위한 포괄적인 도구를 제공합니다. 그러나 이는 구현되는 딥 러닝 프레임워크보다 딥 러닝 모델의 설계에 더 중점을 둡니다. Fathom(Adolf et al., 2016) 및 TBD Suite(Zhu et al., 2018)는 모두 다양한 작업과 다양한 워크로드에 걸쳐 전체 모델 아키텍처를 평가하는 데 중점을 두지만 이에 제한이 있고 상태에 대한 벤치마크가 부족합니다. - 최첨단 교육 혁신.
기타 장치: AI 벤치마크(Ignatov et al., 2018)는 틀림없이 최초의 모바일 추론 벤치마크 제품군입니다. 그러나 결과는 Android 스마트폰에만 초점을 맞추고 지연 시간만 측정하며 품질 목표를 명시적으로 지정하지 못하는 요약 점수를 제공합니다. (Hadidi et al., 2019)은 실행 시간, 에너지 소비 및 온도 관점에서 DNN의 최첨단 추론을 조사합니다. (Tao et al., 2018)은 분기 예측 속도 및 데이터 재사용 거리와 같은 다양한 하드웨어 동작을 포함하는 구성을 다루며 인텔리전스 프로세서 및 하드웨어 플랫폼의 정확성, 성능 및 에너지를 평가합니다. 이 두 작업 모두 엣지 디바이스, 인텔리전스 프로세서 등 다양한 범위의 장치에 고정되어 있으며 이는 이 작업의 범위를 벗어납니다.
이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.