Auteurs:
(1) Iason Ofeidis, Département de génie électrique et Yale Institute for Network Science, Yale University, New Haven {Contribution égale} ;
(2) Diego Kiedanski, Département de génie électrique et Yale Institute for Network Science, Yale University, New Haven {Contribution égale} ;
(3) Leandros TassiulasLevon Ghukasyan, Activeloop, Mountain View, Californie, États-Unis, Département de génie électrique et Yale Institute for Network Science, Yale University, New Haven.
Cette section décrit plusieurs efforts de la communauté pour comparer les bibliothèques, modèles et frameworks d'apprentissage profond.
Il existe un vaste corpus de travaux visant à évaluer les outils et méthodes d’apprentissage en profondeur. MLPerf (Mattson et al., 2020) est sans doute le projet d'analyse comparative de ML le plus populaire pour les charges de travail de ML modernes, qui cible à la fois la formation et l'inférence, couvrant une variété de tâches d'IA. Les auteurs utilisent comme mesure objective le temps de formation nécessaire pour atteindre un niveau de précision donné. Cette métrique nécessite des ressources de calcul accrues et n'est pas bien adaptée pour tester les paramètres du chargeur de données. DeepBench (Baidu-Research, 2020) est un projet open source de Baidu Research axé sur les opérations au niveau du noyau au sein de la pile d'apprentissage profond ; il évalue les performances d'opérations individuelles (par exemple, multiplication matricielle) telles qu'implémentées dans les bibliothèques et exécutées directement sur le matériel sous-jacent. De même, AI Matrix (Zhang et al., 2019) utilise des microbenchmarks pour couvrir les opérateurs de base, mesurant les performances des couches entièrement connectées et autres couches communes, et fait correspondre les caractéristiques des charges de travail réelles en proposant des benchmarks synthétiques.
Comparaison des frameworks : cette section comprend des efforts d'analyse comparative et de comparaison de différents frameworks d'apprentissage en profondeur, tels que PyTorch, TensorFlow, etc.
Dans Deep500 (Ben-Nun et al., 2019), les auteurs proposent un cadre logiciel modulaire pour mesurer les performances de l'entraînement DL ; bien que personnalisable, il manque d'analyse comparative des hyperparamètres et ne fournit pas un moyen facile à utiliser pour ajouter et expérimenter de nouvelles bibliothèques et flux de travail. AIBench (Gao et al., 2020) et DAWNBench (Coleman et al., 2019) sont tous deux des benchmarks de bout en bout, ce dernier étant le premier concours de benchmarks multi-participants à mesurer les performances de bout en bout de systèmes d’apprentissage profond. Comme pour MLPerf, aucun n’examine l’effet du chargement alternatif de bibliothèques dans leurs flux de travail. Dans (Wu et al., 2019), les auteurs présentent une analyse systématique des modèles d'utilisation du processeur et de la mémoire pour différentes bibliothèques de calcul parallèle et tailles de lots, ainsi que leur impact sur la précision et l'efficacité de la formation. Cette analyse est proche de nos travaux ; cependant, il ne fournit pas de ressource open source pour interagir avec et comparer de nouvelles bibliothèques.
Dans (Shi et al., 2016), les auteurs comparent des cadres d'apprentissage profond basés sur les performances de différents réseaux de neurones (par exemple, les réseaux de neurones entièrement connectés, convolutifs et récurrents). dPRO (Hu et al., 2022) se concentre sur les benchmarks de formation distribuée (multi-GPU) en utilisant un profileur qui collecte les traces d'exécution de la formation DNN distribuée sur plusieurs frameworks. DLBench (Heterogeneous Computing Lab at HKBU, 2017) est un framework de référence pour mesurer différents outils d'apprentissage en profondeur, tels que Caffe, Tensorflow et MXNet. Dans (Liu et al., 2018), les auteurs étudient l'impact des configurations par défaut de chaque framework sur les performances du modèle (temps et précision), démontrant les interactions complexes des paramètres et des hyperparamètres DNN avec des caractéristiques spécifiques à un ensemble de données. Pourtant, les expériences incluent uniquement les configurations par défaut de chaque framework et manquent de toute analyse des paramètres autres que ceux par défaut. Dans (Wu et al., 2018), les auteurs testent les configurations par défaut des frameworks et tentent de trouver les configurations optimales pour chaque ensemble de données ; ils examinent également le processus de chargement des données mais n'évaluent pas les bibliothèques tierces. Tous les travaux précédemment publiés dans ce paragraphe, bien qu'ils présentent de nombreuses similitudes avec notre travail, ils présentent une distinction significative avec lui ; ils n'effectuent aucune analyse ni analyse comparative sur PyTorch ou sur l'écosystème de bibliothèques de chargement de données décrit dans cet article, qui, comme indiqué dans l'introduction, est actuellement l'un des cadres d'apprentissage en profondeur les plus populaires et largement utilisés à la fois dans l'industrie et dans le monde universitaire. .
Comparaison de différentes architectures et matériels DNN : ParaDNN (Wang et al., 2020) génère des modèles paramétrés de bout en bout à exécuter sur les plates-formes cibles, par exemple en faisant varier la taille du lot pour défier les limites du matériel sous-jacent, mais se concentre sur le comparaison des plateformes spécialisées (TPU v2/v3) et des architectures d'appareils (TPU, GPU, CPU). Le travail de (Bianco et al., 2018) est pertinent pour ParaDNN, qui fournit un outil complet pour sélectionner l'architecture appropriée répondant aux contraintes de ressources dans les déploiements et applications pratiques, basé sur l'analyse de systèmes matériels avec diverses ressources informatiques. Cependant, il se concentre davantage sur la conception de modèles d’apprentissage profond que sur les cadres d’apprentissage profond sur lesquels ils sont mis en œuvre. Alors que Fathom (Adolf et al., 2016) et TBD Suite (Zhu et al., 2018) se concentrent tous deux sur l'évaluation d'architectures de modèles complets pour une grande variété de tâches et de charges de travail diverses, ils sont limités sur ces derniers et manquent de références pour l'état. -des innovations en matière de formation.
Autres appareils : AI Benchmark (Ignatov et al., 2018) est sans doute la première suite de benchmarks d'inférence mobile. Cependant, ses résultats se concentrent uniquement sur les smartphones Android et ne mesurent que la latence tout en fournissant un score récapitulatif qui omet explicitement de spécifier des objectifs de qualité. (Hadidi et al., 2019) étudient l'inférence en périphérie des DNN du point de vue du temps d'exécution, de la consommation d'énergie et de la température. (Tao et al., 2018) couvre les configurations avec divers comportements matériels, tels que les taux de prédiction des branches et les distances de réutilisation des données, et évalue la précision, les performances et l'énergie des processeurs d'intelligence et des plates-formes matérielles. Ces deux travaux se concentrent sur une gamme différente de dispositifs, tels que les dispositifs de pointe et les processeurs intelligents, ce qui sort du cadre de ce travail.
Cet article est disponible sur arxiv sous licence CC 4.0.