Autores:
(1) Iason Ofeidis, Departamento de Ingeniería Eléctrica e Instituto de Ciencias de Redes de Yale, Universidad de Yale, New Haven {Contribución igual};
(2) Diego Kiedanski, Departamento de Ingeniería Eléctrica e Instituto de Ciencias de Redes de Yale, Universidad de Yale, New Haven {Contribución igual};
(3) Leandros Tassiulas Levon Ghukasyan, Activeloop, Mountain View, CA, EE. UU., Departamento de Ingeniería Eléctrica e Instituto de Ciencias de Redes de Yale, Universidad de Yale, New Haven.
Esta sección describe varios esfuerzos en la comunidad para comparar bibliotecas, modelos y marcos de aprendizaje profundo.
Existe una gran cantidad de trabajo para comparar herramientas y métodos de aprendizaje profundo. MLPerf (Mattson et al., 2020) es posiblemente el proyecto de evaluación comparativa de ML más popular para cargas de trabajo de ML modernas que apunta tanto al entrenamiento como a la inferencia, y abarca una variedad de tareas de IA. Los autores utilizan como métrica objetiva el tiempo de entrenamiento necesario para alcanzar un nivel de precisión determinado. Esta métrica requiere mayores recursos computacionales y no es muy adecuada para probar los parámetros del cargador de datos. DeepBench (Baidu-Research, 2020) es un proyecto de código abierto de Baidu Research centrado en operaciones a nivel de kernel dentro de la pila de aprendizaje profundo; compara el rendimiento de operaciones individuales (por ejemplo, multiplicación de matrices) implementadas en bibliotecas y ejecutadas directamente en el hardware subyacente. De manera similar, AI Matrix (Zhang et al., 2019) utiliza microbenchmarks para cubrir operadores básicos, midiendo el rendimiento para capas totalmente conectadas y otras capas comunes, y iguala las características de las cargas de trabajo reales ofreciendo benchmarks sintéticos.
Comparación de marcos: esta sección incluye esfuerzos para realizar evaluaciones comparativas y comparar diferentes marcos de aprendizaje profundo, como PyTorch, TensorFlow, etc.
En Deep500 (Ben-Nun et al., 2019), los autores proporcionan un marco de software modular para medir el rendimiento del entrenamiento DL; si bien es personalizable, carece de evaluación comparativa de hiperparámetros y no proporciona una forma fácil de usar para agregar y experimentar con bibliotecas y flujos de trabajo novedosos. AIBench (Gao et al., 2020) y DAWNBench (Coleman et al., 2019) son puntos de referencia de un extremo a otro, siendo este último la primera competencia de referencia de múltiples participantes para medir el rendimiento de un extremo a otro de sistemas de aprendizaje profundo. Al igual que con MLPerf, ninguno examina el efecto de la carga de bibliotecas alternativas en sus flujos de trabajo. En (Wu et al., 2019), los autores presentan un análisis sistemático de los patrones de uso de CPU y memoria para diferentes bibliotecas de computación paralela y tamaños de lotes y su impacto en la precisión y la eficiencia del entrenamiento. Este análisis está cerca de nuestro trabajo; sin embargo, no proporciona un recurso de código abierto para interactuar y comparar nuevas bibliotecas.
En (Shi et al., 2016), los autores comparan marcos de aprendizaje profundo basados en el rendimiento de diferentes redes neuronales (por ejemplo, redes neuronales totalmente conectadas, convolucionales y recurrentes). dPRO (Hu et al., 2022) se centra en puntos de referencia de entrenamiento distribuido (multi-GPU) mediante el uso de un generador de perfiles que recopila rastros de tiempo de ejecución del entrenamiento DNN distribuido en múltiples marcos. DLBench (Heterogeneous Computing Lab at HKBU, 2017) es un marco de referencia para medir diferentes herramientas de aprendizaje profundo, como Caffe, Tensorflow y MXNet. En (Liu et al., 2018) los autores estudian el impacto de las configuraciones predeterminadas de cada marco en el rendimiento del modelo (tiempo y precisión), demostrando las interacciones complejas de los parámetros e hiperparámetros DNN con características específicas del conjunto de datos. Sin embargo, los experimentos incluyen solo las configuraciones predeterminadas de cada marco y carecen de análisis de configuraciones no predeterminadas. En (Wu et al., 2018), los autores prueban configuraciones predeterminadas de marcos e intentan encontrar las óptimas para cada conjunto de datos; También examinan el proceso de carga de datos pero no evalúan bibliotecas de terceros. Todos los trabajos publicados anteriormente en este párrafo, si bien tienen numerosas similitudes con nuestro trabajo, tienen una distinción significativa con él; no realizan ningún análisis ni evaluación comparativa sobre PyTorch o el ecosistema de bibliotecas para la carga de datos descrito en este documento, que, como se indica en la introducción, es actualmente uno de los marcos de aprendizaje profundo más populares y ampliamente utilizado tanto en la industria como en el mundo académico. .
Comparación de diferentes arquitecturas y hardware DNN: ParaDNN (Wang et al., 2020) genera modelos parametrizados de un extremo a otro para ejecutarse en plataformas de destino, como variar el tamaño del lote para desafiar los límites del hardware subyacente, pero se centra en el comparación de plataformas especializadas (TPU v2/v3) y arquitecturas de dispositivos (TPU, GPU, CPU). Relevante para ParaDNN es el trabajo de (Bianco et al., 2018), que proporciona una herramienta integral para seleccionar la arquitectura adecuada que responde a las limitaciones de recursos en implementaciones y aplicaciones prácticas basadas en el análisis de sistemas de hardware con diversos recursos computacionales. Sin embargo, se concentra más en el diseño de modelos de aprendizaje profundo que en los marcos de aprendizaje profundo en los que se implementan. Si bien Fathom (Adolf et al., 2016) y TBD Suite (Zhu et al., 2018) se centran en la evaluación de arquitecturas de modelo completo en una amplia variedad de tareas y diversas cargas de trabajo, están limitados en estas y carecen de puntos de referencia para el estado. Innovaciones en formación de última generación.
Otros dispositivos: AI Benchmark (Ignatov et al., 2018) es posiblemente el primer conjunto de pruebas comparativas de inferencia móvil. Sin embargo, sus resultados se centran únicamente en los teléfonos inteligentes Android y solo miden la latencia, al tiempo que proporcionan una puntuación resumida que no especifica explícitamente objetivos de calidad. (Hadidi et al., 2019) investiga la inferencia de borde de DNN desde las perspectivas del tiempo de ejecución, el consumo de energía y la temperatura. (Tao et al., 2018) cubre configuraciones con diversos comportamientos de hardware, como tasas de predicción de ramificaciones y distancias de reutilización de datos, y evalúa la precisión, el rendimiento y la energía de los procesadores de inteligencia y las plataformas de hardware. Ambos trabajos se centran en una gama diferente de dispositivos, como dispositivos periféricos y procesadores inteligentes, lo que está fuera del alcance de este trabajo.
Este documento está disponible en arxiv bajo licencia CC 4.0.