paint-brush
Uma Visão Geral do Cenário do Data-Loader: Trabalho Relacionadopor@serialization

Uma Visão Geral do Cenário do Data-Loader: Trabalho Relacionado

Muito longo; Para ler

Neste artigo, os pesquisadores destacam os dataloaders como a chave para melhorar o treinamento de ML, comparando bibliotecas em termos de funcionalidade, usabilidade e desempenho.
featured image - Uma Visão Geral do Cenário do Data-Loader: Trabalho Relacionado
The Serialization Publication HackerNoon profile picture
0-item

Autores:

(1) Iason Ofeidis, Departamento de Engenharia Elétrica, e Instituto Yale para Ciência de Redes, Universidade de Yale, New Haven {Contribuição igual};

(2) Diego Kiedanski, Departamento de Engenharia Elétrica, e Instituto Yale para Ciência de Redes, Universidade de Yale, New Haven {Contribuição igual};

(3) Leandros TassiulasLevon Ghukasyan, Activeloop, Mountain View, CA, EUA, Departamento de Engenharia Elétrica, e Instituto Yale para Ciência de Redes, Universidade de Yale, New Haven.

Tabela de Links

6. TRABALHO RELACIONADO

Esta seção descreve vários esforços da comunidade para avaliar bibliotecas, modelos e estruturas de aprendizagem profunda.


Existe um grande conjunto de trabalhos para avaliar ferramentas e métodos de aprendizagem profunda. MLPerf (Mattson et al., 2020) é indiscutivelmente o projeto de benchmarking de ML mais popular para cargas de trabalho de ML modernas que visa tanto treinamento quanto inferência, abrangendo uma variedade de tarefas de IA. Os autores utilizam como métrica objetiva o tempo de treinamento necessário para atingir um determinado nível de precisão. Esta métrica requer maiores recursos computacionais e não é adequada para testar parâmetros do carregador de dados. DeepBench (Baidu-Research, 2020) é um projeto de código aberto da Baidu Research focado em operações em nível de kernel dentro da pilha de aprendizado profundo; ele avalia o desempenho de operações individuais (por exemplo, multiplicação de matrizes) implementadas em bibliotecas e executadas diretamente no hardware subjacente. Da mesma forma, o AI Matrix (Zhang et al., 2019) usa microbenchmarks para cobrir operadores básicos, medindo o desempenho para camadas totalmente conectadas e outras camadas comuns, e combina as características de cargas de trabalho reais, oferecendo benchmarks sintéticos.


Comparação de estruturas: esta seção inclui esforços para benchmarking e comparação de diferentes estruturas de aprendizagem profunda, como PyTorch, TensorFlow, etc.


No Deep500 (Ben-Nun et al., 2019), os autores fornecem uma estrutura de software modular para medir o desempenho do treinamento EAD; embora personalizável, ele carece de benchmarking de hiperparâmetros e não fornece uma maneira fácil de usar para adicionar e experimentar novas bibliotecas e fluxos de trabalho. AIBench (Gao et al., 2020) e DAWNBench (Coleman et al., 2019) são ambos benchmarks ponta a ponta, sendo o último a primeira competição de benchmark multiparticipante a medir o desempenho ponta a ponta de sistemas de aprendizagem profunda. Tal como acontece com o MLPerf, nenhum examina o efeito do carregamento alternativo de bibliotecas em seus fluxos de trabalho. Em (Wu et al., 2019), os autores apresentam uma análise sistemática dos padrões de uso de CPU e memória para diferentes bibliotecas de computação paralela e tamanhos de lote e seu impacto na precisão e eficiência do treinamento. Esta análise está próxima do nosso trabalho; no entanto, não fornece um recurso de código aberto para interagir e avaliar novas bibliotecas.


Em (Shi et al., 2016), os autores comparam estruturas de aprendizagem profunda baseadas no desempenho de diferentes redes neurais (por exemplo, redes neurais totalmente conectadas, convolucionais e recorrentes). dPRO (Hu et al., 2022) concentra-se em benchmarks de treinamento distribuído (multi-GPU), utilizando um criador de perfil que coleta rastreamentos de tempo de execução de treinamento DNN distribuído em várias estruturas. DLBench (Heterogeneous Computing Lab at HKBU, 2017) é uma estrutura de referência para medir diferentes ferramentas de aprendizagem profunda, como Caffe, Tensorflow e MXNet. Em (Liu et al., 2018) os autores estudam o impacto das configurações padrão de cada framework no desempenho do modelo (tempo e precisão), demonstrando as interações complexas dos parâmetros e hiperparâmetros DNN com características específicas do conjunto de dados. No entanto, os experimentos incluem apenas as configurações padrão de cada estrutura e não possuem qualquer análise de configurações não padrão. Em (Wu et al., 2018), os autores testam configurações padrão de frameworks e tentam encontrar as ideais para cada conjunto de dados; eles também examinam o processo de carregamento de dados, mas não avaliam bibliotecas de terceiros. Todos os trabalhos publicados anteriormente neste parágrafo, embora tenham inúmeras semelhanças com o nosso trabalho, têm uma distinção significativa com ele; eles não realizam nenhuma análise ou benchmarking no PyTorch ou no ecossistema de bibliotecas para carregamento de dados descrito neste artigo, que, conforme declarado na introdução, é atualmente uma das estruturas de aprendizagem profunda mais populares e amplamente utilizadas tanto na indústria quanto na academia .


Comparação de diferentes arquiteturas e hardware DNN: ParaDNN (Wang et al., 2020) gera modelos ponta a ponta parametrizados para execução em plataformas de destino, como variar o tamanho do lote para desafiar os limites do hardware subjacente, mas se concentra no comparação de plataformas especializadas (TPU v2/v3) e arquiteturas de dispositivos (TPU, GPU, CPU). Relevante para o ParaDNN é o trabalho de (Bianco et al., 2018), que fornece uma ferramenta abrangente para selecionar a arquitetura apropriada respondendo às restrições de recursos em implantações e aplicações práticas baseadas na análise de sistemas de hardware com diversos recursos computacionais. No entanto, concentra-se mais na concepção de modelos de aprendizagem profunda do que nas estruturas de aprendizagem profunda em que estes são implementados. Embora Fathom (Adolf et al., 2016) e TBD Suite (Zhu et al., 2018) se concentrem na avaliação de arquiteturas de modelos completos em uma ampla variedade de tarefas e diversas cargas de trabalho, eles são limitados a elas e carecem de benchmarks para o estado. inovações de treinamento de última geração.


Outros dispositivos: AI Benchmark (Ignatov et al., 2018) é indiscutivelmente o primeiro conjunto de benchmark de inferência móvel. No entanto, seus resultados concentram-se exclusivamente em smartphones Android e medem apenas a latência, ao mesmo tempo que fornecem uma pontuação resumida que falha explicitamente em especificar metas de qualidade. (Hadidi et al., 2019) investiga a inferência na borda de DNNs a partir do tempo de execução, consumo de energia e perspectivas de temperatura. (Tao et al., 2018) cobre configurações com diversos comportamentos de hardware, como taxas de previsão de ramificação e distâncias de reutilização de dados, e avalia a precisão, o desempenho e a energia de processadores de inteligência e plataformas de hardware. Ambos os trabalhos estão fixados em uma gama diferente de dispositivos, como dispositivos de ponta e processadores de inteligência, o que está fora do escopo deste trabalho.


Este artigo está disponível no arxiv sob licença CC 4.0.