paint-brush
Обзор ландшафта загрузчиков данных: заключение, благодарности и ссылкик@serialization

Обзор ландшафта загрузчиков данных: заключение, благодарности и ссылки

Слишком долго; Читать

В этой статье исследователи выделяют загрузчики данных как ключ к улучшению обучения машинному обучению, сравнивая библиотеки по функциональности, удобству использования и производительности.
featured image - Обзор ландшафта загрузчиков данных: заключение, благодарности и ссылки
The Serialization Publication HackerNoon profile picture
0-item

Авторы:

(1) Ясон Офейдис, факультет электротехники и Йельский институт сетевых наук, Йельский университет, Нью-Хейвен {равный вклад};

(2) Диего Кидански, факультет электротехники и Йельский институт сетевых наук, Йельский университет, Нью-Хейвен {равный вклад};

(3) Леандрос Тассиулас Левон Гукасян, Activeloop, Маунтин-Вью, Калифорния, США, факультет электротехники и Йельский институт сетевых наук, Йельский университет, Нью-Хейвен.

Таблица ссылок

7. ВЫВОДЫ

В этой статье мы исследовали текущую среду библиотек Pytorch, которые позволяют специалистам по машинному обучению загружать свои наборы данных в свои модели. Эти библиотеки предлагают широкий спектр функций, включая повышенную скорость, создание представлений только подмножества данных и загрузку данных из удаленного хранилища. Мы считаем, что удаленная загрузка является наиболее перспективной для всех этих функций, поскольку она позволяет разделить хранение данных и обучение модели. Несмотря на то, что скорость загрузки через общедоступный Интернет, естественно, ниже, чем с локального диска, некоторые библиотеки, такие как Deep Lake, показали замечательные результаты (увеличение времени всего на 13%). По большей части мы не обнаружили значительной разницы в производительности между библиотеками, за исключением FFCV для нескольких графических процессоров и Deep Lake для сетевой загрузки, которые показали себя на удивление хорошо. Однако мы заметили, что документация для большинства этих библиотек не всегда доступна и не является полной, что может привести к неправильной настройке. Поскольку хорошие практики найти трудно, программист может использовать то, что хорошо работает в другом загрузчике данных, что не обязательно будет работать в новой библиотеке. На данный момент прирост производительности не кажется достаточно большим, чтобы оправдать миграцию существующих баз кода для небольших и средних задач. Для более крупных работ переход на одну из более быстрых библиотек может привести к значительному снижению затрат. Наконец, мы считаем, что инновационная система кэширования, разработанная для приложений машинного обучения, может стать финальным этапом реализации концепции действительно несвязанной системы моделей наборов данных. Любой такой подход должен будет основываться на существующих знаниях по обобщению наборов данных и активному обучению.

БЛАГОДАРНОСТИ

Авторы хотели бы поблагодарить команду Activeloop за поддержку и идеи во время разработки этого проекта. Авторы также хотели бы поблагодарить Tryolabs и Activeloop за предоставленные ресурсы для проведения некоторых экспериментов.

ИСПОЛЬЗОВАННАЯ ЛИТЕРАТУРА

Абади М., Агарвал А., Бархам П., Бревдо Э., Чен З., Ситро К., Коррадо Г.С., Дэвис А., Дин Дж., Девин М., Гемават , С., Гудфеллоу И., Харп А., Ирвинг Г., Айсард М., Джиа Ю., Йозефович Р., Кайзер Л., Кудлур М., Левенберг Дж., Мане , Д., Монга Р., Мур С., Мюррей Д., Олах К., Шустер М., Шленс Дж., Штайнер Б., Суцкевер И., Талвар К., Такер П., Ванхок В., Васудеван В., Вьегас Ф., Виньялс О., Уорден П., Ваттенберг М., Вике М., Ю Ю. и Чжэн Х. TensorFlow: Крупномасштабное машинное обучение в гетерогенных системах, 2015. URL https://www.tensorflow.org/. Программное обеспечение доступно на сайте tensorflow.org.


Адольф Р., Рама С., Риген Б., Вэй Г.-Ю. и Брукс Д. Фатом: Справочные рабочие нагрузки для современных методов глубокого обучения. На Международном симпозиуме IEEE по характеристикам рабочей нагрузки (IISWC) в 2016 г., стр. 1–10. ИИЭР, 2016.


Baidu-исследования. DeepBench, 2020 г. URL https://github.com/baidu-research/DeepBench.


Бен-Нун Т., Беста М., Хубер С., Зиогас А.Н., Питер Д. и Хефлер Т. Модульная инфраструктура сравнительного анализа для высокопроизводительного и воспроизводимого глубокого обучения. На Международном симпозиуме IEEE по параллельной и распределенной обработке (IPDPS) 2019 г., стр. 66–77. ИИЭР, 2019.


Бьянко С., Каден Р., Селона Л. и Наполетано П. Сравнительный анализ репрезентативных архитектур глубоких нейронных сетей. Доступ IEEE, 6:64270–64277, 2018 г.


Буслаев А., Игловиков В.И., Хведченя Е., Паринов А., Дружинин М., Калинин А.А. Альбументация: быстрое и гибкое увеличение изображений. Информация, 11(2): 125, 2020.


Коулман К., Канг Д., Нараянан Д., Нарди Л., Чжао Т., Чжан Дж., Бэйлис П., Олукотун К., Ре, К. и Захария М. Анализ Dawnbench, эталона производительности машинного обучения по времени достижения точности. Обзор операционных систем ACM SIGOPS, 53(1):14–25, 2019 г.


Гао В., Тан Ф., Чжан Дж., Лань К., Луо К., Ван Л., Дай Дж., Цао З., Сюн С., Цзян З., и другие. Aibench: гибкая методология сравнительного анализа для конкретной предметной области и набор тестов для искусственного интеллекта. Препринт arXiv arXiv:2002.07162, 2020.


Хадиди Р., Цао Дж., Се Ю., Асгари Б., Кришна Т. и Ким Х. Характеристика развертывания глубоких нейронных сетей на коммерческих периферийных устройствах. На Международном симпозиуме IEEE по характеристикам рабочей нагрузки (IISWC) в 2019 году, стр. 35–48. ИИЭР, 2019.


Амбарцумян С., Тули А., Гукасян Л., Рахман Ф., Топчян Х., Исаян Д., Арутюнян М., Акопян Т., Страник И. и Буниатян Д. Глубокое озеро: домик у озера для глубокого обучения, 2022 г. URL https://arxiv.org/abs/2209.10785.


Лаборатория гетерогенных вычислений в HKBU, D. DLBench, 2017. URL https://github.com/hclhkbu/ dlbench.


Хинтон Г., Шривастава Н. и Сверски К. Нейронные сети для машинного обучения, лекция 6, обзор мини-пакетного градиентного спуска. Цитируется по: 14(8):2, 2012.


Ху Х., Цзян К., Чжун Ю., Пэн Ю., Ву К., Чжу Ю., Линь Х. и Го К. dpro: универсальный набор инструментов для диагностики и оптимизации производительности ускорение обучения распределенному DNS. Труды по машинному обучению и системам, 4: 623–637, 2022.


Игнатов А., Тимофте Р., Чоу В., Ван К., Ву М., Хартли Т. и Ван Гул Л. Тест Ай: запуск глубоких нейронных сетей на смартфонах Android. В материалах семинаров Европейской конференции по компьютерному зрению (ECCV), стр. 0–0, 2018 г.


Крижевский А., Хинтон Г. и др. Изучение нескольких слоев функций из крошечных изображений. 2009.


Кумар А.В. и Сиватхану М. Куивер: Информированный кеш-хранилище для глубокого обучения. На 18-й конференции USENIX по файловым технологиям и технологиям хранения (FAST 20), стр. 283–296, Санта-Клара, Калифорния, февраль 2020 г. Ассоциация USENIX. ISBN 978-1-939133-12-0. URL https://www.usenix.org/conference/fast20/presentation/kumar.


Леклерк Г., Ильяс А., Энгстрем Л., Парк С.М., Салман Х. и Мадри А. ffcv. https://github.com/libffcv/ffcv/, 2022. коммит xxxxxxx.


Ли, С., Чжао, Ю., Варма, Р., Салпекар, О., Ноордхейс, П., Ли, Т., Пашке, А., Смит, Дж., Воган, Б., Дамания, П., и другие. Pytorch распределен: опыт ускорения параллельного обучения данным. Препринт arXiv arXiv:2006.15704, 2020.


Лин, Т.-Ю., Мэр, М., Белонги, С., Хейс, Дж., Перона, П., Раманан, Д., Доллар, П. и Зитник, К.Л. Microsoft coco: «Общие объекты в контексте» . На Европейской конференции по компьютерному зрению, стр. 740–755. Спрингер, 2014.


Лю Л., Ву Ю., Вэй В., Цао В., Шахин С. и Чжан К. Сравнительный анализ систем глубокого обучения: аспекты проектирования, метрики и многое другое. В 2018 г. 38-я Международная конференция IEEE по распределенным вычислительным системам (ICDCS), стр. 1258–1269. ИИЭР, 2018.


Мэттсон П., Ченг К., Диамос Г., Коулман К., Мицикявичюс П., Паттерсон Д., Тан Х., Вэй Г.-Ю., Бэйлис П., Битторф, В. и др. Тест обучения Mlperf. Труды по машинному обучению и системам, 2:336–349, 2020.


Мохан Дж., Фанишайи А., Ранивала А. и Чидамбарам В. Анализ и устранение задержек данных при обучении dnn, 2020. URL https://arxiv.org/abs/ 2007.06775.


Пашке А., Гросс С., Масса Ф., Лерер А., Брэдбери Дж., Чанан Г., Киллин Т., Лин З., Гимельшейн Н., Антига Л., и другие. Pytorch: высокопроизводительная библиотека глубокого обучения в императивном стиле. Достижения в области нейронных систем обработки информации, 32, 2019.


Основная команда PyTorch. PyTorch: Документация PyTorch. ПайТорч.


Ши С., Ван К., Сюй П. и Чу X. Сравнительный анализ современных программных инструментов глубокого обучения. В 2016 г. 7-я Международная конференция по облачным вычислениям и большим данным (CCBD), стр. 99–104. ИИЭР, 2016.


Тао, Ж.-Х., Ду, З.-Д., Го, Ц., Лань, Х.-Ю., Чжан Л., Чжоу, С.-Ю., Сюй, Л.-Ю., Лю К., Лю Х.-Ф., Тан С. и др. Benchip: Сравнительный анализ интеллектуальных процессоров. Журнал компьютерных наук и технологий, 33 (1): 1–23, 2018 г.


Команда, AD Hub: формат набора данных для AI. простой API для создания, хранения, совместной работы над наборами данных ИИ любого размера и их потоковой передачи в платформы машинного обучения в любом масштабе. Гитхаб. Примечание: https://github.com/activeloopai/Hub, 2022a.


Team, SD Squirrel: библиотека Python, которая позволяет командам машинного обучения обмениваться, загружать и преобразовывать данные совместным, гибким и эффективным способом. Гитхаб. Примечание: https://github.com/merantix-momentum/squirrelcore, 2022b. дои: 10.5281/zenodo.6418280.


Данные Факела. Torchdata: библиотека прототипов общих модульных примитивов загрузки данных для простого построения гибких и производительных конвейеров данных. https://github.com/pytorch/data, 2021 г.


Ван Ю., Вэй Г.-Ю. и Брукс Д. Систематическая методология анализа аппаратных и программных платформ глубокого обучения. Труды по машинному обучению и системам, 2:30–43, 2020.


Веб-набор данных. Формат набора веб-данных. https://гитхаб. com/webdataset/webdataset, 2013.


Ву Ю., Цао В., Шахин С. и Лю Л. Экспериментальные характеристики и анализ структур глубокого обучения. Международная конференция IEEE по большим данным (Big Data) в 2018 г., стр. 372–377. ИИЭР, 2018.


Ву Ю., Лю Л., Пу К., Цао В., Шахин С., Вэй В. и Чжан К. Сравнительное исследование глубокого обучения как структуры обслуживания. IEEE Transactions on Services Computing, 2019.


Чжан В., Вэй В., Сюй Л., Цзинь Л. и Ли К. Матрица Ай: эталон глубокого обучения для центров обработки данных Alibaba. Препринт arXiv arXiv:1909.10562, 2019.


Чжу Х., Акрут М., Чжэн Б., Пелегрис А., Фанишайи А., Шредер Б. и Пехименко Г. Подлежит определению: Бенчмаркинг и анализ обучения глубоких нейронных сетей. Препринт arXiv arXiv:1803.06905, 2018.


Этот документ доступен на arxiv под лицензией CC 4.0.