Авторы:
(1) Сасун Амбарцумян, Activeloop, Маунтин-Вью, Калифорния, США;
(2) Абхинав Тули, Activeloop, Маунтин-Вью, Калифорния, США;
(3) Левон Гукасян, Activeloop, Маунтин-Вью, Калифорния, США;
(4) Фариз Рахман, Activeloop, Маунтин-Вью, Калифорния, США;.
(5) Грант Топчян, Activeloop, Маунтин-Вью, Калифорния, США;
(6) Дэвид Исаян, Activeloop, Маунтин-Вью, Калифорния, США;
(7) Марк Маккуэйд, Activeloop, Маунтин-Вью, Калифорния, США;
(8) Микаел Арутюнян, Activeloop, Маунтин-Вью, Калифорния, США;
(9) Татевик Акопян, Activeloop, Маунтин-Вью, Калифорния, США;
(10) Иво Страник, Activeloop, Маунтин-Вью, Калифорния, США;
(11) Давид Буниатян, Activeloop, Маунтин-Вью, Калифорния, США.
Мы представили Deep Lake, домик у озера для глубокого обучения. Deep Lake разработан, чтобы помочь рабочим процессам глубокого обучения работать так же легко, как и аналитическим рабочим процессам, выполняемым в современном стеке данных. Примечательно, что Deep Lake создан с учетом основных особенностей озер данных, таких как путешествия во времени, запросы и быстрый прием данных в любом масштабе. Одним из важных отличий от традиционных озер данных является способность Deep Lake хранить неструктурированные данные со всеми метаданными в столбчатом формате, предназначенном для глубокого обучения, что обеспечивает быструю потоковую передачу данных. Это позволяет «на лету» материализовать подмножества данных, визуализировать их в браузере или встроить в системы глубокого обучения без ущерба для использования графического процессора. Наконец, мы показываем, что Deep Lake достигает высочайшего уровня производительности для глубокого обучения на больших наборах данных с помощью нескольких тестов.
Авторы выражают благодарность Ричарду Сочеру, Трэвису Олифанту, Чару Рудракши, Артему Арутюняну, Ясону Офейдису, Диего Кидански, Вишну Наиру, Фаязу Рахману, Диллану МакКрири, Бенджамину Хиндману, Эдуарду Григоряну, Кристине Григорян, Бену Числетту, Джубину Ушьяру, Андрею Любимову , Ассаф Пинхаси, Вишну Наир, Эшан Арора, Шашанк Агарвал, Павел Яновский, Кристина Арезина, Геворг Карапетян, Виген Саакян и сообщество открытого исходного кода, включая участников. Проект финансировался Activeloop. Мы также благодарим рецензентов CIDR за их отзывы.
[1] 2006. Amazon S3. GitHub 2022, 1 (2006). https://aws.amazon. ком/s3
[2] 2009. Кликхаус. GitHub 2022, 1 (2009). https://github.com/ ClickHouse/ClickHouse
[3] 2010. Облачное хранилище Google. GitHub 2022, 1 (2010). https://cloud.google.com/storage
[4] 2012. Google BigQuery. GitHub 2022, 1 (2012). https://облако. google.com/bigquery
[5] 2014. Протокольные буферы — формат обмена данными Google. GitHub 2022, 1 (2014). https://github.com/protocolbuffers/protobuf
[6] 2015. Фонд программного обеспечения Apache: Apache ORC. GitHub 2022, 1 (2015). https://github.com/apache/orc
[7] 2016. Перо. GitHub 2022, 1 (2016). https://github.com/wesm/feather
[8] 2016. Weaviate: первая векторная поисковая система на основе машинного обучения. GitHub 2022, 1 (2016). https://github.com/semi-technologies/weaviate
[9] 2017. Apache Airflow. GitHub 2022, 1 (2017). http://airflow. инкубатор.apache.org
[10] 2017. Фонд программного обеспечения Apache: Apache Hudi. GitHub 2022, 1 (2017). https://hudi.apache.org
[11] 2017. CloudVolume: ввод-вывод для наборов данных Neuroglancer. GitHub 2022, 1 (2017). https://github.com/seung-lab/cloud-volume
[12] 2018. Амазонка Афина. GitHub 2022, 1 (2018). https://авс. amazon.com/athena
[13] 2018. Фонд программного обеспечения Apache: Apache Arrow. GitHub 2022, 1 (2018). https://arrow.apache.org
[14] 2018. Фонд программного обеспечения Apache: Apache Hadoop. GitHub 2022, 1 (2018). https://hadoop.apache.org
[15] 2018. Фонд программного обеспечения Apache: Apache Iceberg. GitHub 2022, 1 (2018). https://iceberg.apache.org
[16] 2018. Feast: хранилище функций с открытым исходным кодом для машинного обучения. GitHub 2022, 1 (2018). https://github.com/feast-dev/feast
[17] 2018. Высокопроизводительный сервер объектного хранения MinIO, совместимый с API Amazon S3. GitHub 2022, 1 (2018). https://github.com/minio/minio
[18] 2018. Петашторм. GitHub 2022, 1 (2018). https://github.com/uber/petastorm [19] 2018. Формат WebDataset. GitHub 2022, 1 (2018). https://github.com/webdataset/webdataset
[20] 2019. Фонд программного обеспечения Apache: Apache Avro. GitHub 2019, 1 (2019). https://avro.apache.org
[21] 2019. LakeFS: озеро данных с Git-подобным репозиторием. GitHub 2022, 1 (2019). https://github.com/treeverse/lakeFS
[22] 2020. Эйрбайт. GitHub 2022, 1 (2020). https://github.com/airbytehq/airbyte
[23] 2020. TensorStore: Библиотека для чтения и записи больших многомерных массивов. GitHub 2022, 1 (2020). https://гитхаб. ком/google/tensorstore
[24] 2021. N5: определяет примитивные операции, необходимые для хранения больших фрагментированных n-мерных тензоров и произвольных метаданных в иерархии групп, аналогичной HDF5. GitHub 2021, 1 (2021). https://github.com/saalfeldlab/n5
[25] Мартин Абади, Пол Бархам, Цзяньмин Чен, Чжифэн Чен, Энди Дэвис, Джеффри Дин, Матье Девин, Санджай Гемават, Джеффри Ирвинг, Майкл Айсард и др. 2016. Tensorflow: система крупномасштабного машинного обучения. На 12-м симпозиуме {USENIX} по проектированию и внедрению операционных систем ({OSDI} 16). 265–283.
[26] Алекс Айзман, Гэвин Молтби и Томас Брейэль. 2019. Высокопроизводительный ввод-вывод для крупномасштабного глубокого обучения. В 2019 году прошла Международная конференция IEEE по большим данным (Big Data). ИИЭР, 5965–5967.
[27] Майкл Армбруст, Татхагата Дас, Ливен Сан, Бурак Явуз, Шисюн Чжу, Мукул Мурти, Джозеф Торрес, Херман ван Ховелл, Адриан Ионеску, Алисия Лущак и др. 2020. Delta Lake: высокопроизводительное хранилище таблиц ACID поверх облачных хранилищ объектов. Труды Фонда VLDB 13, 12 (2020), 3411–3424. [28] Майкл Армбруст, Али Годси, Рейнольд Синь и Матей Захария. 2021. Lakehouse: новое поколение открытых платформ, объединяющих хранилища данных и расширенную аналитику. В материалах CIDR.
[29] Алексей Баевский, Вэй-Нин Сюй, Цяньтун Сюй, Арун Бабу, Цзятао Гу и Майкл Аули. 2022. Data2vec: Общая основа самостоятельного обучения речи, зрению и языку. Препринт arXiv arXiv:2202.03555 (2022 г.).
[30] Дмитрий Богданов, Кёнхён Чо и Йошуа Бенжио. 2014. Нейронный машинный перевод: совместное обучение выравниванию и переводу. Препринт arXiv arXiv:1409.0473 (2014).
[31] Джеймс Брэдбери, Рой Фростиг, Питер Хокинс, Мэтью Джеймс Джонсон, Крис Лири, Дугал Маклорен, Джордж Некула, Адам Пашке, Джейк ВандерПлас, Скай Вандерман-Милн и Цяо Чжан. 2018. JAX: компонуемые преобразования программ Python+NumPy. http://github.com/google/jax
[32] Том Браун, Бенджамин Манн, Ник Райдер, Мелани Суббия, Джаред Д. Каплан, Прафулла Дхаривал, Арвинд Нилакантан, Пранав Шьям, Гириш Састри, Аманда Аскелл и др. 2020. Языковые модели малоэффективны для изучения. Достижения в области нейронных систем обработки информации 33 (2020), 1877–1901.
[33] Бенуа Дагевилль, Тьерри Круанес, Марцин Жуковски, Вадим Антонов, Артин Аванес, Джон Бок, Джонатан Клейбо, Дэниел Энговатов, Мартин Хентшель, Цзяньшэн Хуанг и др. 2016. Эластичное хранилище данных «снежинка». В материалах Международной конференции по управлению данными 2016 г. 215–226.
[34] Цзя Дэн, Вэй Донг, Ричард Сочер, Ли-Цзя Ли, Кай Ли и Ли Фей-Фей. 2009. Imagenet: крупномасштабная иерархическая база данных изображений. В 2009 году прошла конференция IEEE по компьютерному зрению и распознаванию образов. Иииэ, 248–255.
[35] Ж. Денг, В. Донг, Р. Сочер, Л.-Ж. Ли, К. Ли и Л. Фей-Фей. 2009. ImageNet: крупномасштабная иерархическая база данных изображений. В CVPR09.
[36] Джейкоб Девлин, Минг-Вэй Чанг, Кентон Ли и Кристина Тутанова. 2018. Берт: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка. Препринт arXiv arXiv:1810.04805 (2018).
[37] Маркус Дрезелер, Ян Коссманн, Мартин Буасье, Стефан Клаук, Маттиас Уфлакер и Хассо Платтнер. 2019. Реинжиниринг Hyrise: расширяемая система баз данных для исследований в области управления реляционными данными в памяти. В книге «Достижения в области технологий баз данных — 22-я Международная конференция по расширению технологий баз данных», EDBT 2019, Лиссабон, Португалия, 26–29 марта 2019 г., Мелани Гершель, Хелена Галхардас, Бертольд Рейнвальд, Ирини Фундулаки, Карстен Бинниг и Зои Кауди (ред.) . OpenProceedings.org, 313–324. https://doi.org/10.5441/002/edbt. 2019.28
[38] Ян Гудфеллоу, Йошуа Бенджио и Аарон Курвиль. 2016. Глубокое обучение. Пресс-центр МТИ.
[39] Эндрю Ильяс Сэм Пак Хади Салман Гийом Леклерк, Логан Энгстрем. 2021. Формат WebDataset. GitHub 2022, 1 (2021). https://github.com/libffcv/ffcv
[40] Анураг Гупта, Дипак Агарвал, Дерек Тан, Якуб Кулеза, Рахул Патхак, Стефано Стефани и Видхья Шринивасан. 2015. Красное смещение Amazon и аргументы в пользу упрощения хранилищ данных. В материалах международной конференции ACM SIGMOD 2015 г. по управлению данными. 1917–1923.
[41] Донг Хе, Супун Накандала, Далицо Банда, Ратиджит Сен, Карла Саур, Кванхён Пак, Карло Курино, Хесус КамачоРодригес, Константинос Каранасос и Маттео Интерланди. 2022. Обработка запросов в средах выполнения тензорных вычислений. Препринт arXiv arXiv:2203.01877 (2022 г.).
[42] Ю Хуан и Юэ Чен. 2020. Обзор современных технологий автономного вождения с глубоким обучением. В 2020 году пройдет 20-я Международная конференция IEEE по качеству, надежности и безопасности программного обеспечения (QRS-C). IEEE, 221–228.
[43] Теро Каррас, Самули Лайне и Тимо Айла. 2019. Архитектура генератора на основе стилей для генеративно-состязательных сетей. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов. 4401–4410.
[44] Алекс Крижевский, Илья Суцкевер и Джеффри Хинтон. 2012. Классификация Imagenet с глубокими сверточными нейронными сетями. В разделе «Достижения в области нейронных систем обработки информации». 1097–1105. Глубокое озеро: домик у озера для глубокого обучения
[45] Абхишек Виджая Кумар и Мутиан Шиватхану. 2020. Quiver: информативный кэш-хранилище для глубокого обучения. На 18-й конференции USENIX по файловым технологиям и технологиям хранения (FAST 20). 283–296.
[46] Руслан Куприеев, скетры, Дмитрий Петров, Павел Редзинский, Питер Роулендс, Каспер да Коста-Луис, Александр Щепановский, Иван Щеклеин, Батухан Таская, Гао, Хорхе Орпинель, Давид де ла Иглесиа Кастро, Фабио Сантос, Аман Шарма, Дэйв Беренбаум, Жанибек, Дани Ходович, Никита Коденко, Андрей Григорьев, Эрл, Даниэле, Набанита Дэш, Георгий Вишня, Майкулькарни, Макс Хора, Вера, Санидья Мангал и Войцех Барановский. 2022. DVC: Контроль версий данных — Git для данных и моделей. https://doi.org/10.5281/zenodo.7039863
[47] Ян ЛеКун, Йошуа Бенджио и Джеффри Хинтон. 2015. Глубокое обучение. природа 521, 7553 (2015), 436.
[48] Кисук Ли, Джонатан Зунг, Питер Ли, Вирен Джайн и Х. Себастьян Сын. 2017. Сверхчеловеческая точность в задаче коннектомики SNEMI3D. Препринт arXiv arXiv:1706.00120 (2017).
[49] Цунг-И Линь, Майкл Мэр, Серж Белонги, Джеймс Хейс, Пьетро Перона, Дева Раманан, Петр Доллар и К. Лоуренс Зитник. 2014. Microsoft coco: Общие объекты в контексте. На европейской конференции по компьютерному зрению. Спрингер, 740–755.
[50] Фрэнк Сифэй Луан, Стефани Ван, Самьюкта Ягати, Шон Ким, Кеннет Лиен, Сангбин Чо, Эрик Лян и Ион Стойка. 2022. Exoshuffle: крупномасштабное перемешивание на уровне приложений. Препринт arXiv arXiv:2203.05072 (2022 г.).
[51] Томас Миколов, Кай Чен, Грег Коррадо и Джеффри Дин. 2013. Эффективная оценка представлений слов в векторном пространстве. Препринт arXiv arXiv:1301.3781 (2013).
[52] Алистер Майлз, Джон Киркхэм, Мартин Дюрант, Джеймс Бурбо, Тарик Оналан, Джо Хэмман, Зейн Патель, Шикхарсг, Мэттью Роклин, Рафаэль Дюссен, Винсент Шут, Эллиот Салес де Андраде, Райан Абернати, Чарльз Нойес, Сбалмер, Пюп. io, Томми Тран, Стефан Заальфельд, Джастин Свани, Джош Мур, Джо Евник, Джером Келлехер, Ян Функе, Джордж Саккис, Крис Барнс и Андерсон Банихирве. 2020. zarr-developers/zarrpython: v2.4.0. https://doi.org/10.5281/zenodo.3773450
[53] Филипп Мориц, Роберт Нишихара, Стефани Ванг, Алексей Туманов, Ричард Ляу, Эрик Лян, Мелих Элибол, Цзунхэн Янг, Уильям Пол, Майкл И Джордан и др. 2018. Рэй: Распределенная структура для новых приложений {AI}. На 13-м симпозиуме {USENIX} по проектированию и внедрению операционных систем ({OSDI} 18). 561–577.
[54] Ясон Офейдис, Диего Кидански и Леандрос Тассиулас. 2022. Обзор ситуации с загрузчиками данных: сравнительный анализ производительности. Препринт arXiv arXiv:2209.13705 (2022 г.). [
55] Трэвис Э. Олифант. 2006. Руководство по NumPy. Том. 1. Издательство Трелгол США.
[56] Аарон ван ден Оорд, Сандер Дилеман, Хейга Зен, Карен Симонян, Ориол Виньялс, Алекс Грейвс, Нал Калчбреннер, Эндрю Сеньор и Корай Кавукчуоглу. 2016. Wavenet: генеративная модель для необработанного звука. Препринт arXiv arXiv:1609.03499 (2016).
[57] Ставрос Пападопулос, Кушал Датта, Сэмюэл Мэдден и Тимоти Мэттсон. 2016. Менеджер хранения данных массива tiledb. Труды Фонда ВЛДБ 10, 4 (2016), 349–360.
[58] Адам Пашке, Сэм Гросс, Сумит Чинтала, Грегори Чанан, Эдвард Янг, Закари ДеВито, Земинг Лин, Албан Десмайсон, Лука Антига и Адам Лерер. 2017. Автоматическое дифференцирование в pytorch. (2017).
[59] Маша Басманова Кевин Уилфонг Лэйт Сакка Кришна Пай Вэй Хе Бисвапеш Чаттопадхьяй Педро Педрейра, Орри Эрлинг. 2022. Velox: унифицированная система выполнения Meta. Труды Фонда ВЛДБ (2022).
[60] Алек Рэдфорд, Чон Ук Ким, Крис Халласи, Адитья Рамеш, Габриэль Го, Сандини Агарвал, Гириш Састри, Аманда Аскелл, Памела Мишкин, Джек Кларк и др. 2021. Изучение переносимых визуальных моделей под контролем естественного языка. На Международной конференции по машинному обучению. ПМЛР, 8748–8763.
[61] Пранав Раджпуркар, Джереми Ирвин, Кейли Чжу, Брэндон Янг, Хершел Мехта, Тони Дуан, Дэйзи Динг, Аарти Багул, Кертис Ланглотц, Кэти Шпанская и др. 2017. Chexnet: Обнаружение пневмонии на уровне рентгенолога на рентгенограммах грудной клетки с глубоким обучением. Препринт arXiv arXiv:1711.05225 (2017).
[62] Адитья Рамеш, Михаил Павлов, Габриэль Го, Скотт Грей, Челси Восс, Алек Рэдфорд, Марк Чен и Илья Суцкевер. 2021. Генерация текста в изображение с нуля. На Международной конференции по машинному обучению. ПМЛР, 8821–8831.
[63] Джозеф Редмон, Сантош Диввала, Росс Гиршик и Али Фархади. 2016. Взгляните только один раз: унифицированное обнаружение объектов в реальном времени. В материалах конференции IEEE по компьютерному зрению и распознаванию образов. 779–788.
[64] Амит Сабне. 2020. Xla: Компиляция машинного обучения для достижения максимальной производительности. (2020).
[65] Читван Сахария, Уильям Чан, Саураб Саксена, Лала Ли, Джей Ванг, Эмили Дентон, Сейед Камьяр Сейед Гасемипур, Бурку Карагол Аян, С. Сара Махдави, Рафа Гонтихо Лопес и др. 2022. Фотореалистичные модели диффузии текста в изображение с глубоким пониманием языка. Препринт arXiv arXiv:2205.11487 (2022 г.).
[66] Том ван Бассель Самвел, Херман ван Ховелл, Мэриэнн Сюэ, Рейнольд Синь и Матей Захария. 2022. Photon: механизм быстрых запросов для систем Lakehouse. (2022).
[67] Кристоф Шуман, Ромен Бомонт, Кейд В. Гордон, Росс Уайтман, Тео Кумбс, Ааруш Катта, Клейтон Муллис, Патрик Шрамовски, Шриватса Р. Кундурти, Кэтрин Кроусон и др. 2022. LAION-5B: Открытый крупномасштабный набор данных для обучения изображений-текстовых моделей следующего поколения. (2022).
[68] Кристоф Шуман, Ричард Венку, Ромен Бомон, Роберт Качмарчик, Клейтон Муллис, Ааруш Катта, Тео Кумбс, Женя Жицев и Аран Комацузаки. 2021. Laion400m: открытый набор данных из 400 миллионов пар изображения и текста, отфильтрованных по клипам. Препринт arXiv arXiv:2111.02114 (2021 г.).
[69] Филип Шван и др. 2003. Лустре: Создание файловой системы для кластеров из 1000 узлов. В материалах симпозиума по Linux 2003 г., Vol. 2003. 380–386.
[70] Рагхав Сетхи, Мартин Траверсо, Дейн Сундстрем, Дэвид Филлипс, Вэньлей Се, Ютьян Сунь, Нези Йегитбаси, Хаочжун Цзинь, Эрик Хван, Нилима Шингте и др. 2019. Престо: SQL во всём. В 2019 году пройдет 35-я Международная конференция IEEE по инженерии данных (ICDE). IEEE, 1802–1813 гг.
[71] Константин Швачко, Хайронг Куанг, Санджай Радиа, Роберт Ченслер и др. 2010. Распределенная файловая система Hadoop. В MSST, Vol. 10. 1–10.
[72] Дэвид Сильвер, Томас Юберт, Джулиан Шритвизер, Иоаннис Антоноглу, Мэтью Лай, Артур Гез, Марк Ланкто, Лоран Сифре, Дхаршан Кумаран, Торе Грапель и др. 2018. Общий алгоритм обучения с подкреплением, позволяющий освоить шахматы, сёги и го посредством самостоятельной игры. Наука 362, 6419 (2018), 1140–1144.
[73] К. Штумпф, С. Бедратюк и О. Цирит. 2018. Микеланджело PyML: представление платформы Uber для быстрой разработки моделей машинного обучения на Python. Убер. См.: https://англ. убер. com/micelangelo-pyml (2018).
[74] Педро Хавьер Ортис Суарес, Бенуа Саго и Лоран Ромари. 2019. Асинхронный конвейер для обработки огромных массивов данных в инфраструктурах со средними и низкими ресурсами. На 7-м семинаре по проблемам управления крупными корпорациями (CMLC-7). Лейбниц-Институт немецкой речи.
[75] Команда разработчиков Squirrel. 2022. Squirrel: библиотека Python, которая позволяет командам машинного обучения обмениваться, загружать и преобразовывать данные совместным, гибким и эффективным способом. Гитхаб. Примечание: https://github.com/merantix-momentum/squirrel-core (2022 г.). https://doi.org/10.5281/zenodo.6418280
[76] Ашиш Тусу, Джойдип Сен Сарма, Намит Джайн, Чжэн Шао, Прасад Чакка, Нин Чжан, Суреш Энтони, Хао Лю и Раготам Мурти. 2010. Hive — хранилище данных петабайтного масштаба с использованием Hadoop. В 2010 году прошла 26-я международная конференция IEEE по инженерии данных (ICDE 2010). ИИЭР, 996–1005.
[77] Кэтрин Туньясувунакул, Йонас Адлер, Закари Ву, Тим Грин, Михал Зелински, Огюстин Жидек, Алекс Бриджланд, Эндрю Коуи, Клеменс Мейер, Агата Лейдон и др. 2021. Высокоточное предсказание структуры белка протеома человека. Природа 596, 7873 (2021), 590–596.
[78] Ашиш Васвани, Ноам Шазир, Ники Пармар, Якоб Ушкорейт, Лайон Джонс, Эйдан Н Гомес, Лукаш Кайзер и Илья Полосухин. 2017. Внимание – это все, что вам нужно. Достижения в области нейронных систем обработки информации 30 (2017).
[79] Дипак Вохра. 2016. Паркет Апач. В практической экосистеме Hadoop. Спрингер, 325–335.
[80] Цзянго Ван, Сяомэн И, Рентонг Го, Хай Цзинь, Пэн Сюй, Шэнцзюнь Ли, Сянью Ван, Сянчжоу Го, Чэнмин Ли, Сяохай Сюй и др. 2021. Milvus: Специально созданная система управления векторными данными. В материалах Международной конференции по управлению данными 2021 года. 2614–2627.
[81] Жилин Ян, Цзиханг Дай, Имин Ян, Хайме Карбонелл, Расс Р. Салахутдинов и Куок В. Ле. 2019. Xlnet: Обобщенная авторегрессионная предварительная подготовка к пониманию языка. Достижения в области нейронных систем обработки информации 32 (2019).
[82] Матей Захария, Мошараф Чоудхури, Майкл Дж. Франклин, Скотт Шенкер и Ион Стойка. 2010. Spark: Кластерные вычисления с рабочими наборами. ХотКлауд 10, 10-10 (2010), 95.
[83] Сян Чжан, Цзюньбо Чжао и Ян Лекунь. 2015. Сверточные сети на уровне символов для классификации текста. В разделе «Достижения в области нейронных систем обработки информации». 649–657.
Этот документ доступен на arxiv под лицензией CC 4.0.