Авторы:  (1) Сасун Амбарцумян, Activeloop, Маунтин-Вью, Калифорния, США;  (2) Абхинав Тули, Activeloop, Маунтин-Вью, Калифорния, США;  (3) Левон Гукасян, Activeloop, Маунтин-Вью, Калифорния, США;  (4) Фариз Рахман, Activeloop, Маунтин-Вью, Калифорния, США;.  (5) Грант Топчян, Activeloop, Маунтин-Вью, Калифорния, США;  (6) Дэвид Исаян, Activeloop, Маунтин-Вью, Калифорния, США;  (7) Марк Маккуэйд, Activeloop, Маунтин-Вью, Калифорния, США;  (8) Микаел Арутюнян, Activeloop, Маунтин-Вью, Калифорния, США;  (9) Татевик Акопян, Activeloop, Маунтин-Вью, Калифорния, США;  (10) Иво Странич, Activeloop, Маунтин-Вью, Калифорния, США;  (11) Давид Буниатян, Activeloop, Маунтин-Вью, Калифорния, США.  Таблица ссылок   Аннотация и введение   Текущие проблемы   Тензорный формат хранения   Обзор системы Глубоких озер   Варианты использования машинного обучения   Тесты производительности   Обсуждение и ограничения   Связанных с работой   Выводы, признательность и ссылки  АБСТРАКТНЫЙ  Традиционные озера данных обеспечивают критически важную инфраструктуру данных для аналитических рабочих нагрузок, позволяя путешествовать во времени, выполнять запросы SQL, принимать данные с помощью транзакций ACID и визуализировать наборы данных в петабайтном масштабе в облачном хранилище. Они позволяют организациям устранять разрозненность данных, открывать возможности для принятия решений на основе данных, повышать операционную эффективность и сокращать затраты. Однако по мере роста использования глубокого обучения традиционные озера данных не подходят для таких приложений, как обработка естественного языка (NLP), обработка звука, компьютерное зрение и приложения, использующие нетабличные наборы данных. В этой статье представлен Deep Lake, озеро с открытым исходным кодом для приложений глубокого обучения, разработанное в Activeloop[1][2]. Deep Lake сохраняет преимущества стандартного озера данных с одним ключевым отличием: оно хранит сложные данные, такие как изображения, видео, аннотации, а также табличные данные, в форме тензоров и быстро передает данные по сети в ) Язык тензорных запросов, (б) механизм визуализации в браузере или (в) платформы глубокого обучения без ущерба для использования графического процессора. Доступ к наборам данных, хранящимся в Deep Lake, можно получить из PyTorch [58], TensorFlow [25], JAX [31] и интегрировать с многочисленными инструментами MLOps.  КЛЮЧЕВЫЕ СЛОВА — Deep Lake, глубокое обучение, озеро данных, Lakehouse, облачные вычисления, распределенные системы.  1. ВВЕДЕНИЕ  Озеро данных — это центральный репозиторий, который позволяет организациям хранить структурированные, неструктурированные и полуструктурированные данные в одном месте. Озера данных обеспечивают лучший способ управления и анализа данных. Кроме того, они дают возможность разрушить разрозненность данных и получить ценную информацию, ранее скрытую в разрозненных источниках данных. Озера данных первого поколения традиционно собирали данные в распределенные системы хранения, такие как HDFS [71] или AWS S3 [1]. Неорганизованный сбор данных превратил озера данных в «болота данных», что привело к появлению озер данных второго поколения во главе с Delta, Iceberg и Hudi [27, 15, 10]. Они работают строго поверх стандартизированных структурированных форматов, таких как Parquet, ORC, Avro [79, 6, 20] и предоставляют такие функции, как путешествия во времени, транзакции ACID и эволюция схемы. Озера данных напрямую интегрируются с системами запросов, такими как Presto, Athena,   Hive и Photon [70, 12, 76, 66] для выполнения аналитических запросов. Кроме того, они подключаются к таким платформам, как Hadoop, Spark и Airflow [14, 82, 9] для обслуживания конвейера ETL. В свою очередь, интеграция озер данных и механизмов запросов с четким разделением вычислений и хранилищ привела к появлению таких систем, как Lakehouse [28], которые служат альтернативой хранилищам данных, включая Snowflake, BigQuery, Redshift и Clickhouse [33, 4, 40, 2].  За последнее десятилетие глубокое обучение опередило традиционные методы машинного обучения, включающие неструктурированные и сложные данные, такие как текст, изображения, видео и аудио [44, 47, 38, 83, 51, 30, 63, 56]. Системы глубокого обучения не только переросли традиционные методы, но и достигли сверхчеловеческой точности в таких приложениях, как обнаружение рака по рентгеновским изображениям, анатомическая реконструкция нервных клеток человека, игры, вождение автомобиля, разворачивание белков и создание изображений. 61, 48, 72, 42, 77]. Большие языковые модели с архитектурой на основе преобразователей достигли самых современных результатов в задачах перевода, рассуждения, обобщения и завершения текста [78, 36, 81, 32]. Крупные мультимодальные сети внедряют неструктурированные данные в векторы для кросс-модального поиска [29, 60]. Более того, они используются для создания фотореалистичных изображений из текста [62, 65].  Хотя одним из основных факторов успеха моделей глубокого обучения была доступность больших наборов данных, таких как CoCo (330 тыс. изображений), ImageNet (1,2 млн изображений), Oscar (многоязычный текстовый корпус) и LAION (400 млн и 5 млрд изображений). [49, 34, 74, 68], у него нет устоявшейся схемы инфраструктуры данных, подобной традиционным аналитическим рабочим нагрузкам, для поддержки такого масштаба. С другой стороны, в Modern Data Stack (MDS) отсутствуют функции, необходимые для развертывания эффективных решений на основе глубокого обучения, поэтому организации предпочитают разрабатывать собственные системы.  В этой статье мы представляем Deep Lake, дом у озера, специализирующийся на рабочих нагрузках глубокого обучения. Deep Lake сохраняет основные преимущества   традиционное озеро данных с одним заметным отличием: оно хранит сложные данные, такие как изображения, видео, аннотации и табличные данные, в виде тензоров и быстро передает данные в системы глубокого обучения по сети, не жертвуя загрузкой графического процессора. Кроме того, он обеспечивает встроенную совместимость между средами глубокого обучения, такими как PyTorch, TensorFlow и JAX [58, 25, 31].  Основные технические достижения этой статьи включают в себя:    , в котором массивы динамической формы хранятся в объектном хранилище; • Формат тензорного хранилища    , который планирует выборку, распаковку и определяемые пользователем преобразования, оптимизируя пропускную способность передачи данных на графические процессоры для глубокого обучения; • Потоковый загрузчик данных    , выполняющий SQL-подобные операции над данными многомерного массива; • Язык тензорных запросов    , который передает данные из объектного хранилища и отображает их в браузере с помощью WebGL. • Механизм визуализации в браузере  Остальная часть этой статьи разворачивается следующим образом. Мы начнем с рассмотрения текущих проблем глубокого обучения неструктурированных данных. Далее мы представляем тензорный формат хранения (TSF) с его ключевыми понятиями. Кроме того, мы обсуждаем возможности и приложения Deep Lake в рамках цикла машинного обучения. Далее мы проводим эксперименты по производительности и обсуждаем результаты. Наконец, мы рассматриваем соответствующую работу, перечисляем возможные ограничения и делаем выводы.  Этот документ   под лицензией CC 4.0. доступен на arxiv  [1] Доступен исходный код: https://github.com/activeloopai/deeplake.  [2] Документация доступна по адресу https://docs.deeplake.ai.

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Dataology.TECH

Dataology is the study of data. We publish the highest quality university papers & blog posts about the essence of data.

Dataology

Этот звук создан на языке оригинала истории!

Deep Lake, домик у озера для глубокого обучения: Аннотация и введение

About Author

КОММЕНТАРИИ

БИРКИ

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В

Related Stories

Утечка информации о системе Claude Sonnet 3.5: судебно-медицинский анализ

Как улучшить ваш рабочий процесс в 10 раз: 17 основных приложений

Полное руководство по успешной миграции в облако: стратегии и лучшие практики

Рост криптовалют: создание эффективных образов пользователей

Утечка информации о системе Claude Sonnet 3.5: судебно-медицинский анализ

Как улучшить ваш рабочий процесс в 10 раз: 17 основных приложений

Полное руководство по успешной миграции в облако: стратегии и лучшие практики

Рост криптовалют: создание эффективных образов пользователей

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps