paint-brush
Deep Lake, домик у озера для глубокого обучения: Аннотация и введениек@dataology
154 чтения

Deep Lake, домик у озера для глубокого обучения: Аннотация и введение

Слишком долго; Читать

Исследователи представляют Deep Lake, озеро с открытым исходным кодом для глубокого обучения, оптимизирующее сложное хранение и потоковую передачу данных для структур глубокого обучения.
featured image - Deep Lake, домик у озера для глубокого обучения: Аннотация и введение
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

Авторы:

(1) Сасун Амбарцумян, Activeloop, Маунтин-Вью, Калифорния, США;

(2) Абхинав Тули, Activeloop, Маунтин-Вью, Калифорния, США;

(3) Левон Гукасян, Activeloop, Маунтин-Вью, Калифорния, США;

(4) Фариз Рахман, Activeloop, Маунтин-Вью, Калифорния, США;.

(5) Грант Топчян, Activeloop, Маунтин-Вью, Калифорния, США;

(6) Дэвид Исаян, Activeloop, Маунтин-Вью, Калифорния, США;

(7) Марк Маккуэйд, Activeloop, Маунтин-Вью, Калифорния, США;

(8) Микаел Арутюнян, Activeloop, Маунтин-Вью, Калифорния, США;

(9) Татевик Акопян, Activeloop, Маунтин-Вью, Калифорния, США;

(10) Иво Странич, Activeloop, Маунтин-Вью, Калифорния, США;

(11) Давид Буниатян, Activeloop, Маунтин-Вью, Калифорния, США.

Таблица ссылок

АБСТРАКТНЫЙ

Традиционные озера данных обеспечивают критически важную инфраструктуру данных для аналитических рабочих нагрузок, позволяя путешествовать во времени, выполнять запросы SQL, принимать данные с помощью транзакций ACID и визуализировать наборы данных в петабайтном масштабе в облачном хранилище. Они позволяют организациям устранять разрозненность данных, открывать возможности для принятия решений на основе данных, повышать операционную эффективность и сокращать затраты. Однако по мере роста использования глубокого обучения традиционные озера данных не подходят для таких приложений, как обработка естественного языка (NLP), обработка звука, компьютерное зрение и приложения, использующие нетабличные наборы данных. В этой статье представлен Deep Lake, озеро с открытым исходным кодом для приложений глубокого обучения, разработанное в Activeloop[1][2]. Deep Lake сохраняет преимущества стандартного озера данных с одним ключевым отличием: оно хранит сложные данные, такие как изображения, видео, аннотации, а также табличные данные, в форме тензоров и быстро передает данные по сети в ) Язык тензорных запросов, (б) механизм визуализации в браузере или (в) платформы глубокого обучения без ущерба для использования графического процессора. Доступ к наборам данных, хранящимся в Deep Lake, можно получить из PyTorch [58], TensorFlow [25], JAX [31] и интегрировать с многочисленными инструментами MLOps.


КЛЮЧЕВЫЕ СЛОВА — Deep Lake, глубокое обучение, озеро данных, Lakehouse, облачные вычисления, распределенные системы.

1. ВВЕДЕНИЕ

Озеро данных — это центральный репозиторий, который позволяет организациям хранить структурированные, неструктурированные и полуструктурированные данные в одном месте. Озера данных обеспечивают лучший способ управления и анализа данных. Кроме того, они дают возможность разрушить разрозненность данных и получить ценную информацию, ранее скрытую в разрозненных источниках данных. Озера данных первого поколения традиционно собирали данные в распределенные системы хранения, такие как HDFS [71] или AWS S3 [1]. Неорганизованный сбор данных превратил озера данных в «болота данных», что привело к появлению озер данных второго поколения во главе с Delta, Iceberg и Hudi [27, 15, 10]. Они работают строго поверх стандартизированных структурированных форматов, таких как Parquet, ORC, Avro [79, 6, 20] и предоставляют такие функции, как путешествия во времени, транзакции ACID и эволюция схемы. Озера данных напрямую интегрируются с системами запросов, такими как Presto, Athena,


Рисунок 1: Обзор архитектуры Deep Lake, взаимодействующей с платформами глубокого обучения.


Hive и Photon [70, 12, 76, 66] для выполнения аналитических запросов. Кроме того, они подключаются к таким платформам, как Hadoop, Spark и Airflow [14, 82, 9] для обслуживания конвейера ETL. В свою очередь, интеграция озер данных и механизмов запросов с четким разделением вычислений и хранилищ привела к появлению таких систем, как Lakehouse [28], которые служат альтернативой хранилищам данных, включая Snowflake, BigQuery, Redshift и Clickhouse [33, 4, 40, 2].


За последнее десятилетие глубокое обучение опередило традиционные методы машинного обучения, включающие неструктурированные и сложные данные, такие как текст, изображения, видео и аудио [44, 47, 38, 83, 51, 30, 63, 56]. Системы глубокого обучения не только переросли традиционные методы, но и достигли сверхчеловеческой точности в таких приложениях, как обнаружение рака по рентгеновским изображениям, анатомическая реконструкция нервных клеток человека, игры, вождение автомобиля, разворачивание белков и создание изображений. 61, 48, 72, 42, 77]. Большие языковые модели с архитектурой на основе преобразователей достигли самых современных результатов в задачах перевода, рассуждения, обобщения и завершения текста [78, 36, 81, 32]. Крупные мультимодальные сети внедряют неструктурированные данные в векторы для кросс-модального поиска [29, 60]. Более того, они используются для создания фотореалистичных изображений из текста [62, 65].


Хотя одним из основных факторов успеха моделей глубокого обучения была доступность больших наборов данных, таких как CoCo (330 тыс. изображений), ImageNet (1,2 млн изображений), Oscar (многоязычный текстовый корпус) и LAION (400 млн и 5 млрд изображений). [49, 34, 74, 68], у него нет устоявшейся схемы инфраструктуры данных, подобной традиционным аналитическим рабочим нагрузкам, для поддержки такого масштаба. С другой стороны, в Modern Data Stack (MDS) отсутствуют функции, необходимые для развертывания эффективных решений на основе глубокого обучения, поэтому организации предпочитают разрабатывать собственные системы.


В этой статье мы представляем Deep Lake, дом у озера, специализирующийся на рабочих нагрузках глубокого обучения. Deep Lake сохраняет основные преимущества


Рисунок 2. Цикл машинного обучения с Deep Lake


традиционное озеро данных с одним заметным отличием: оно хранит сложные данные, такие как изображения, видео, аннотации и табличные данные, в виде тензоров и быстро передает данные в системы глубокого обучения по сети, не жертвуя загрузкой графического процессора. Кроме того, он обеспечивает встроенную совместимость между средами глубокого обучения, такими как PyTorch, TensorFlow и JAX [58, 25, 31].


Основные технические достижения этой статьи включают в себя:


• Формат тензорного хранилища , в котором массивы динамической формы хранятся в объектном хранилище;


• Потоковый загрузчик данных , который планирует выборку, распаковку и определяемые пользователем преобразования, оптимизируя пропускную способность передачи данных на графические процессоры для глубокого обучения;


• Язык тензорных запросов , выполняющий SQL-подобные операции над данными многомерного массива;


• Механизм визуализации в браузере , который передает данные из объектного хранилища и отображает их в браузере с помощью WebGL.


Остальная часть этой статьи разворачивается следующим образом. Мы начнем с рассмотрения текущих проблем глубокого обучения неструктурированных данных. Далее мы представляем тензорный формат хранения (TSF) с его ключевыми понятиями. Кроме того, мы обсуждаем возможности и приложения Deep Lake в рамках цикла машинного обучения. Далее мы проводим эксперименты по производительности и обсуждаем результаты. Наконец, мы рассматриваем соответствующую работу, перечисляем возможные ограничения и делаем выводы.


Этот документ доступен на arxiv под лицензией CC 4.0.


[1] Доступен исходный код: https://github.com/activeloopai/deeplake.


[2] Документация доступна по адресу https://docs.deeplake.ai.