tác giả:
(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, USA;
(2) Abhinav Tuli, Activeloop, Mountain View, CA, USA;
(3) Levon Ghukasyan, Activeloop, Mountain View, CA, USA;
(4) Fariz Rahman, Activeloop, Mountain View, CA, USA;.
(5) Hrant Topchyan, Activeloop, Mountain View, CA, USA;
(6) David Isayan, Activeloop, Mountain View, CA, USA;
(7) Mark McQuade, Activeloop, Mountain View, CA, USA;
(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, USA;
(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, USA;
(10) Ivo Stranic, Activeloop, Mountain View, CA, USA;
(11) Davit Buniatyan, Activeloop, Mountain View, CA, Hoa Kỳ.
Nhiều dự án đã cố gắng cải thiện hoặc tạo các định dạng mới để lưu trữ các tập dữ liệu phi cấu trúc bao gồm TFRecord mở rộng Protobuf [5], Petastorm [18] mở rộng Parquet [79], Feather [7] mở rộng mũi tên [13], Squirrel sử dụng MessagePack [75], Beton trong FCV [39]. Việc thiết kế một định dạng tập dữ liệu phổ quát để giải quyết tất cả các trường hợp sử dụng là rất khó khăn. Cách tiếp cận của chúng tôi chủ yếu được lấy cảm hứng từ CloudVolume [11], bộ lưu trữ NumPy phân khối 4-D để lưu trữ dữ liệu y sinh thể tích lớn. Có các định dạng lưu trữ mảng NumPy chunked tương tự khác như Zarr [52], TensorStore [23], TileDB [57]. Deep Lake đã giới thiệu một hệ thống đánh máy, các tensor có hình dạng động, tích hợp với bộ tải dữ liệu phát trực tiếp deep learning, truy vấn trên tensor và hỗ trợ trực quan hóa trong trình duyệt. Một cách tiếp cận khác để lưu trữ các bộ dữ liệu quy mô lớn là sử dụng hệ thống tệp phân tán HPC như Lustre [69], mở rộng với bộ đệm PyTorch [45] hoặc lớp lưu trữ hiệu suất như AIStore [26]. Các bộ dữ liệu Deep Lake có thể được lưu trữ trên các hệ thống lưu trữ phân tán tương thích với API POSIX hoặc REST bằng cách tận dụng các lợi ích của chúng. Các cách tiếp cận có thể so sánh khác phát triển trong cơ sở dữ liệu vectơ [80, 8, 80] để lưu trữ các phần nhúng, kho tính năng [73, 16] hoặc các hệ thống kiểm soát phiên bản dữ liệu như DVC [46] hoặc LakeFS [21]. Ngược lại, tính năng kiểm soát phiên bản Deep Lake được tích hợp sẵn trong định dạng mà không có sự phụ thuộc bên ngoài, bao gồm cả Git. Ngôn ngữ truy vấn Tensor, tương tự như các phương pháp tiếp cận TQP [41] và Velox [59], chạy các phép toán số n chiều trên bộ lưu trữ tensor bằng cách thực sự tận dụng toàn bộ khả năng của các khung học sâu. Nhìn chung, Deep Lake có sự tương đồng với các hồ dữ liệu như Hudi, Iceberg, Delta [27, 15, 10] và bổ sung cho các hệ thống như Databarick's Lakehouse [28] cho các ứng dụng Deep Learning.
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.