paint-brush
Deep Lake, Lakehouse cho Deep Learning: Thảo luận và hạn chếtừ tác giả@dataology
137 lượt đọc

Deep Lake, Lakehouse cho Deep Learning: Thảo luận và hạn chế

dài quá đọc không nổi

Các nhà nghiên cứu giới thiệu Deep Lake, một Lakehouse nguồn mở để học sâu, tối ưu hóa việc lưu trữ và truyền phát dữ liệu phức tạp cho các khung học sâu.
featured image - Deep Lake, Lakehouse cho Deep Learning: Thảo luận và hạn chế
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

tác giả:

(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, USA;

(2) Abhinav Tuli, Activeloop, Mountain View, CA, USA;

(3) Levon Ghukasyan, Activeloop, Mountain View, CA, USA;

(4) Fariz Rahman, Activeloop, Mountain View, CA, USA;.

(5) Hrant Topchyan, Activeloop, Mountain View, CA, USA;

(6) David Isayan, Activeloop, Mountain View, CA, USA;

(7) Mark McQuade, Activeloop, Mountain View, CA, USA;

(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, USA;

(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, USA;

(10) Ivo Stranic, Activeloop, Mountain View, CA, USA;

(11) Davit Buniatyan, Activeloop, Mountain View, CA, Hoa Kỳ.

Bảng liên kết

7. THẢO LUẬN VÀ HẠN CHẾ

Các trường hợp sử dụng chính của Deep Lake bao gồm (a) Đào tạo mô hình học sâu, (b) Kiểm soát dòng dữ liệu và phiên bản, (c) Truy vấn và phân tích dữ liệu, (d) Kiểm tra chất lượng và kiểm tra dữ liệu. Chúng tôi lấy mảng NumPy [55] làm khối cơ bản và triển khai


Hình 10: Việc sử dụng GPU của máy GPU 16xA100 đơn lẻ trong khi đào tạo mô hình CLIP tham số 1B [60]. Tập dữ liệu được phát trực tuyến LAION-400M [68] từ AWS phía đông đến trung tâm dữ liệu trung tâm của chúng tôi GCP. Mỗi màu thể hiện mức sử dụng GPU A100 duy nhất trong quá trình đào tạo.


kiểm soát phiên bản, trình tải dữ liệu trực tuyến, công cụ trực quan hóa từ đầu.

7.1 Không gian thiết kế định dạng

Định dạng lưu trữ kéo căng (TSF) là định dạng tệp nhị phân được thiết kế đặc biệt để lưu trữ các tensor, là mảng đa chiều chứa các giá trị số được sử dụng trong nhiều thuật toán học máy và học sâu. Định dạng TSF được thiết kế hiệu quả và nhỏ gọn, cho phép lưu trữ và truy cập dữ liệu tensor nhanh chóng và hiệu quả. Một ưu điểm chính của định dạng TSF là nó hỗ trợ nhiều loại dữ liệu tensor, bao gồm cả tensor có hình dạng động.


Để so sánh, các định dạng Parquet [79] và Arrow [13] là các định dạng tệp cột được thiết kế để lưu trữ và xử lý các bộ dữ liệu phân tích lớn. Không giống như TSF, được thiết kế đặc biệt cho dữ liệu tensor, Parquet và Arrow được tối ưu hóa để lưu trữ và truy vấn hiệu quả khối lượng công việc phân tích trên dữ liệu dạng bảng và chuỗi thời gian. Chúng sử dụng các kỹ thuật nén và lưu trữ theo cột để giảm thiểu không gian lưu trữ và cải thiện hiệu suất, khiến chúng phù hợp với các ứng dụng dữ liệu lớn. Tuy nhiên, TSF có một số lợi thế so với Parquet và Arrow khi nói đến dữ liệu tensor. TSF có thể hỗ trợ các hoạt động tensor và truyền phát hiệu quả tới các khung học sâu.


Các định dạng tensor khác [18, 52, 23, 57] có hiệu quả đối với khối lượng công việc có thể song song hóa ồ ạt vì chúng không yêu cầu sự phối hợp giữa các khối. Sự cân bằng khóa Định dạng lưu trữ Tensor cho phép lưu trữ các mảng định hình động bên trong một tensor mà không cần đệm bộ nhớ. Ví dụ, trong thị giác máy tính, việc lưu trữ nhiều hình ảnh với các hình dạng khác nhau hoặc video có độ dài động là điều rất phổ biến. Để hỗ trợ tính linh hoạt, chi phí nhỏ được đưa vào dưới dạng bộ mã hóa đoạn đã thảo luận trước đó mà trong thực tế chúng tôi chưa nhận thấy tác động lên khối lượng công việc sản xuất.

7.2 Trình tải dữ liệu

Deep Lake đạt được kết quả tiên tiến trong cài đặt cục bộ và từ xa, như đã thấy trong các điểm chuẩn để lặp lại trên các hình ảnh lớn. Hình 7. Về cơ bản, nó nhanh hơn FCVV [39], vốn cho biết đã giảm thời gian đào tạo mô hình ImageNet lên tới 98 xu cho mỗi lần đào tạo mô hình. Hơn nữa, Deep Lake đạt được hiệu suất nhập tương tự như WebDataset [19]. Deep Lake hoạt động tốt hơn đáng kể trên các hình ảnh lớn hơn. Parquet được tối ưu hóa cho các ô nhỏ và khối lượng công việc phân tích, trong khi Deep Lake được tối ưu hóa cho dữ liệu tensorial lớn, có hình dạng động. So với các giải pháp hồ dữ liệu khác, thiết kế gói python tối thiểu của nó cho phép Deep Lake dễ dàng tích hợp vào khối lượng công việc suy luận hoặc đào tạo phân tán quy mô lớn.

7.3 Công việc trong tương lai

Việc triển khai Deep Lake hiện tại có cơ hội cải thiện hơn nữa. Thứ nhất, định dạng lưu trữ không hỗ trợ sắp xếp tùy chỉnh để có bố cục lưu trữ thậm chí còn hiệu quả hơn cần thiết cho tìm kiếm vectơ hoặc lập chỉ mục khóa-giá trị. Thứ hai, Deep Lake triển khai các khóa dựa trên nhánh để truy cập đồng thời. Tương tự như mô hình giao dịch Delta ACID [27], Deep Lake có thể được mở rộng sang các khối lượng công việc song song có hiệu suất cao. Thứ ba, việc triển khai TQL hiện tại chỉ hỗ trợ một tập hợp con các thao tác SQL (tức là không hỗ trợ các thao tác như nối). Công việc tiếp theo sẽ tập trung vào việc làm cho nó hoàn thiện về SQL, mở rộng sang nhiều hoạt động số hơn, chạy các truy vấn liên kết trong các nguồn dữ liệu bên ngoài và đo điểm chuẩn so với các công cụ SQL.


Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.