Yazarlar:
(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, ABD;
(2) Abhinav Tuli, Activeloop, Mountain View, CA, ABD;
(3) Levon Ghukasyan, Activeloop, Mountain View, CA, ABD;
(4) Fariz Rahman, Activeloop, Mountain View, CA, ABD;.
(5) Hrant Topchyan, Activeloop, Mountain View, CA, ABD;
(6) David Isayan, Activeloop, Mountain View, CA, ABD;
(7) Mark McQuade, Activeloop, Mountain View, CA, ABD;
(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, ABD;
(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, ABD;
(10) Ivo Stranic, Activeloop, Mountain View, CA, ABD;
(11) Davit Buniatyan, Activeloop, Mountain View, CA, ABD.
Birden fazla proje, TFRecord'u genişleten Protobuf [5], Petastorm [18] genişleten Parquet [79], Feather [7] genişleten ok [13], Squirrel'ı kullanan Squirrel dahil olmak üzere yapılandırılmamış veri kümelerini depolamak için yeni formatlar oluşturmayı veya iyileştirmeyi denedi. FFCV'de beton [39]. Tüm kullanım durumlarını çözen evrensel bir veri kümesi formatı tasarlamak çok zordur. Yaklaşımımız çoğunlukla büyük hacimli biyomedikal verileri depolamak için 4 boyutlu bir NumPy depolama alanı olan CloudVolume'dan [11] ilham aldı. Zarr [52], TensorStore [23], TileDB [57] gibi başka benzer yığınlı NumPy dizi depolama formatları da vardır. Deep Lake, bir yazma sistemi, dinamik olarak şekillendirilmiş tensörler, hızlı derin öğrenme akışlı veri yükleyicilerle entegrasyon, tensörlerle ilgili sorgular ve tarayıcı içi görselleştirme desteğini tanıttı. Büyük ölçekli veri kümelerini depolamak için alternatif bir yaklaşım, PyTorch önbelleği [45] ile genişletilen Lustre [69] gibi HPC dağıtılmış dosya sistemini veya AIStore [26] gibi performanslı depolama katmanını kullanmaktır. Deep Lake veri kümeleri, avantajlarından yararlanılarak POSIX veya REST API uyumlu dağıtılmış depolama sistemlerinin üzerinde depolanabilir. Diğer karşılaştırılabilir yaklaşımlar, yerleştirmeleri depolamak için vektör veritabanlarında [80, 8, 80], özellik depolarında [73, 16] veya DVC [46] veya LakeFS [21] gibi veri sürümü kontrol sistemlerinde gelişir. Buna karşılık Deep Lake sürüm kontrolü, Git de dahil olmak üzere harici bir bağımlılık olmaksızın formatın içine yerleşiktir. Tensör Sorgu Dili, TQP [41] ve Velox [59] yaklaşımlarına benzer şekilde, derin öğrenme çerçevelerinin tüm yeteneklerini gerçek anlamda kullanarak tensör depolama üzerinde n boyutlu sayısal işlemleri çalıştırır. Genel olarak Deep Lake, Hudi, Iceberg, Delta [27, 15, 10] gibi veri göllerinden paralellikler alır ve Derin Öğrenme uygulamaları için Databarick's Lakehouse [28] gibi sistemleri tamamlar.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .