paint-brush
Deep Lake, Derin Öğrenme için Bir Göl Evi: İlgili Çalışmaile@dataology

Deep Lake, Derin Öğrenme için Bir Göl Evi: İlgili Çalışma

Çok uzun; Okumak

Araştırmacılar, derin öğrenme çerçeveleri için karmaşık veri depolamayı ve akışı optimize eden, derin öğrenme için açık kaynaklı bir göl evi olan Deep Lake'i tanıtıyor.
featured image - Deep Lake, Derin Öğrenme için Bir Göl Evi: İlgili Çalışma
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

Yazarlar:

(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, ABD;

(2) Abhinav Tuli, Activeloop, Mountain View, CA, ABD;

(3) Levon Ghukasyan, Activeloop, Mountain View, CA, ABD;

(4) Fariz Rahman, Activeloop, Mountain View, CA, ABD;.

(5) Hrant Topchyan, Activeloop, Mountain View, CA, ABD;

(6) David Isayan, Activeloop, Mountain View, CA, ABD;

(7) Mark McQuade, Activeloop, Mountain View, CA, ABD;

(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, ABD;

(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, ABD;

(10) Ivo Stranic, Activeloop, Mountain View, CA, ABD;

(11) Davit Buniatyan, Activeloop, Mountain View, CA, ABD.

Bağlantı Tablosu

8. İLGİLİ ÇALIŞMA

Birden fazla proje, TFRecord'u genişleten Protobuf [5], Petastorm [18] genişleten Parquet [79], Feather [7] genişleten ok [13], Squirrel'ı kullanan Squirrel dahil olmak üzere yapılandırılmamış veri kümelerini depolamak için yeni formatlar oluşturmayı veya iyileştirmeyi denedi. FFCV'de beton [39]. Tüm kullanım durumlarını çözen evrensel bir veri kümesi formatı tasarlamak çok zordur. Yaklaşımımız çoğunlukla büyük hacimli biyomedikal verileri depolamak için 4 boyutlu bir NumPy depolama alanı olan CloudVolume'dan [11] ilham aldı. Zarr [52], TensorStore [23], TileDB [57] gibi başka benzer yığınlı NumPy dizi depolama formatları da vardır. Deep Lake, bir yazma sistemi, dinamik olarak şekillendirilmiş tensörler, hızlı derin öğrenme akışlı veri yükleyicilerle entegrasyon, tensörlerle ilgili sorgular ve tarayıcı içi görselleştirme desteğini tanıttı. Büyük ölçekli veri kümelerini depolamak için alternatif bir yaklaşım, PyTorch önbelleği [45] ile genişletilen Lustre [69] gibi HPC dağıtılmış dosya sistemini veya AIStore [26] gibi performanslı depolama katmanını kullanmaktır. Deep Lake veri kümeleri, avantajlarından yararlanılarak POSIX veya REST API uyumlu dağıtılmış depolama sistemlerinin üzerinde depolanabilir. Diğer karşılaştırılabilir yaklaşımlar, yerleştirmeleri depolamak için vektör veritabanlarında [80, 8, 80], özellik depolarında [73, 16] veya DVC [46] veya LakeFS [21] gibi veri sürümü kontrol sistemlerinde gelişir. Buna karşılık Deep Lake sürüm kontrolü, Git de dahil olmak üzere harici bir bağımlılık olmaksızın formatın içine yerleşiktir. Tensör Sorgu Dili, TQP [41] ve Velox [59] yaklaşımlarına benzer şekilde, derin öğrenme çerçevelerinin tüm yeteneklerini gerçek anlamda kullanarak tensör depolama üzerinde n boyutlu sayısal işlemleri çalıştırır. Genel olarak Deep Lake, Hudi, Iceberg, Delta [27, 15, 10] gibi veri göllerinden paralellikler alır ve Derin Öğrenme uygulamaları için Databarick's Lakehouse [28] gibi sistemleri tamamlar.