Yazarlar:
(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, ABD;
(2) Abhinav Tuli, Activeloop, Mountain View, CA, ABD;
(3) Levon Ghukasyan, Activeloop, Mountain View, CA, ABD;
(4) Fariz Rahman, Activeloop, Mountain View, CA, ABD;.
(5) Hrant Topchyan, Activeloop, Mountain View, CA, ABD;
(6) David Isayan, Activeloop, Mountain View, CA, ABD;
(7) Mark McQuade, Activeloop, Mountain View, CA, ABD;
(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, ABD;
(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, ABD;
(10) Ivo Stranic, Activeloop, Mountain View, CA, ABD;
(11) Davit Buniatyan, Activeloop, Mountain View, CA, ABD.
Bu bölümde, Deep Lake'in formatın beslenme noktasından diğer veri yükleyicilere ve formatlara karşı geniş ölçekte eğitilmesine kadar geniş ölçekteki performansını deneysel olarak gösteriyoruz. Farklı depolama arka uçlarından akış veri kümelerini karşılaştırıyoruz ve bulutta eğitim sırasında performans kazanımlarını ve ölçeklenebilirliği sergiliyoruz.
FFHQ [43] veri setinden 10.000 görüntü sıkıştırılmamış ve NumPy formatında saklanmıştır. Her 1024x1024x3 ham görüntü 3 MB'lık bir dizidir. Daha sonra Şekil 6'da gösterildiği gibi görüntüler her formata seri olarak yazılmıştır. Performansı arttırmak için Zarr [52] ve N5 [24] formatlarına yazmak için TensorStore [23] kullandık. Deneyler AWS c5.9xlarge makinesinde yapıldı. Deep Lake, dizi formatlarıyla karşılaştırıldığında önemli ölçüde daha hızlı yazma performansı elde eder ve WebDataset [19] ve FFCV Beton [39] gibi ikili formatlarla aynı seviyededir.
Şekil 7'de gösterildiği gibi Deep Lake, bir model olmadan PyTorch eğitim döngüsünde daha hızlı veri yüklemeyi başarır. Deney, bir adet Nvidia V100 GPU'ya sahip AWS P3.2xlarge bulut sunucusu üzerinde gerçekleştirildi.
kart. Veri kümesi, JPEG dosyaları olarak depolanan 50.000 adet 250x250x3 görüntüyü rastgele oluşturdu. Kıyaslamaların gerçekleştirildiği kütüphanelerin listesi Deep Lake, FFCV [39], Squirrel [75], Webdataset [19] ve yerel PyTorch veri yükleyicisi [58] idi.
Şekil 8'de gösterilen bu deneyde, Bölüm 6.2'dekiyle aynı veri setini kullanarak uzaktan akış için farklı depolama arka uçlarını araştırıyoruz. MinIO [17] yerel ağdaki başka bir makinede çalışıyor. Özellikle Deep Lake, AWS S3 ile karşılaştırıldığında veriler makinede yerelmiş gibi benzer bir performans elde ediyor. Veri akışı sırasında hem WebDataset hem de Deep Lake önemli ölçüde daha yavaştır.
MinIO'nun AWS S3 ile karşılaştırılması. Daha ayrıntılı veri yükleyici karşılaştırmaları için Ofeidis ve arkadaşları tarafından hazırlanan kapsamlı bir veri yükleyici genel bakış çalışmasını öneriyoruz. [54].
Deep Lake bulut öncelikli olacak şekilde inşa edildiğinden bu ve sonraki bölümde buluttaki eğitim modellerine sağladığı faydaları gösteriyoruz. ImageNet veri kümesini [35] alıp AWS S3 [1] üzerinde orijinal ve Tensor Storage Formatında saklıyoruz. Veri kümesinde toplam 150 GB boyutunda 1,2 milyon resim ve etiket bulunmaktadır. Deep Lake, veriler makinede yerelmiş gibi neredeyse benzer bir eğitim performansı elde ediyor. Bu, Şekil 9'da gösterildiği gibi GPU işlem süresinden ve maliyetinden 4 kata kadar tasarruf sağlar.
İkinci bir deney olarak, 400M görüntü-metin çifti içeren LAION veri kümesini [67] alıyoruz ve 1 milyar parametreli görüntü-metin yerleştirme modeli olan CLIP'i [60] eğitiyoruz. Orijinal veri kümesi, resim URL'lerinden oluşan bir sütun içeren Parquet dosyalarının bir tablosudur. Veri kümesinin kaynaktan indirilmesi 100 saat sürerken, Tensor Depolama formatına aktarılması yalnızca 6 saat sürdü ve toplamda 1,9 TB boyuta ulaştı. Veri kümesi, ABD'nin orta bölgesinde GPU makinesi eğitilirken ABD'nin doğu bölgesindeki AWS'de depolandı. Şekil 10'da gösterildiği gibi Deep Lake, model olmadan aynı bölgede makine başına 80.000 görüntü/sn'ye kadar 16 Nvidia A100 GPU'ya 5.100 görüntü/sn akışı sağlayarak yüksek GPU kullanımına ulaşır.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .