paint-brush
Deep Lake, Derin Öğrenme için Bir Göl Evi: Tartışma ve Sınırlamalarile@dataology
137 okumalar

Deep Lake, Derin Öğrenme için Bir Göl Evi: Tartışma ve Sınırlamalar

Çok uzun; Okumak

Araştırmacılar, derin öğrenme çerçeveleri için karmaşık veri depolamayı ve akışı optimize eden, derin öğrenme için açık kaynaklı bir göl evi olan Deep Lake'i tanıtıyor.
featured image - Deep Lake, Derin Öğrenme için Bir Göl Evi: Tartışma ve Sınırlamalar
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

Yazarlar:

(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, ABD;

(2) Abhinav Tuli, Activeloop, Mountain View, CA, ABD;

(3) Levon Ghukasyan, Activeloop, Mountain View, CA, ABD;

(4) Fariz Rahman, Activeloop, Mountain View, CA, ABD;.

(5) Hrant Topchyan, Activeloop, Mountain View, CA, ABD;

(6) David Isayan, Activeloop, Mountain View, CA, ABD;

(7) Mark McQuade, Activeloop, Mountain View, CA, ABD;

(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, ABD;

(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, ABD;

(10) Ivo Stranic, Activeloop, Mountain View, CA, ABD;

(11) Davit Buniatyan, Activeloop, Mountain View, CA, ABD.

Bağlantı Tablosu

7. TARTIŞMA VE SINIRLAMALAR

Deep Lake'in birincil kullanım durumları arasında (a) Derin Öğrenme Modeli Eğitimi, (b) Veri Kökeni ve Sürüm Kontrolü, (c) Veri Sorgulama ve Analitik, (d) Veri İnceleme ve Kalite Kontrolü yer alır. NumPy [55] dizilerini temel blok olarak aldık ve uyguladık


Şekil 10: 1B parametreli CLIP modelinin eğitimi sırasında tek 16xA100 GPU makinesinin GPU kullanımı [60]. Veri kümesi, ABD-doğu AWS'den GCP ABD-merkez veri merkezine akış yapan LAION-400M [68]'dir. Her renk, eğitim boyunca tek bir A100 GPU kullanımını gösterir.


sürüm kontrolü, akış veri yükleyicileri, sıfırdan görselleştirme motoru.

7.1 Format Tasarım Alanı

Tensör Depolama Formatı (TSF), birçok makine öğrenimi ve derin öğrenme algoritmasında kullanılan çok boyutlu sayısal değer dizileri olan tensörleri depolamak için özel olarak tasarlanmış bir ikili dosya formatıdır. TSF formatı verimli ve kompakt olacak şekilde tasarlanmış olup, tensör verilerinin hızlı ve verimli bir şekilde depolanmasına ve erişilmesine olanak tanır. TSF formatının önemli bir avantajı, dinamik olarak şekillendirilmiş tensörler de dahil olmak üzere çok çeşitli tensör veri türlerini desteklemesidir.


Karşılaştırıldığında, Parquet [79] ve Arrow [13] formatları, büyük analitik veri kümelerinin depolanması ve işlenmesi için tasarlanmış sütunlu dosya formatlarıdır. Tensör verileri için özel olarak tasarlanan TSF'den farklı olarak Parquet ve Arrow, tablo ve zaman serisi verilerinde analitik iş yüklerinin verimli şekilde depolanması ve sorgulanması için optimize edilmiştir. Depolama alanını en aza indirmek ve performansı artırmak için sütunlu depolama ve sıkıştırma tekniklerini kullanırlar ve bu da onları büyük veri uygulamalarına uygun hale getirir. Ancak tensör verileri söz konusu olduğunda TSF'nin Parquet ve Arrow'a göre bazı avantajları vardır. TSF, tensör işlemlerini ve derin öğrenme çerçevelerine verimli akışı destekleyebilir.


Diğer tensör formatları [18, 52, 23, 57], parçalar arasında koordinasyon gerektirmediğinden, büyük ölçüde paralelleştirilebilir iş yükleri için etkilidir. Tensör Depolama Formatı anahtar değişimi, şekil dizilerini bellek alanını doldurmadan bir tensörün içinde dinamik olarak depolamaya olanak tanır. Örneğin, bilgisayarla görmede, farklı şekillerde birden fazla görüntünün veya dinamik uzunluğa sahip videoların depolanması çok yaygındır. Esnekliği desteklemek için, daha önce tartışılan ve pratikte üretim iş yükleri üzerinde bir etki gözlemlemediğimiz parça kodlayıcı biçiminde küçük bir ek yük eklenmiştir.

7.2 Veri Yükleyici

Deep Lake, büyük görüntüler üzerinde yineleme için yapılan kıyaslamalarda görüldüğü gibi, yerel ve uzak ayarlarda en son teknolojiye sahip sonuçlara ulaşmaktadır Şekil 7. Öncelikle, ImageNet model eğitiminde azalma olduğunu iddia eden FFCV'den [39] daha hızlı olmuştur. model eğitimi başına 98 sente kadar. Ayrıca Deep Lake, WebDataset [19] ile benzer alım performansına ulaşıyor. Deep Lake, daha büyük görüntülerde önemli ölçüde daha iyi performans gösteriyor. Parquet küçük hücreler ve analitik iş yükleri için optimize edilirken Deep Lake, büyük, dinamik olarak şekillendirilmiş tensör verileri için optimize edilmiştir. Diğer data lake çözümleriyle karşılaştırıldığında minimal python paket tasarımı, Deep Lake'in büyük ölçekli dağıtılmış eğitim veya çıkarım iş yüklerine kolayca entegre edilmesini sağlar.

7.3 Gelecekteki çalışmalar

Deep Lake'in mevcut uygulamasının daha fazla iyileştirme fırsatları var. İlk olarak, depolama formatı, vektör arama veya anahtar-değer indeksleme için gereken daha verimli bir depolama düzeni için özel sıralamayı desteklemez. İkinci olarak Deep Lake, eşzamanlı erişim için şube tabanlı kilitler uyguluyor. Delta ACID işlem modeline benzer şekilde [27] Deep Lake, yüksek performanslı paralel iş yüklerine genişletilebilir. Üçüncüsü, TQL'in mevcut uygulaması SQL işlemlerinin yalnızca bir alt kümesini desteklemektedir (yani birleştirme gibi işlemleri desteklememektedir). Daha sonraki çalışmalar, SQL'i tamamlamaya, daha sayısal işlemlere genişletmeye, harici veri kaynaklarında birleştirilmiş sorgular çalıştırmaya ve SQL motorlarıyla karşılaştırma yapmaya odaklanacak.