paint-brush
Veri Yükleyici Ortamına Genel Bakış: Tartışmaile@serialization
111 okumalar

Veri Yükleyici Ortamına Genel Bakış: Tartışma

Çok uzun; Okumak

Bu makalede araştırmacılar, kütüphaneleri işlevsellik, kullanılabilirlik ve performans açısından karşılaştırarak veri yükleyicilerin makine öğrenimi eğitimini iyileştirmenin anahtarı olduğunu vurguluyor.
featured image - Veri Yükleyici Ortamına Genel Bakış: Tartışma
The Serialization Publication HackerNoon profile picture
0-item

Yazarlar:

(1) Iason Ofeidis, Elektrik Mühendisliği Bölümü ve Yale Ağ Bilimi Enstitüsü, Yale Üniversitesi, New Haven {Eşit katkı};

(2) Diego Kiedanski, Elektrik Mühendisliği Bölümü ve Yale Ağ Bilimi Enstitüsü, Yale Üniversitesi, New Haven {Eşit katkı};

(3) Leandros Tassiulas Levon Ghukasyan, Activeloop, Mountain View, CA, ABD, Elektrik Mühendisliği Bölümü ve Yale Ağ Bilimi Enstitüsü, Yale Üniversitesi, New Haven.

Bağlantı Tablosu

5. TARTIŞMA

Bu çalışmada, farklı kütüphaneler arasındaki performansı karşılaştırmak için ana araç olarak zamanı kullandık. Bu konuda söylenecek birkaç şey var. İlk olarak, çalışma sürelerinin oldukça değişken olduğunu ve kontrol edilmesi zor olan arka plan işlemlerine bağlı olduğunu fark ettik. Aynı zamanda, çoklu GPU kaynaklarına erişim pahalıdır ve bu da yürütülebilecek deney sayısını sınırlamaktadır. İdeal durumda, daha fazla parametreyle (daha fazla işçi, daha fazla parti büyüklüğü) her deneyin üçten fazla tekrarını gerçekleştirirdik, ancak bunun için kaynaklarımız yoktu. Tüm açık kaynak kodumuzu yaptığımız için okuyucuları kendi donanımları üzerinde kıyaslamaları çalıştırmaya ve sonuçları raporlamaya davet ediyoruz. Aynı zamanda kitaplıklar oldukça sık güncellenir ve sürümdeki bir değişiklik performansını önemli ölçüde artırabilir veya azaltabilir.


Yukarıdaki noktaların ışığında, okuyucuyu bu makalenin niteliksel yönlerini içselleştirmeye teşvik ediyoruz ancak burada elde edilen rakamların değişmeye eğilimli olduğunu unutmayın.


İkinci olarak, karşılaştırılması daha zor olan bir husus, bu projede ele alınan kütüphanelerin kullanım kolaylığıdır. Bu değerlendirmeye dahil edilen kütüphanelerin çoğu kapsamlı belgelere sahip değildir ve öncelikle somut örneklere dayanmaktadır. Sonuç olarak, bu kütüphanelerdeki uygulama önemsiz değildir ve verimsizliğe yatkındır. Kodumuzu açık kaynak yapmanın avantajlarından biri, herhangi bir geliştiricinin kodumuzu tanımlamasına ve geliştirmesine izin vermemizdir. Bu projede oluşturulan kriterlerin topluluk için standart kod olarak kullanılmasını beklediğimiz için bu özellikle önemlidir.


Diğerlerinden daha iyi bir kütüphanenin bulunmadığını görüyoruz. Bunun yerine her birinin kendine has güçlü yanları vardır. FFCV örneğini düşünün: deneylerimizde en hızlısı gibi görünüyor ancak etiket dönüşümleri için desteğin olmaması, bu tür özellikler gerektiren projelerde benimsenmesini engelliyor.


Gelecekteki çalışmalarda birden fazla GPU genelinde filtreleme ve eğitim arasındaki etkileşimi analiz etmeyi umuyoruz. Aynı zamanda GPU sayısı arttıkça bu kitaplıkların ölçeklendirme yeteneklerini keşfetmek de ilginç olacaktır. Benzer şekilde, veri yükleme kitaplıklarını DL eğitim iş akışındaki karıştırma adımındaki performans açısından kıyaslamak büyük ilgi görecektir, çünkü bunun toplam eğitim süresi üzerinde önemli bir etkisi olabilir ve bunun uygulanması önemsiz bir sorun değildir. çeşitli yaklaşımların olduğu yer.


Uzak bir depolama biriminden veri yükleme sağlayan kütüphaneler üzerine yapılan araştırma ve bunların yerel depolama deneyleriyle karşılaştırılabilir sonuçlar vermesi, bizi bir ağ üzerinden veri akışı için bir önbellekleme politikası formüle etme ve tasarlama fikrini keşfetmeye teşvik etti. Bu ortamda, bir veri noktasının (örn. görüntünün) aktarılması gereken sürelerin azaltılması, genel eğitim süresini (ve muhtemelen ağ kullanımı ücretliyse maliyetleri) önemli ölçüde kısaltabilir. Eğitim sırasında bir ağ veri kümesini önbelleğe alma fikri yeni değildir (Mohan ve diğerleri, 2020). Yine de, eğitim ve veri akışı tartışılırken genellikle tüm veri kümesinin önbelleğe alınabileceği varsayılır. Ayrıca geleneksel olarak olduğu gibi tüm örneklerin dönem başına bir kez kullanılacağı varsayılmaktadır (Kumar ve Sivathanu, 2020). Önbellek boyutu küçük olduğunda ne olacağını araştırmakla ve ayrıca her veri noktasının çağ başına bir kez kullanılması zorunluluğunu ortadan kaldırmakla ilgileniyoruz. Böyle bir formülasyon aktif öğrenmeden, veri özetlemeden ve müfredat öğreniminden ödünç alınmalıdır.