Yazarlar:
(1) Iason Ofeidis, Elektrik Mühendisliği Bölümü ve Yale Ağ Bilimi Enstitüsü, Yale Üniversitesi, New Haven {Eşit katkı};
(2) Diego Kiedanski, Elektrik Mühendisliği Bölümü ve Yale Ağ Bilimi Enstitüsü, Yale Üniversitesi, New Haven {Eşit katkı};
(3) Leandros Tassiulas Levon Ghukasyan, Activeloop, Mountain View, CA, ABD, Elektrik Mühendisliği Bölümü ve Yale Ağ Bilimi Enstitüsü, Yale Üniversitesi, New Haven.
Bu bölümde derin öğrenme kitaplıklarını, modellerini ve çerçevelerini kıyaslamak için toplulukta yapılan çeşitli çalışmalar açıklanmaktadır.
Derin öğrenme araçlarının ve yöntemlerinin karşılaştırılmasına yönelik geniş bir çalışma grubu mevcuttur. MLPerf (Mattson ve diğerleri, 2020), çeşitli yapay zeka görevlerini kapsayan, hem eğitimi hem de çıkarımı hedefleyen modern makine öğrenimi iş yükleri için tartışmasız en popüler makine öğrenimi kıyaslama projesidir. Yazarlar, belirli bir doğruluk seviyesine ulaşmak için gereken eğitim süresini objektif ölçüleri olarak kullanırlar. Bu ölçüm, daha fazla hesaplama kaynağı gerektirir ve veri yükleyici parametrelerini test etmek için pek uygun değildir. DeepBench (Baidu-Research, 2020), Baidu Research'ün derin öğrenme yığınındaki çekirdek düzeyindeki işlemlere odaklanan açık kaynaklı bir projesidir; kitaplıklarda uygulanan ve doğrudan temeldeki donanım üzerinde yürütülen bireysel işlemlerin (örn. matris çarpımı) performansını karşılaştırır. Benzer şekilde AI Matrix (Zhang ve diğerleri, 2019), temel operatörleri kapsamak, tamamen bağlı ve diğer ortak katmanların performansını ölçmek için mikro kıyaslamaları kullanır ve sentetik kıyaslamalar sunarak gerçek iş yüklerinin özelliklerini eşleştirir.
Çerçevelerin karşılaştırılması: Bu bölüm, PyTorch, TensorFlow vb. gibi farklı derin öğrenme çerçevelerini kıyaslama ve karşılaştırmaya yönelik çabaları içerir.
Deep500'de (Ben-Nun ve diğerleri, 2019), yazarlar DL eğitim performansını ölçmek için modüler bir yazılım çerçevesi sağlar; özelleştirilebilir olsa da, hiperparametre kıyaslaması yoktur ve yeni kitaplıklar ve iş akışları eklemek ve bunları denemek için kullanımı kolay bir yol sağlamaz. AIBench (Gao ve diğerleri, 2020) ve DAWNBench (Coleman ve diğerleri, 2019) uçtan uca kıyaslama ölçütleridir; ikincisi, uçtan uca performansı ölçen ilk çok katılımcılı kıyaslama yarışmasıdır. derin öğrenme sistemleri. MLPerf'te olduğu gibi hiçbiri alternatif yükleme kitaplıklarının iş akışlarındaki etkisini incelemez. (Wu ve diğerleri, 2019)'da yazarlar, farklı paralel hesaplama kitaplıkları ve toplu iş boyutları için CPU ve bellek kullanım modellerinin ve bunların doğruluk ve eğitim verimliliği üzerindeki etkisinin sistematik bir analizini sunmaktadır. Bu analiz bizim çalışmamıza yakın; ancak yeni kütüphanelerle etkileşim kurmak ve kıyaslamak için açık kaynaklı bir kaynak sağlamaz.
(Shi ve diğerleri, 2016)'da yazarlar, farklı sinir ağlarının (örneğin, Tam Bağlantılı, Evrişimli ve Tekrarlayan Sinir Ağları) performansına dayalı olarak derin öğrenme çerçevelerini karşılaştırmaktadır. dPRO (Hu ve diğerleri, 2022), birden fazla çerçevede dağıtılmış DNN eğitiminin çalışma zamanı izlerini toplayan bir profil oluşturucu kullanarak dağıtılmış (çoklu GPU) eğitim kıyaslamalarına odaklanır. DLBench (HKBU'da Heterojen Bilgi İşlem Laboratuvarı, 2017), Caffe, Tensorflow ve MXNet gibi farklı derin öğrenme araçlarını ölçmeye yönelik bir kıyaslama çerçevesidir. (Liu ve diğerleri, 2018)'de yazarlar, her bir çerçevenin varsayılan yapılandırmalarının model performansı (zaman ve doğruluk) üzerindeki etkisini inceleyerek, DNN parametrelerinin ve hiperparametrelerin veri kümesine özgü özelliklerle karmaşık etkileşimlerini ortaya koymaktadır. Ancak deneyler her çerçevenin yalnızca varsayılan yapılandırmalarını içerir ve varsayılan olmayan ayarlara ilişkin herhangi bir analizden yoksundur. (Wu ve diğerleri, 2018)'de yazarlar, çerçevelerin varsayılan yapılandırmalarını test eder ve her veri kümesi için en uygun olanları bulmaya çalışır; ayrıca veri yükleme sürecini de incelerler ancak üçüncü taraf kütüphaneleri değerlendirmezler. Bu paragrafta yer alan daha önce yayımlanan tüm eserler, çalışmamızla pek çok benzerlik taşımakla birlikte, önemli bir farkları var; girişte belirtildiği gibi şu anda hem endüstride hem de akademide yaygın olarak kullanılan en popüler derin öğrenme çerçevelerinden biri olan bu makalede açıklanan veri yükleme için PyTorch veya kütüphane ekosistemi üzerinde herhangi bir analiz veya kıyaslama yapmazlar. .
Farklı DNN mimarilerinin ve donanımlarının karşılaştırılması: ParaDNN (Wang ve diğerleri, 2020), temel donanımın sınırlarını zorlamak için parti boyutunu değiştirmek gibi hedef platformlarda çalışacak parametreli uçtan uca modeller üretir, ancak özel platformların (TPU v2/v3) ve cihaz mimarilerinin (TPU, GPU, CPU) karşılaştırılması. ParaDNN ile ilgili olarak, çeşitli hesaplama kaynaklarına sahip donanım sistemlerinin analizine dayanan pratik dağıtımlar ve uygulamalardaki kaynak kısıtlamalarına yanıt veren uygun mimariyi seçmek için kapsamlı bir araç sağlayan (Bianco ve diğerleri, 2018) çalışmasıdır. Ancak derin öğrenme modellerinin tasarımına, bunların uygulandığı derin öğrenme çerçevelerinden daha fazla odaklanılmaktadır. Fathom (Adolf ve diğerleri, 2016) ve TBD Suite (Zhu ve diğerleri, 2018), geniş bir görev yelpazesi ve çeşitli iş yükleri genelinde tam model mimarilerin değerlendirilmesine odaklanırken, bunlar sınırlıdır ve durum için kıyaslamalardan yoksundurlar. son teknoloji eğitim yenilikleri.
Diğer Cihazlar: AI Benchmark (Ignatov ve diğerleri, 2018) tartışmasız ilk mobil çıkarım kıyaslama paketidir. Ancak sonuçları yalnızca Android akıllı telefonlara odaklanıyor ve yalnızca gecikmeyi ölçüyor ve kalite hedeflerini açıkça belirtmede açıkça başarısız olan bir özet puan sağlıyor. (Hadidi ve diğerleri, 2019), DNN'lerin yürütme süresi, enerji tüketimi ve sıcaklık perspektiflerinden uçtan uca çıkarımını araştırıyor. (Tao ve diğerleri, 2018), şube tahmin oranları ve veri yeniden kullanım mesafeleri gibi çeşitli donanım davranışlarına sahip konfigürasyonları kapsar ve istihbarat işlemcileri ile donanım platformlarının doğruluğunu, performansını ve enerjisini değerlendirir. Bu çalışmaların her ikisi de, bu çalışmanın kapsamı dışında olan uç cihazlar ve zeka işlemcileri gibi farklı cihaz yelpazesine odaklanmıştır.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .