paint-brush
Veri Yükleyici Ortamına Genel Bakış: Sonuç, Teşekkür ve Referanslarile@serialization

Veri Yükleyici Ortamına Genel Bakış: Sonuç, Teşekkür ve Referanslar

Çok uzun; Okumak

Bu makalede araştırmacılar, kütüphaneleri işlevsellik, kullanılabilirlik ve performans açısından karşılaştırarak veri yükleyicilerin makine öğrenimi eğitimini iyileştirmenin anahtarı olduğunu vurguluyor.
featured image - Veri Yükleyici Ortamına Genel Bakış: Sonuç, Teşekkür ve Referanslar
The Serialization Publication HackerNoon profile picture
0-item

Yazarlar:

(1) Iason Ofeidis, Elektrik Mühendisliği Bölümü ve Yale Ağ Bilimi Enstitüsü, Yale Üniversitesi, New Haven {Eşit katkı};

(2) Diego Kiedanski, Elektrik Mühendisliği Bölümü ve Yale Ağ Bilimi Enstitüsü, Yale Üniversitesi, New Haven {Eşit katkı};

(3) Leandros Tassiulas Levon Ghukasyan, Activeloop, Mountain View, CA, ABD, Elektrik Mühendisliği Bölümü ve Yale Ağ Bilimi Enstitüsü, Yale Üniversitesi, New Haven.

Bağlantı Tablosu

7. SONUÇLAR

Bu yazıda, makine öğrenimi uygulayıcılarının veri kümelerini modellerine yüklemelerine olanak tanıyan Pytorch kitaplıklarının mevcut yapısını inceledik. Bu kitaplıklar, artan hızdan, verilerin yalnızca bir alt kümesinin görünümlerini oluşturmaya ve uzak depolama biriminden veri yüklemeye kadar çok çeşitli özellikler sunar. Veri depolama ve model eğitiminin birbirinden ayrılmasına olanak tanıdığı için uzaktan yüklemenin tüm bu özellikler açısından en fazla ümit vaat eden özellik olduğuna inanıyoruz. Herkese açık internet üzerinden yükleme hızı doğal olarak yerel diskten daha yavaş olsa da Deep Lake gibi bazı kütüphaneler dikkate değer sonuçlar gösterdi (zamanda yalnızca %13'lük bir artış). Çoğunlukla, çoklu GPU'lar için FFCV ve ağ bağlantılı yükleme için oldukça iyi performans gösteren Deep Lake dışında kitaplıklar arasında önemli bir performans farkı bulamadık. Ancak, bu kitaplıkların çoğunun belgelerinin hazır veya kapsamlı olmadığını ve bunun da yanlış yapılandırılmış kurulumlara yol açabileceğini fark ettik. İyi uygulamaları bulmak zor olduğundan, bir programcı farklı bir veri yükleyicide iyi sonuç veren ve yeni kitaplıkta çalışması gerekmeyen uygulamaları kullanabilir. Bu noktada performans kazanımları, küçük ve orta ölçekli işler için mevcut kod tabanlarının geçişini haklı çıkaracak kadar büyük görünmüyor. Daha büyük işler için daha hızlı kitaplıklardan birine geçiş maliyetlerinde önemli düşüşler sağlayabilir. Son olarak, makine öğrenimi uygulamaları için tasarlanan yenilikçi bir önbellekleme sisteminin, gerçek anlamda ayrıştırılmış bir veri kümesi modeli sistemi vizyonunu gerçekleştirmenin son parçası olabileceğine inanıyoruz. Bu tür herhangi bir yaklaşımın, veri kümesi özetleme ve aktif öğrenmeye ilişkin mevcut bilgileri oluşturması gerekecektir.

TEŞEKKÜRLER

Yazarlar, bu projenin geliştirilmesi sırasındaki destekleri ve anlayışları için Activeloop ekibine teşekkür eder. Yazarlar ayrıca bazı deneyleri yürütmek için kullandıkları kaynaklar için hem Tryolabs'a hem de Activeloop'a teşekkür etmek isterler.

REFERANSLAR

Abadi, M., Agarwal, A., Barham, P., Brevdo, E., Chen, Z., Citro, C., Corrado, GS, Davis, A., Dean, J., Devin, M., Ghemawat , S., Goodfellow, I., Harp, A., Irving, G., Isard, M., Jia, Y., Jozefowicz, R., Kaiser, L., Kudlur, M., Levenberg, J., Mane , D., Monga, R., Moore, S., Murray, D., ` Olah, C., Schuster, M., Shlens, J., Steiner, B., Sutskever, I., Talwar, K., Tucker, P., Vanhoucke, V., Vasudevan, V., Viegas, F., Vinyals, O., Warden, P., Wattenberg, M., ´ Wicke, M., Yu, Y. ve Zheng, X . TensorFlow: Heterojen sistemlerde büyük ölçekli makine öğrenimi, 2015. URL https://www.tensorflow.org/. Yazılım tensorflow.org'da mevcuttur.


Adolf, R., Rama, S., Reagen, B., Wei, G.-Y. ve Brooks, D. Fathom: Modern derin öğrenme yöntemleri için referans iş yükleri. 2016'da IEEE Uluslararası İş Yükü Karakterizasyonu Sempozyumu (IISWC), s. 1–10. IEEE, 2016.


Baidu-Araştırma. DeepBench, 2020. URL https://github.com/baidu-research/DeepBench.


Ben-Nun, T., Besta, M., Huber, S., Ziogas, AN, Peter, D. ve Hoefler, T. Yüksek performanslı ve tekrarlanabilir derin öğrenme için modüler bir kıyaslama altyapısı. 2019'da IEEE Uluslararası Paralel ve Dağıtılmış İşleme Sempozyumu (IPDPS), s. 66–77. IEEE, 2019.


Bianco, S., Cadene, R., Celona, L. ve Napoletano, P. Temsili derin sinir ağı mimarilerinin karşılaştırmalı analizi. IEEE erişimi, 6:64270–64277, 2018


Buslaev, A., Iglovikov, VI, Khvedchenya, E., Parinov, A., Druzhinin, M. ve Kalinin, AA Albümentasyonlar: hızlı ve esnek görüntü büyütme. Bilgi, 11(2): 125, 2020.


Coleman, C., Kang, D., Narayanan, D., Nardi, L., Zhao, T., Zhang, J., Bailis, P., Olukotun, K., Re, C. ve Zaharia, ´ M Doğruluk süresine yönelik bir makine öğrenimi performansı karşılaştırması olan Dawnbench'in analizi. ACM SIGOPS İşletim Sistemleri İncelemesi, 53(1):14–25, 2019.


Gao, W., Tang, F., Zhan, J., Lan, C., Luo, C., Wang, L., Dai, J., Cao, Z., Xiong, X., Jiang, Z., ve ark. Aibench: Çevik bir alana özgü kıyaslama metodolojisi ve bir yapay zeka kıyaslama paketi. arXiv ön baskı arXiv:2002.07162, 2020.


Hadidi, R., Cao, J., Xie, Y., Asgari, B., Krishna, T. ve Kim, H. Derin sinir ağlarının ticari uç cihazlara konuşlandırılmasının karakterize edilmesi. 2019'da IEEE Uluslararası İş Yükü Karakterizasyonu Sempozyumu (IISWC), s. 35–48. IEEE, 2019.


Hambardzumyan, S., Tuli, A., Ghukasyan, L., Rahman, F., Topchyan, H., Isayan, D., Harutyunyan, M., Hakobyan, T., Stranic, I. ve Buniatyan, D. Derin göl: derin öğrenme için bir göl evi, 2022. URL https://arxiv.org/ abs/2209.10785.


HKBU'da Heterojen Bilgi İşlem Laboratuvarı, D.DLBench, 2017. URL https://github.com/hclhkbu/ dlbench.


Hinton, G., Srivastava, N. ve Swersky, K. Makine öğrenimi için sinir ağları dersi 6a mini toplu gradyan inişine genel bakış. Alıntı tarihi, 14(8):2, 2012.


Hu, H., Jiang, C., Zhong, Y., Peng, Y., Wu, C., Zhu, Y., Lin, H. ve Guo, C. dpro: Genel bir performans teşhisi ve optimizasyon araç seti Dağıtılmış DNS eğitimini hızlandırmak. Makine Öğrenimi ve Sistemleri Bildirileri, 4:623–637, 2022.


Ignatov, A., Timofte, R., Chou, W., Wang, K., Wu, M., Hartley, T. ve Van Gool, L. Ai kıyaslaması: Android akıllı telefonlarda derin sinir ağlarını çalıştırma. Avrupa Bilgisayarlı Görme Konferansı (ECCV) Çalıştayları Bildirileri, s. 0-0, 2018.


Krizhevsky, A., Hinton, G., ve diğerleri. Küçük görüntülerden birden fazla özellik katmanının öğrenilmesi. 2009.


Kumar, AV ve Sivathanu, M. Quiver: Derin öğrenme için bilgilendirilmiş bir depolama önbelleği. 18. USENIX Dosya ve Depolama Teknolojileri Konferansı (FAST 20), s. 283–296, Santa Clara, CA, Şubat 2020. USENIX Derneği. ISBN 978-1-939133-12-0. URL https://www.usenix.org/conference/fast20/sunum/kumar.


Leclerc, G., İlyas, A., Engstrom, L., Park, SM, Salman, H. ve Madry, A. ffcv. https://github.com/ libffcv/ffcv/, 2022. xxxxxxx'i işle.


Li, S., Zhao, Y., Varma, R., Salpekar, O., Noordhuis, P., Li, T., Paszke, A., Smith, J., Vaughan, B., Damania, P., ve ark. Pytorch dağıtıldı: Veri paralel eğitimini hızlandırmaya yönelik deneyimler. arXiv ön baskı arXiv:2006.15704, 2020.


Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollar, P. ve Zitnick, CL Microsoft coco: ´ Bağlamda ortak nesneler . Avrupa bilgisayarlı görme konferansında, s. 740–755. Springer, 2014.


Liu, L., Wu, Y., Wei, W., Cao, W., Şahin, S. ve Zhang, Q. Derin öğrenme çerçevelerinin karşılaştırılması: Tasarımla ilgili hususlar, ölçümler ve ötesi. 2018'de IEEE 38. Uluslararası Dağıtılmış Bilgi İşlem Sistemleri Konferansı (ICDCS), s. 1258–1269. IEEE, 2018.


Mattson, P., Cheng, C., Diamos, G., Coleman, C., Micikevicius, P., Patterson, D., Tang, H., Wei, G.-Y., Bailis, P., Bittorf, V. ve ark. Mlperf eğitim kriteri. Makine Öğrenimi ve Sistemleri Bildirileri, 2:336–349, 2020.


Mohan, J., Phanishayee, A., Raniwala, A. ve Chidambaram, V. Dnn eğitiminde veri duraklamalarının analiz edilmesi ve azaltılması, 2020. URL https://arxiv.org/abs/ 2007.06775.


Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., Killeen, T., Lin, Z., Gimelshein, N., Antiga, L., ve ark. Pytorch: Zorlayıcı tarzda, yüksek performanslı bir derin öğrenme kütüphanesi. Nöral bilgi işleme sistemlerindeki gelişmeler, 32, 2019.


PyTorch Çekirdek Ekibi. PyTorch: PyTorch Belgeleri. PyTorch.


Shi, S., Wang, Q., Xu, P. ve Chu, X. Son teknoloji ürünü derin öğrenme yazılım araçlarının karşılaştırılması. 2016'da 7. Uluslararası Bulut Bilişim ve Büyük Veri Konferansı (CCBD), s. 99–104. IEEE, 2016.


Tao, J.-H., Du, Z.-D., Guo, Q., Lan, H.-Y., Zhang, L., Zhou, S.-Y., Xu, L.-J., Liu, C., Liu, H.-F., Tang, S., ve diğerleri. Benchip: İstihbarat işlemcilerinin karşılaştırılması. Bilgisayar Bilimi ve Teknolojisi Dergisi, 33(1):1–23, 2018.


Ekip, AD Hub: Yapay zeka için bir veri kümesi formatı. Her boyuttaki AI veri kümelerini oluşturmak, depolamak, bunlar üzerinde işbirliği yapmak ve bunları uygun ölçekte ml çerçevelerine aktarmak için basit bir API. GitHub. Not: https://github.com/activeloopai/Hub, 2022a.


Team, SD Squirrel: Makine öğrenimi ekiplerinin verileri işbirliğine dayalı, esnek ve verimli bir şekilde paylaşmasına, yüklemesine ve dönüştürmesine olanak tanıyan bir python kitaplığı. GitHub. Not: https://github.com/merantix-momentum/squirrelcore, 2022b. doi: 10.5281/zenodo.6418280.


TorchData. Torchdata: Esnek ve performanslı veri hatlarını kolayca oluşturmak için ortak modüler veri yükleme temellerinden oluşan bir prototip kitaplığı. https: //github.com/pytorch/data, 2021.


Wang, Y., Wei, G.-Y. ve Brooks, D. Derin öğrenme donanım ve yazılım platformlarının analizi için sistematik bir metodoloji. Makine Öğrenimi ve Sistemleri Bildirileri, 2:30–43, 2020.


Web veri kümesi. Web veri kümesi biçimi. https://github. com/webdataset/webdataset, 2013.


Wu, Y., Cao, W., Şahin, S. ve Liu, L. Derin öğrenme çerçevelerinin deneysel karakterizasyonları ve analizi. 2018'de IEEE Uluslararası Büyük Veri Konferansı (Büyük Veri), s. 372–377. IEEE, 2018.


Wu, Y., Liu, L., Pu, C., Cao, W., Şahin, S., Wei, W. ve Zhang, Q. Bir hizmet çerçevesi olarak derin öğrenmenin karşılaştırmalı ölçüm çalışması. Hizmet Bilişiminde IEEE İşlemleri, 2019.


Zhang, W., Wei, W., Xu, L., Jin, L. ve Li, C. Ai matrisi: Alibaba veri merkezleri için derin öğrenme karşılaştırması. arXiv ön baskısı arXiv:1909.10562, 2019.


Zhu, H., Akrout, M., Zheng, B., Pelegris, A., Phanishayee, A., Schroeder, B. ve Pekhimenko, G. Tbd: Derin sinir ağı eğitimini kıyaslama ve analiz etme. arXiv ön baskısı arXiv:1803.06905, 2018.