paint-brush
Deep Lake, Derin Öğrenme için Bir Göl Evi: Güncel Zorluklarile@dataology

Deep Lake, Derin Öğrenme için Bir Göl Evi: Güncel Zorluklar

Çok uzun; Okumak

Araştırmacılar, derin öğrenme çerçeveleri için karmaşık veri depolamayı ve akışı optimize eden, derin öğrenme için açık kaynaklı bir göl evi olan Deep Lake'i tanıtıyor.
featured image - Deep Lake, Derin Öğrenme için Bir Göl Evi: Güncel Zorluklar
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

Yazarlar:

(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, ABD;

(2) Abhinav Tuli, Activeloop, Mountain View, CA, ABD;

(3) Levon Ghukasyan, Activeloop, Mountain View, CA, ABD;

(4) Fariz Rahman, Activeloop, Mountain View, CA, ABD;.

(5) Hrant Topchyan, Activeloop, Mountain View, CA, ABD;

(6) David Isayan, Activeloop, Mountain View, CA, ABD;

(7) Mark McQuade, Activeloop, Mountain View, CA, ABD;

(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, ABD;

(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, ABD;

(10) Ivo Stranic, Activeloop, Mountain View, CA, ABD;

(11) Davit Buniatyan, Activeloop, Mountain View, CA, ABD.

Bağlantı Tablosu

2. GÜNCEL ZORLUKLAR

Bu bölümde yapılandırılmamış veya karmaşık veri yönetiminin mevcut ve tarihsel zorluklarını tartışıyoruz.

2.1 Veritabanlarındaki Karmaşık Veri Türleri

Görüntüler gibi ikili verilerin doğrudan bir veritabanında saklanması genellikle önerilmez. Bunun nedeni, veritabanlarının büyük dosyaları depolamak ve sunmak için optimize edilmemiş olması ve performans sorunlarına neden olabilmesidir. Ayrıca ikili veriler, veritabanının yapılandırılmış formatına tam olarak uymadığından sorgulamayı ve işlemeyi zorlaştırır. Bu, kullanıcılar için yükleme sürelerinin yavaşlamasına neden olabilir. Veritabanlarının çalıştırılması ve bakımı genellikle dosya sistemleri veya bulut depolama hizmetleri gibi diğer depolama türlerine göre daha pahalıdır. Bu nedenle büyük miktarlarda ikili verinin bir veritabanında saklanması diğer depolama çözümlerine göre daha maliyetli olabilir.

2.2 Tablo Formatlarıyla Birlikte Karmaşık Veriler

Büyük ölçekli analitik ve BI iş yüklerindeki artışlar, Parquet, ORC, Avro gibi sıkıştırılmış yapılandırılmış formatların veya Arrow gibi geçici bellek içi formatların geliştirilmesini teşvik etti [79, 6, 20, 13]. Tablo formatları benimsenmeye başladıkça, derin öğrenme için Petastorm [18] veya Feather [7] gibi bu formatları genişletme girişimleri ortaya çıktı. Bildiğimiz kadarıyla bu formatlar henüz geniş çapta benimsenmemiştir. Bu yaklaşım öncelikle Modern Veri Yığını (MDS) ile yerel entegrasyonlardan yararlanır. Ancak daha önce tartışıldığı gibi, yukarı akış araçlarının derin öğrenme uygulamalarına uyum sağlaması için temel değişiklikler yapılması gerekir.

2.3 Derin Öğrenme için Nesne Depolama

Büyük yapılandırılmamış veri kümelerini depolamak için mevcut bulut yerel seçeneği, AWS S3 [1], Google Cloud Storage (GCS) [3] veya MinIO [17] gibi nesne depolamadır. Nesne depolama, dağıtılmış ağ dosya sistemlerine göre üç ana avantaj sunar. Bunlar (a) uygun maliyetlidir, (b) ölçeklenebilirdir ve (c) formattan bağımsız bir depo görevi görür. Ancak bulut depolamaların dezavantajları da yok değil. İlk olarak, özellikle metin veya JSON gibi birçok küçük dosya üzerinde yineleme yapılırken önemli miktarda gecikme yükü getirirler. Daha sonra, meta veri kontrolü olmadan yapılandırılmamış veri alımı "veri bataklıkları" üretebilir. Ayrıca nesne depolamanın yerleşik sürüm kontrolü vardır; veri bilimi iş akışlarında nadiren kullanılır. Son olarak, nesne depolamadaki veriler eğitimden önce sanal bir makineye kopyalanır, bu da depolama yüküne ve ek maliyetlere neden olur.

2.4 İkinci Nesil Veri Gölleri

Delta, Iceberg, Hudi [27, 15, 10] liderliğindeki ikinci nesil veri gölleri, aşağıdaki birincil özelliklere sahip tablo biçimindeki dosyaları yöneterek nesne depolamayı genişletir.


(1) Güncelleme işlemleri: tablo biçimindeki bir dosyanın üstüne bir satır eklemek veya silmek.


(2) Akış : ACID özellikleriyle aşağı yönde veri alımı ve SQL arayüzünü açığa çıkaran sorgu motoruyla yukarı yönde entegrasyon.


(3) Şema gelişimi: geriye dönük uyumluluğu korurken sütunlu yapıyı geliştirme.


(4) Zaman yolculuğu ve denetim günlüğü takibi: sorguların tekrarlanabileceği geri alma özelliğiyle geçmiş durumu korumak. Ayrıca veri kökeni üzerinde satır düzeyinde kontrol desteği.


(5) Düzen optimizasyonu: Özel sıralama desteğiyle dosya boyutlarını ve veri sıkıştırmayı optimize etmek için yerleşik özellik. Sorgulamayı önemli ölçüde hızlandırır.


Ancak ikinci nesil veri gölleri, daha önce bölüm 2.2'de tartışıldığı gibi, derin öğrenmede kullanılacak doğal veri formatlarının sınırlamalarına hâlâ bağlıdır. Bu nedenle, bu yazıda, Şekil 2'de gösterildiği gibi makine öğrenimi yaşam döngüsünü tamamlamak için sorgulama, görselleştirme ve derin öğrenme çerçevelerine yerel entegrasyon da dahil olmak üzere formatı ve yukarı akış özelliklerini yeniden düşünerek derin öğrenme kullanım örnekleri için ikinci nesil veri gölü yeteneklerini genişletiyoruz. .