Yazarlar:
(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, ABD;
(2) Abhinav Tuli, Activeloop, Mountain View, CA, ABD;
(3) Levon Ghukasyan, Activeloop, Mountain View, CA, ABD;
(4) Fariz Rahman, Activeloop, Mountain View, CA, ABD;.
(5) Hrant Topchyan, Activeloop, Mountain View, CA, ABD;
(6) David Isayan, Activeloop, Mountain View, CA, ABD;
(7) Mark McQuade, Activeloop, Mountain View, CA, ABD;
(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, ABD;
(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, ABD;
(10) Ivo Stranic, Activeloop, Mountain View, CA, ABD;
(11) Davit Buniatyan, Activeloop, Mountain View, CA, ABD.
Bu bölümde yapılandırılmamış veya karmaşık veri yönetiminin mevcut ve tarihsel zorluklarını tartışıyoruz.
Görüntüler gibi ikili verilerin doğrudan bir veritabanında saklanması genellikle önerilmez. Bunun nedeni, veritabanlarının büyük dosyaları depolamak ve sunmak için optimize edilmemiş olması ve performans sorunlarına neden olabilmesidir. Ayrıca ikili veriler, veritabanının yapılandırılmış formatına tam olarak uymadığından sorgulamayı ve işlemeyi zorlaştırır. Bu, kullanıcılar için yükleme sürelerinin yavaşlamasına neden olabilir. Veritabanlarının çalıştırılması ve bakımı genellikle dosya sistemleri veya bulut depolama hizmetleri gibi diğer depolama türlerine göre daha pahalıdır. Bu nedenle büyük miktarlarda ikili verinin bir veritabanında saklanması diğer depolama çözümlerine göre daha maliyetli olabilir.
Büyük ölçekli analitik ve BI iş yüklerindeki artışlar, Parquet, ORC, Avro gibi sıkıştırılmış yapılandırılmış formatların veya Arrow gibi geçici bellek içi formatların geliştirilmesini teşvik etti [79, 6, 20, 13]. Tablo formatları benimsenmeye başladıkça, derin öğrenme için Petastorm [18] veya Feather [7] gibi bu formatları genişletme girişimleri ortaya çıktı. Bildiğimiz kadarıyla bu formatlar henüz geniş çapta benimsenmemiştir. Bu yaklaşım öncelikle Modern Veri Yığını (MDS) ile yerel entegrasyonlardan yararlanır. Ancak daha önce tartışıldığı gibi, yukarı akış araçlarının derin öğrenme uygulamalarına uyum sağlaması için temel değişiklikler yapılması gerekir.
Büyük yapılandırılmamış veri kümelerini depolamak için mevcut bulut yerel seçeneği, AWS S3 [1], Google Cloud Storage (GCS) [3] veya MinIO [17] gibi nesne depolamadır. Nesne depolama, dağıtılmış ağ dosya sistemlerine göre üç ana avantaj sunar. Bunlar (a) uygun maliyetlidir, (b) ölçeklenebilirdir ve (c) formattan bağımsız bir depo görevi görür. Ancak bulut depolamaların dezavantajları da yok değil. İlk olarak, özellikle metin veya JSON gibi birçok küçük dosya üzerinde yineleme yapılırken önemli miktarda gecikme yükü getirirler. Daha sonra, meta veri kontrolü olmadan yapılandırılmamış veri alımı "veri bataklıkları" üretebilir. Ayrıca nesne depolamanın yerleşik sürüm kontrolü vardır; veri bilimi iş akışlarında nadiren kullanılır. Son olarak, nesne depolamadaki veriler eğitimden önce sanal bir makineye kopyalanır, bu da depolama yüküne ve ek maliyetlere neden olur.
Delta, Iceberg, Hudi [27, 15, 10] liderliğindeki ikinci nesil veri gölleri, aşağıdaki birincil özelliklere sahip tablo biçimindeki dosyaları yöneterek nesne depolamayı genişletir.
(1) Güncelleme işlemleri: tablo biçimindeki bir dosyanın üstüne bir satır eklemek veya silmek.
(2) Akış : ACID özellikleriyle aşağı yönde veri alımı ve SQL arayüzünü açığa çıkaran sorgu motoruyla yukarı yönde entegrasyon.
(3) Şema gelişimi: geriye dönük uyumluluğu korurken sütunlu yapıyı geliştirme.
(4) Zaman yolculuğu ve denetim günlüğü takibi: sorguların tekrarlanabileceği geri alma özelliğiyle geçmiş durumu korumak. Ayrıca veri kökeni üzerinde satır düzeyinde kontrol desteği.
(5) Düzen optimizasyonu: Özel sıralama desteğiyle dosya boyutlarını ve veri sıkıştırmayı optimize etmek için yerleşik özellik. Sorgulamayı önemli ölçüde hızlandırır.
Ancak ikinci nesil veri gölleri, daha önce bölüm 2.2'de tartışıldığı gibi, derin öğrenmede kullanılacak doğal veri formatlarının sınırlamalarına hâlâ bağlıdır. Bu nedenle, bu yazıda, Şekil 2'de gösterildiği gibi makine öğrenimi yaşam döngüsünü tamamlamak için sorgulama, görselleştirme ve derin öğrenme çerçevelerine yerel entegrasyon da dahil olmak üzere formatı ve yukarı akış özelliklerini yeniden düşünerek derin öğrenme kullanım örnekleri için ikinci nesil veri gölü yeteneklerini genişletiyoruz. .
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .