Yazarlar:
(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, ABD;
(2) Abhinav Tuli, Activeloop, Mountain View, CA, ABD;
(3) Levon Ghukasyan, Activeloop, Mountain View, CA, ABD;
(4) Fariz Rahman, Activeloop, Mountain View, CA, ABD;.
(5) Hrant Topchyan, Activeloop, Mountain View, CA, ABD;
(6) David Isayan, Activeloop, Mountain View, CA, ABD;
(7) Mark McQuade, Activeloop, Mountain View, CA, ABD;
(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, ABD;
(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, ABD;
(10) Ivo Stranic, Activeloop, Mountain View, CA, ABD;
(11) Davit Buniatyan, Activeloop, Mountain View, CA, ABD.
Bu bölümde Deep Lake uygulamalarını inceliyoruz.
Derin Öğrenme uygulamasındaki tipik bir senaryo şu şekilde başlar:
(1) Bir nesne depolama paketinde toplanan ham dosya kümesi. JPEG, PNG veya MP4 gibi kendi yerel formatlarındaki resimler, videolar ve diğer multimedya veri türlerini içerebilir.
(2) İlişkisel bir veritabanında saklanan tüm ilgili meta veriler ve etiketler. İsteğe bağlı olarak ham verilerle birlikte CSV, JSON veya Parquet formatı gibi normalleştirilmiş bir tablo biçiminde aynı pakette depolanabilirler.
Şekil 4'te gösterildiği gibi boş bir Deep Lake veri seti oluşturulur. Daha sonra hem ham verileri hem de meta verileri depolamak için boş tensörler tanımlanır. Tensörlerin sayısı isteğe bağlı olabilir. Bir görüntü sınıflandırma görevinin temel bir örneğinde iki tensör bulunur;
• 𝑖𝑚𝑎𝑔𝑒 tipinde görüntü tensörü ve JPEG örnek sıkıştırması
• tensörü 𝑐𝑙𝑎𝑠𝑠_𝑙𝑎𝑏𝑒𝑙 htype ve LZ4'ün parça sıkıştırmasıyla etiketler.
Tensörler bildirildikten sonra veriler veri kümesine eklenebilir. Ham görüntü sıkıştırması tensör örnek sıkıştırmasıyla eşleşiyorsa, ikili kod ek kod çözme işlemine gerek kalmadan doğrudan bir yığına kopyalanır. Etiket verileri bir SQL sorgusundan veya CSV tablosundan kategorik bir tamsayıya çıkarılır ve etiket tensörüne eklenir. etiket tensör parçaları LZ4 sıkıştırması kullanılarak saklanır. Tüm Deep Lake verileri pakette depolanır ve bağımsızdır. Depolamadan sonra verilere bir NumPy arayüzünden veya akışa uygun bir derin öğrenme veri yükleyicisi olarak erişilebilir. Daha sonra, bir hesaplama makinesinde çalışan model, görüntü tensörleri akışı üzerinde yinelenir ve modelin çıktısını, tahminler adı verilen yeni bir tensörde saklar. Ayrıca aşağıda Deep Lake veri kümesinin nasıl eğitilebileceğini, sürüm kontrolünün, sorgulanabileceğini ve kalitesinin nasıl incelenebileceğini tartışıyoruz.
Derin öğrenme modelleri, bir kuruluşta, kişisel bilgisayarlarda gerçekleşen keşif amaçlı eğitimlerden, birçok GPU içeren dağıtılmış makinelerde gerçekleşen büyük ölçekli eğitime kadar çeşitli düzeylerde eğitilir. Verilerin uzun vadeli depolamadan eğitim istemcisine getirilmesi için gereken zaman ve çaba genellikle eğitimin kendisiyle karşılaştırılabilir düzeydedir. Deep Lake, aşağı yönlü eğitim sürecinde darboğaz yaratmadan hızlı veri akışını sağlayarak bu sorunu çözüyor, böylece verileri yerel depolamada çoğaltmak için gereken maliyet ve zamandan kaçınıyor.
Derin öğrenme verileri, yeni veriler eklendikçe ve mevcut veriler kalite kontrolünden geçirildikçe sürekli olarak gelişir. Veriler değişirken analitik ve eğitim iş yükleri paralel olarak ortaya çıkar. Bu nedenle, belirli bir iş yükü tarafından hangi veri sürümünün kullanıldığını bilmek, veriler ile model performansı arasındaki ilişkiyi anlamak açısından kritik öneme sahiptir. Deep Lake, derin öğrenme uygulayıcılarının herhangi bir analitik iş yükünde verilerinin hangi sürümünün kullanıldığını anlamalarına ve bir denetim gerekiyorsa bu sürümler arasında zaman yolculuğu yapmalarına olanak tanır. Tüm veriler değiştirilebilir olduğundan uyumlulukla ilgili gizlilik gereksinimlerini karşılayacak şekilde düzenlenebilir. Kod için Git gibi Deep Lake de veri dalları kavramını tanıtıyor ve meslektaşların çalışmalarını etkilemeden verilerin denenmesine ve düzenlenmesine olanak tanıyor.
Derin öğrenme modellerinin eğitimi, bir kuruluş tarafından belirli bir uygulama için toplanan tüm verilerde nadiren gerçekleşir. Eğitim veri kümeleri genellikle ham verilerin model performansını artıran koşullara göre filtrelenmesiyle oluşturulur; bu genellikle veri dengelemeyi, gereksiz verileri ortadan kaldırmayı veya belirli özellikleri içeren verileri seçmeyi içerir. Deep Lake, derin öğrenme mühendislerinin en yüksek doğrulukta modeller sağlayan veri kümeleri oluşturabilmesi için verileri sorgulamak ve analiz etmek için gerekli araçları sağlar.
Denetimsiz öğrenme gerçek dünyadaki kullanım durumlarında daha uygulanabilir hale gelse de çoğu derin öğrenme uygulaması hâlâ denetimli öğrenmeye dayalıdır. Herhangi bir denetimli öğrenme sistemi yalnızca verilerinin kalitesi kadar iyidir ve bu genellikle verilerin manuel ve kapsamlı bir şekilde incelenmesiyle sağlanır. Bu süreç zaman alıcı olduğundan, döngüdeki insanlara büyük miktarda veriyi çok hızlı bir şekilde inceleyebilecek araçları sağlamak kritik öneme sahiptir. Deep Lake, herhangi bir boyuttaki derin öğrenme veri kümelerinin herhangi bir kurulum süresine veya veri indirmeye gerek kalmadan tarayıcıdan incelenmesine olanak tanır. Ayrıca araçlar, model sonuçlarının temel gerçeklerle karşılaştırılması için genişletilebilir. Sorgulama ve sürüm kontrolüyle birleştirildiğinde bu, mümkün olan en iyi modeli elde etmek için verilerin yinelemeli olarak iyileştirilmesine uygulanabilir.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .