paint-brush
Deep Lake, Derin Öğrenme için Bir Göl Evi: Makine Öğrenimi Kullanım Örnekleri ile@dataology
209 okumalar

Deep Lake, Derin Öğrenme için Bir Göl Evi: Makine Öğrenimi Kullanım Örnekleri

ile Dataology: Study of Data in Computer Science
Dataology: Study of Data in Computer Science HackerNoon profile picture

Dataology: Study of Data in Computer Science

@dataology

Dataology is the study of data. We publish the highest...

4 dk. read2024/06/05
Read on Terminal Reader
Read this story in a terminal
Print this story

Çok uzun; Okumak

Araştırmacılar, derin öğrenme çerçeveleri için karmaşık veri depolamayı ve akışı optimize eden, derin öğrenme için açık kaynaklı bir göl evi olan Deep Lake'i tanıtıyor.
featured image - Deep Lake, Derin Öğrenme için Bir Göl Evi: Makine Öğrenimi Kullanım Örnekleri
Dataology: Study of Data in Computer Science HackerNoon profile picture
Dataology: Study of Data in Computer Science

Dataology: Study of Data in Computer Science

@dataology

Dataology is the study of data. We publish the highest quality university papers & blog posts about the essence of data.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Yazarlar:

(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, ABD;

(2) Abhinav Tuli, Activeloop, Mountain View, CA, ABD;

(3) Levon Ghukasyan, Activeloop, Mountain View, CA, ABD;

(4) Fariz Rahman, Activeloop, Mountain View, CA, ABD;.

(5) Hrant Topchyan, Activeloop, Mountain View, CA, ABD;

(6) David Isayan, Activeloop, Mountain View, CA, ABD;

(7) Mark McQuade, Activeloop, Mountain View, CA, ABD;

(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, ABD;

(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, ABD;

(10) Ivo Stranic, Activeloop, Mountain View, CA, ABD;

(11) Davit Buniatyan, Activeloop, Mountain View, CA, ABD.

Bağlantı Tablosu

5. MAKİNE Öğrenimi KULLANIM ÖRNEKLERİ

Bu bölümde Deep Lake uygulamalarını inceliyoruz.


Derin Öğrenme uygulamasındaki tipik bir senaryo şu şekilde başlar:


(1) Bir nesne depolama paketinde toplanan ham dosya kümesi. JPEG, PNG veya MP4 gibi kendi yerel formatlarındaki resimler, videolar ve diğer multimedya veri türlerini içerebilir.


(2) İlişkisel bir veritabanında saklanan tüm ilgili meta veriler ve etiketler. İsteğe bağlı olarak ham verilerle birlikte CSV, JSON veya Parquet formatı gibi normalleştirilmiş bir tablo biçiminde aynı pakette depolanabilirler.


Şekil 4'te gösterildiği gibi boş bir Deep Lake veri seti oluşturulur. Daha sonra hem ham verileri hem de meta verileri depolamak için boş tensörler tanımlanır. Tensörlerin sayısı isteğe bağlı olabilir. Bir görüntü sınıflandırma görevinin temel bir örneğinde iki tensör bulunur;


• 𝑖𝑚𝑎𝑔𝑒 tipinde görüntü tensörü ve JPEG örnek sıkıştırması


• tensörü 𝑐𝑙𝑎𝑠𝑠_𝑙𝑎𝑏𝑒𝑙 htype ve LZ4'ün parça sıkıştırmasıyla etiketler.


Tensörler bildirildikten sonra veriler veri kümesine eklenebilir. Ham görüntü sıkıştırması tensör örnek sıkıştırmasıyla eşleşiyorsa, ikili kod ek kod çözme işlemine gerek kalmadan doğrudan bir yığına kopyalanır. Etiket verileri bir SQL sorgusundan veya CSV tablosundan kategorik bir tamsayıya çıkarılır ve etiket tensörüne eklenir. etiket tensör parçaları LZ4 sıkıştırması kullanılarak saklanır. Tüm Deep Lake verileri pakette depolanır ve bağımsızdır. Depolamadan sonra verilere bir NumPy arayüzünden veya akışa uygun bir derin öğrenme veri yükleyicisi olarak erişilebilir. Daha sonra, bir hesaplama makinesinde çalışan model, görüntü tensörleri akışı üzerinde yinelenir ve modelin çıktısını, tahminler adı verilen yeni bir tensörde saklar. Ayrıca aşağıda Deep Lake veri kümesinin nasıl eğitilebileceğini, sürüm kontrolünün, sorgulanabileceğini ve kalitesinin nasıl incelenebileceğini tartışıyoruz.

5.1 Derin Öğrenme Modeli Eğitimi

Derin öğrenme modelleri, bir kuruluşta, kişisel bilgisayarlarda gerçekleşen keşif amaçlı eğitimlerden, birçok GPU içeren dağıtılmış makinelerde gerçekleşen büyük ölçekli eğitime kadar çeşitli düzeylerde eğitilir. Verilerin uzun vadeli depolamadan eğitim istemcisine getirilmesi için gereken zaman ve çaba genellikle eğitimin kendisiyle karşılaştırılabilir düzeydedir. Deep Lake, aşağı yönlü eğitim sürecinde darboğaz yaratmadan hızlı veri akışını sağlayarak bu sorunu çözüyor, böylece verileri yerel depolamada çoğaltmak için gereken maliyet ve zamandan kaçınıyor.

5.2 Veri Kökeni ve Sürüm Kontrolü

Derin öğrenme verileri, yeni veriler eklendikçe ve mevcut veriler kalite kontrolünden geçirildikçe sürekli olarak gelişir. Veriler değişirken analitik ve eğitim iş yükleri paralel olarak ortaya çıkar. Bu nedenle, belirli bir iş yükü tarafından hangi veri sürümünün kullanıldığını bilmek, veriler ile model performansı arasındaki ilişkiyi anlamak açısından kritik öneme sahiptir. Deep Lake, derin öğrenme uygulayıcılarının herhangi bir analitik iş yükünde verilerinin hangi sürümünün kullanıldığını anlamalarına ve bir denetim gerekiyorsa bu sürümler arasında zaman yolculuğu yapmalarına olanak tanır. Tüm veriler değiştirilebilir olduğundan uyumlulukla ilgili gizlilik gereksinimlerini karşılayacak şekilde düzenlenebilir. Kod için Git gibi Deep Lake de veri dalları kavramını tanıtıyor ve meslektaşların çalışmalarını etkilemeden verilerin denenmesine ve düzenlenmesine olanak tanıyor.

5.3 Veri Sorgulama ve Analitik

Derin öğrenme modellerinin eğitimi, bir kuruluş tarafından belirli bir uygulama için toplanan tüm verilerde nadiren gerçekleşir. Eğitim veri kümeleri genellikle ham verilerin model performansını artıran koşullara göre filtrelenmesiyle oluşturulur; bu genellikle veri dengelemeyi, gereksiz verileri ortadan kaldırmayı veya belirli özellikleri içeren verileri seçmeyi içerir. Deep Lake, derin öğrenme mühendislerinin en yüksek doğrulukta modeller sağlayan veri kümeleri oluşturabilmesi için verileri sorgulamak ve analiz etmek için gerekli araçları sağlar.

5.4 Veri Denetimi ve Kalite Kontrolü

Denetimsiz öğrenme gerçek dünyadaki kullanım durumlarında daha uygulanabilir hale gelse de çoğu derin öğrenme uygulaması hâlâ denetimli öğrenmeye dayalıdır. Herhangi bir denetimli öğrenme sistemi yalnızca verilerinin kalitesi kadar iyidir ve bu genellikle verilerin manuel ve kapsamlı bir şekilde incelenmesiyle sağlanır. Bu süreç zaman alıcı olduğundan, döngüdeki insanlara büyük miktarda veriyi çok hızlı bir şekilde inceleyebilecek araçları sağlamak kritik öneme sahiptir. Deep Lake, herhangi bir boyuttaki derin öğrenme veri kümelerinin herhangi bir kurulum süresine veya veri indirmeye gerek kalmadan tarayıcıdan incelenmesine olanak tanır. Ayrıca araçlar, model sonuçlarının temel gerçeklerle karşılaştırılması için genişletilebilir. Sorgulama ve sürüm kontrolüyle birleştirildiğinde bu, mümkün olan en iyi modeli elde etmek için verilerin yinelemeli olarak iyileştirilmesine uygulanabilir.



L O A D I N G
. . . comments & more!

About Author

Dataology: Study of Data in Computer Science HackerNoon profile picture
Dataology: Study of Data in Computer Science@dataology
Dataology is the study of data. We publish the highest quality university papers & blog posts about the essence of data.

ETİKETLERİ ASIN

BU YAZI...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
X REMOVE AD