Yapay Zeka Altyapınız için Modern Bir Datalake Oluştururken Akılda Tutulması Gereken İlkeler

MinIO5m2024/02/06

Yapay zeka oyunu geniş ölçekte performansla ilgilidir ve bu da doğru temeli gerektirir. Modern bir datalake oluştururken ve doğru temeli yerine koyarken nasıl akıllı davranılacağını burada bulabilirsiniz.

People Mentioned

featured image - Yapay Zeka Altyapınız için Modern Bir Datalake Oluştururken Akılda Tutulması Gereken İlkeler

Yapay zekayı benimseme tutkusunun ortasında, kritik ve sıklıkla gözden kaçırılan bir gerçek var; herhangi bir yapay zeka girişiminin başarısı, özü itibarıyla, temeldeki veri altyapısının kalitesine, güvenilirliğine ve performansına bağlıdır. Eğer uygun temele sahip değilseniz, inşa edebilecekleriniz ve dolayısıyla başarabilecekleriniz sınırlıdır.

Veri altyapınız, tüm yapay zeka altyapınızın üzerine inşa edildiği temeldir. Verilerin toplandığı, depolandığı, işlendiği ve dönüştürüldüğü yerdir. Denetimli, denetimsiz ve takviyeli öğrenmeyi kullanan eğitim modelleri, Veri Ambarı gibi yapılandırılmış verileri işleyebilen depolama çözümleri gerektirir. Öte yandan, Büyük Dil Modelleri (LLM) eğitimi alıyorsanız, yapılandırılmamış verileri - belgeleri ham ve işlenmiş haliyle yönetmelisiniz.

Modern Datalake veya Lakehouse, yapay zekanın bu iki farklı çeşidinin temelini oluşturuyor. Modern Datalake, yarı Veri Ambarı ve yarı Veri Gölü'nden oluşur ve her şey için nesne depolamayı kullanır. Son zamanlarda açık tablo formatlarının yükselişini gördük. Apache Iceberg, Apache Hudi ve Delta Lake gibi Açık Tablo Formatları (OTF'ler), nesne depolamanın bir veri ambarında kullanılmasını kusursuz hale getirir.

Bu makalenin geri kalanında Modern Datalake'i tescilli Veri Ambarları ve cihazları gibi geleneksel çözümlerden ayıran özelliklerinden nasıl yararlanılacağı incelenecektir. Yapay zeka altyapısına yönelik bir temel oluşturmak için aşağıdakilere ihtiyacınız vardır:

Bilgi İşlem ve Depolamanın Ayrıştırılması
Ölçeklendirme (Arttırma Değil)
Yazılım Tanımlı
Bulut Yerel
Emtia Donanımı

Yukarıdakiler üzerinde hemfikir olursak, iki performans alanına odaklanan bir dizi en iyi uygulama ortaya çıkar. Eğer dahil edilirse modern Datalake hem hızlı hem de ölçeklenebilir olacaktır. Bu en iyi uygulamalar şunları içerir:

Disk Fiyatını ve Performansını Optimize Etme
Yüksek Hızlı Bir Ağ Oluşturun

Bilgi İşlem ve Depolamanın Ayrıştırılması

Veri altyapınızda bilgi işlem ve depolamanın ayrıştırılması, bilgi işlem ve depolama için ayrı kaynakların kullanılması anlamına gelir. Bu, her şeyin tek bir sunucuda veya daha da kötüsü bir cihazda paketlendiği geleneksel depolama çözümleriyle tezat oluşturuyor. Ancak Modern Datalakes ayrıştırmayı başka bir düzeye taşıyor. Veri Gölü ve Veri Ambarı'nın tamamen farklı depolama gereksinimleri olsaydı, aşağıda gösterildiği gibi bir nesne deposunun iki ayrı örneğini kullanabilirdik.

Ayrıca Veri Ambarının çakışan yapılandırmalar gerektiren iş yüklerini desteklemesi gerekiyorsa birden fazla işleme motoru kullanabilirsiniz. Bu aşağıda gösterilmiştir.

Şekillendirilebilir bir altyapı, bilgi işlem ve depolama kaynaklarınızı bağımsız olarak ölçeklendirmenize olanak tanır. Bu, hem bilgi işlem hem de depolamayı birlikte yükseltmek yerine altyapınızın en çok ihtiyaç duyan kısmına daha fazla kaynak ayırabileceğiniz anlamına gelir. Yalnızca gerekli kaynaklara yatırım yaptığınız için uygun maliyetli ölçeklendirmeyle sonuçlanır.

Ölçeklendirme Yukarı Değil

Yapay zeka iş yükleri veri yoğundur, genellikle birden fazla CPU veya GPU'ya dağıtılır, eğitim için yoğun bilgi işlem gücü kullanır ve gerçek zamanlı çıkarım gerektirir. Ölçeği büyütmek yerine genişletme, performansı optimize etmeye ve yüksek hızlı ağlara uyum sağlamaya yardımcı olur.

Ölçeği genişletmek ve büyütmek, veri altyapınızın kapasitesini ve performansını artırmaya yönelik iki farklı yaklaşımdır. Ancak Kubernetes gibi kümeleme platformlarında ilerlemeler kaydedildikçe ve giderek daha fazla çözüm bulut yerel olmaya çabaladıkça ölçeği genişletmenin daha geçerli bir yaklaşım olduğu ortaya çıkıyor. Ayrıştırılmış bir altyapıda ölçeğin genişletilmesi şunları sağlar:

Yüksek Kullanılabilirlik ve Hata Toleransı - Bir düğüm meşgulse, başka bir düğüm yeni bir isteği üstlenebilir, bekleme sürelerini kısaltabilir ve verimi artırabilir. Bir düğümün arızalanması durumunda iş yükü diğer düğümlere kaydırılarak kesinti süresi azaltılabilir ve süreklilik sağlanabilir.

Performans ve Esneklik - Ölçek genişletme, daha büyük hacimli verileri ve daha eşzamanlı istekleri işlemek için iş yüklerini birden fazla düğüme veya sunucuya dağıtarak daha iyi performans sağlayabilir. Ölçeklendirme aynı zamanda daha esnektir çünkü düğümleri gerektiği gibi ekleyip kaldırabilirsiniz; bu da dalgalanan iş yüklerine uyum sağlamayı veya mevsimsel değişikliklere uyum sağlamayı kolaylaştırır.

Operasyonel ve Kaynak Açısından Verimli - Ölçeği genişlettiğinizde bakım ve yükseltmeler basitleştirilir. Yükseltmeler için kritik bir sistemi çevrimdışına almak yerine, tüm altyapıyı bozmadan bireysel depolama veya bilgi işlem düğümlerinde bakım gerçekleştirebilirsiniz.

Bulutta Yerel + Yazılım Tanımlı

Yapay zeka için güçlü bir temel oluşturmak amacıyla Modern Datalake'ten yararlanmanın son bileşeni, bulutta yerel, yazılım tanımlı bir yaklaşım benimsemektir.

Docker gibi kapsayıcılar ve Kubernetes gibi kapsayıcı düzenleme araçları, bulutta yerel mimarileri mümkün kılar. Modern Datalake'in tüm bileşenleri Kubernetes'te çalışan konteynerlerde çalışır. Bu nedenle Modern Datalake bulutta yereldir.

"Yazılım tanımlı", genellikle bilgisayar sistemleri ve ağ bağlamında yazılımın donanım bileşenlerinin yapılandırmasını, işlevselliğini ve davranışını kontrol ettiği ve yönettiği bir yaklaşımı ifade eder. Bu, akıllı yazılım ve aptal hızlı donanıma vurgu yapılan kod hareketi olarak altyapının yapı taşıdır. Yazılım tanımlı depolama, depolama kaynaklarını yazılım yoluyla özetler ve yönetir; böylece farklı cihazlar ve depolama ortamları arasında depolama kapasitesinin tahsis edilmesini ve yönetilmesini kolaylaştırır.

Hız için Tasarlandı: NVMe ve 100GbE

Ticari donanımınızın ve yazılım tanımlı mimarinizin avantajlarından tam anlamıyla yararlanmak için iki önemli parçaya daha ihtiyacınız var. Bunlardan ilki NVMe sürücüleridir. Modern, performans odaklı iş yükleri, okuma/yazmanın rastgele doğası, küçük nesnelerin yükselişi ve düşen SSD fiyatlarının tümü, NVMe merkezli mimari . Bu matematiği yapın, ön ödeme daha yüksek olabilir, TCO daha düşük olacaktır.

İkinci bileşen 100GbE ağıdır. Yazılım tanımlı bir dünyada ağ, 100GbE'de bile birçok kurulumda darboğaz haline geliyor. İşte o senaryolardan bazıları:

Yoğun Veri - Yapay zeka iş yükleri genellikle görüntüler, videolar, doğal dildeki metinler ve sensör verileri gibi büyük veri kümelerini işler. Yüksek hızlı ağlar, bu büyük veri kümelerini depolama ve işleme birimleri arasında hızla aktararak veri aktarımındaki darboğazları azaltabilir.

Dağıtılmış Bilgi İşlem - Birçok AI görevi, birden fazla CPU veya GPU arasında dağıtılmış bilgi işlem içerir. Yüksek hızlı ağlar, bu cihazlar arasında verimli iletişim ve veri alışverişine olanak tanıyarak bilgi işlem kümelerinin paralel ve etkili bir şekilde çalışmasını sağlar.

Model Eğitimi - Derin öğrenme modellerinin, özellikle de transformatörler veya evrişimli sinir ağları gibi LLM'lerin eğitimi, çok fazla veri ve hesaplama gücü gerektirir. Yüksek hızlı bir ağ, dağıtılmış GPU'lar arasında daha hızlı veri yükleme ve senkronizasyona olanak tanır ve bu da eğitim sürelerini önemli ölçüde hızlandırabilir.

Gerçek Zamanlı Çıkarım - Düşük gecikme süreli ve yüksek verimli ağlar, yapay zeka içeren hızlı yanıt veren uygulamalar için gereklidir. Yüksek hızlı bir ağ, kullanıcı isteği ile modelden gelen yanıt arasındaki gecikmenin minimum düzeyde olmasını sağlar.

Temel Kavramlar

Şu ilkelere bağlı kalarak: bilgi işlem ve depolamanın ayrıştırılması, ölçeğin büyütülmesi değil, basit, hızlı donanım ve akıllı bulut yerel yazılımının ayrıştırılması, kuruluş, bu gereksinimleri karşılamak ve yapay zeka girişimlerinizi ilerletmek için doğru temele sahip bir Modern Datalake oluşturabilir. ileri.

Kötü bir temel üzerine bina inşa edemezsiniz, sadece eski Mısırlılara sorun. Yapay zeka oyunu geniş ölçekte performansla ilgilidir ve bu da doğru temeli gerektirir. Temelden tasarruf etmek, birkaç dakika sonra Jenga kulenizi devirecek teknik borç biriktirmek anlamına gelir. Akıllıca inşa edin, temeli yerine koyun.

L O A D I N G
. . . comments & more!

About Author

MinIO@minio

MinIO is a high-performance, cloud-native object store that runs anywhere (public cloud, private cloud, colo, onprem).

Read my stories