7,524 okumalar

MinIO DataPod: Exascale Hesaplama için Bir Referans Mimarisi

ile MinIO7m2024/08/20

Çok uzun; Okumak

MinIO, exascale AI ve diğer büyük ölçekli veri gölü iş yüklerini desteklemek için veri altyapısı için kapsamlı bir plan oluşturdu. MinIO DataPod, altyapı yöneticilerinin çeşitli AI ve ML iş yükleri için maliyet açısından verimli çözümler dağıtmasına olanak tanıyan uçtan uca bir mimari sunar.

featured image - MinIO DataPod: Exascale Hesaplama için Bir Referans Mimarisi

Modern işletme kendini verileriyle tanımlar. Bu, AI/ML için bir veri altyapısının yanı sıra iş zekasını, veri analitiğini ve veri bilimini destekleyebilen Modern Datalake için temel olan bir veri altyapısı gerektirir. Bu, geride kalmışlarsa, yeni başlıyorlarsa veya gelişmiş içgörüler için AI kullanıyorlarsa geçerlidir. Öngörülebilir gelecekte, işletmelerin algılanma şekli bu olacaktır. AI'nın işletmede pazara nasıl girdiğine dair daha büyük sorunun birden fazla boyutu veya aşaması vardır. Bunlara veri toplama, dönüştürme, eğitim, çıkarım, üretim ve arşivleme dahildir ve veriler her aşamada paylaşılır. Bu iş yükleri ölçeklendikçe, temeldeki AI veri altyapısının karmaşıklığı artar. Bu, toplam sahip olma maliyetini (TCO) en aza indirirken yüksek performanslı altyapıya ihtiyaç yaratır.

MinIO, exascale AI ve diğer büyük ölçekli veri gölü iş yüklerini desteklemek için kapsamlı bir veri altyapısı planı oluşturdu. Adı MinIO DataPod. Kullandığı ölçüm birimi 100 PiB'dir. Neden? Çünkü gerçek şu ki bu, günümüzde işletmelerde yaygındır. İşte birkaç hızlı örnek:

Yaklaşık bir eksabaytlık araba videosuna sahip bir Kuzey Amerika otomobil üreticisi
50 PB'den fazla araç telemetrisine sahip bir Alman otomobil üreticisi
50 PB'den fazla biyolojik, kimyasal ve hasta merkezli veriye sahip bir biyoteknoloji firması
500 PB'den fazla günlük dosyasına sahip bir siber güvenlik şirketi
200 PB'den fazla videoya sahip bir medya akış şirketi
Uçaklardan 80 PB'den fazla coğrafi, günlük ve telemetri verisine sahip bir savunma yüklenicisi

Bugün 100 PB'de olmasalar bile, birkaç çeyrek içinde olacaklar. Ortalama bir firma yılda %42 oranında büyüyor, veri merkezli firmalar ise bunun iki katı, hatta daha fazla oranda büyüyor.

MinIO Datapod referans mimarisi, hemen hemen her ölçeğe ulaşmak için farklı şekillerde istiflenebilir - aslında bu taslağı temel alarak inşa eden müşterilerimiz var - bir eksabaytın ötesine kadar ve birden fazla donanım satıcısıyla. MinIO DataPod, altyapı yöneticilerinin çeşitli AI ve ML iş yükleri için maliyet açısından verimli çözümler dağıtmasına olanak tanıyan uçtan uca bir mimari sunar. İşte mimarimizin gerekçesi.

Yapay Zeka, Dağıtılmış Depolama ve Hesaplama Gerektirir

AI iş yükleri, özellikle de üretken AI, hesaplama için doğası gereği GPU'lar gerektirir. Bunlar inanılmaz verim, bellek bant genişliği ve paralel işleme yeteneklerine sahip muhteşem cihazlardır. Gittikçe daha hızlı hale gelen GPU'larla başa çıkmak için yüksek hızlı depolama gerekir. Bu, özellikle eğitim verileri belleğe sığamadığında ve eğitim döngülerinin depolamaya daha fazla çağrı yapması gerektiğinde geçerlidir. Dahası, işletmeler performanstan daha fazlasına ihtiyaç duyar, ayrıca güvenliğe, çoğaltmaya ve dayanıklılığa da ihtiyaç duyarlar.

Kurumsal depolama gereksinimi, mimarinin depolamayı hesaplamadan tamamen ayırmasını gerektirir. Bu, depolamanın hesaplamadan bağımsız olarak ölçeklenmesini sağlar ve depolama büyümesinin genellikle hesaplama büyümesinden bir veya daha fazla büyüklük sırası daha fazla olduğu göz önüne alındığında, bu yaklaşım üstün kapasite kullanımıyla en iyi ekonomiyi sağlar.

Yapay Zeka İş Yükleri Farklı Bir Ağ Sınıfı Gerektiriyor

Ağ altyapısı, AI iş yükü dağıtımları için saniyede 100 Gigabit (Gbps) bant genişliği bağlantıları üzerinde standartlaştırılmıştır. Günümüz NVMe sürücüleri ortalama 7 GBps verim sağlar ve depolama sunucuları ile GPU hesaplama sunucuları arasındaki ağ bant genişliğini AI boru hattı yürütme performansı için darboğaz haline getirir.

Bu sorunu Infiniband (IB) gibi karmaşık ağ çözümleriyle çözmenin gerçek sınırlamaları vardır. İşletmelerin, GPU'lar için yüksek verimde veri sağlamak üzere kutudan çıktığı gibi çalışan mevcut, endüstri standardı Ethernet tabanlı çözümleri (örneğin, TCP üzerinden HTTP) kullanmasını öneriyoruz. Bunun nedenleri şunlardır:

Çok daha büyük ve açık ekosistem
Azaltılmış ağ altyapısı maliyeti
Ethernet üzerinden RDMA desteğiyle (yani: RoCEv2) yüksek ara bağlantı hızları (800 GbE ve üzeri)
Ethernet'i dağıtma, yönetme ve gözlemlemede mevcut uzmanlığı ve araçları yeniden kullanın
GPU'lar ile depolama sunucusu iletişimi etrafında yapılan yenilikler ethernet tabanlı çözümlerde gerçekleşiyor

Yapay Zeka Gereksinimleri Nesne Depolamayı Gerektirir

Genel bulutlardaki AI veri altyapısının tamamının nesne depoları üzerine inşa edilmesi bir tesadüf değildir. Her büyük temel modelin bir nesne deposunda eğitilmesi de bir tesadüf değildir. Bu, POSIX'in AI tarafından gerekli görülen veri ölçeğinde çalışmak için fazla geveze olmasının bir işlevidir - eski dosyalayıcıların korosunun iddia ettiği şeyin aksine.

Genel bulutta AI sunan aynı mimari, özel buluta ve tabii ki hibrit buluta uygulanmalıdır. Nesne depoları, çeşitli veri biçimlerini ve büyük hacimli yapılandırılmamış verileri işlemede mükemmeldir ve performanstan ödün vermeden büyüyen verileri barındırmak için zahmetsizce ölçeklenebilir. Düz ad alanı ve meta veri yetenekleri, büyük veri kümelerine hızlı erişim gerektiren AI görevleri için kritik önem taşıyan verimli veri yönetimi ve işlemeyi mümkün kılar.

Yüksek hızlı GPU'lar geliştikçe ve ağ bant genişliği 200/400/800 Gbps ve üzeri olarak standartlaştıkça, modern nesne depoları, performans SLA'larını ve yapay zeka iş yüklerinin ölçeğini karşılayan tek çözüm olacak.

Yazılım Tanımlı Her Şey

GPU'ların gösterinin yıldızı olduğunu ve donanım olduklarını biliyoruz. Ancak Nvidia bile size gizli sosun CUDA olduğunu söyleyecektir. Ancak çipin dışına çıkın ve altyapı dünyası giderek daha fazla yazılım tanımlı hale geliyor. Bu, depolama alanından daha doğru bir yer olamaz. Yazılım tanımlı depolama çözümleri, ölçeklenebilirlik, esneklik ve bulut entegrasyonu için olmazsa olmazdır ve aşağıdaki nedenlerden dolayı geleneksel cihaz tabanlı modelleri geride bırakmaktadır:

Bulut Uyumluluğu : Yazılım tanımlı depolama, birden fazla bulutta çalışamayan cihazların aksine, bulut operasyonlarıyla uyumludur.
Konteynerleştirme : Cihazlar konteynerleştirilemez, bu da bulut tabanlı avantajların kaybedilmesine ve Kubernetes düzenlemesinin engellenmesine neden olur.
Donanım Esnekliği : Yazılım tanımlı depolama, uçtan çekirdeğe kadar çok çeşitli donanımları destekleyerek çeşitli BT ortamlarına uyum sağlar.
Uyarlanabilir Performans : Yazılım tanımlı depolama, farklı yonga setlerindeki farklı kapasiteleri ve performans ihtiyaçlarını verimli bir şekilde yöneterek eşsiz bir esneklik sunar.

Exabyte ölçeğinde, basitlik ve bulut tabanlı bir işletim modeli hayati önem taşır. Yazılım tanımlı bir çözüm olarak nesne depolama, ister çıplak metal, ister sanal makineler veya konteynerler olsun, piyasadaki hazır (COTS) donanımlarda ve herhangi bir bilgi işlem platformunda sorunsuz bir şekilde çalışmalıdır.

Nesne depolama için özel olarak üretilen donanım aygıtları, kötü tasarlanmış yazılımları genellikle pahalı donanımlar ve karmaşık çözümlerle telafi eder ve bu da yüksek bir toplam sahip olma maliyetine (TCO) yol açar.

Yapay Zeka için MinIO DataPOD Donanım Spesifikasyonu:

AI girişimleri için MinIO kullanan kurumsal müşteriler, 100PiB'lik tekrarlanabilir birimler olarak eksabayt ölçeğinde veri altyapısı oluşturur. Bu, altyapı yöneticilerinin AI verileri belirli bir süre boyunca katlanarak büyüdükçe dağıtım, bakım ve ölçekleme sürecini kolaylaştırmasına yardımcı olur. Aşağıda 100PiB ölçekli bir veri altyapısı oluşturmak için malzeme listesi (BOM) bulunmaktadır.

Küme Belirtimi

Bileşen	Miktar
Toplam Raf Sayısı	30
Depolama Sunucularının Toplam Sayısı	330
Raf başına toplam depolama sunucusu sayısı	11
Toplam TOR anahtar sayısı	60
Omurga anahtarlarının toplam sayısı	10
Silme Kodu Çizgi Boyutu	10
Silme Kodu Paritesi	4

Tek Raf Spesifikasyonu

Bileşen	Tanım	Miktar
Raf Muhafazası	42U/45U yuvalı Raf	1
Depolama Sunucusu	2U form faktörü	11
Raf Üstü Anahtarlar	Katman 2 anahtarı	2
Yönetim Anahtarı	Birleştirilmiş Katman 2 ve Katman 3	1
Ağ Kabloları	AOC kabloları	30-40
Güç	RPDU ile çift güç kaynağı	17kW - 20kW

Depolama Sunucusu Spesifikasyonu

Bileşen	Şartname
Sunucu	2U, tek soket
İşlemci	64 çekirdek, 128 * PCIe 4.0 şerit
Hafıza	256 GB
Ağ	Çift port, 200gbe NIC
Sürücü bölmeleri	24 sıcak değiştirilebilir 2,5" U.2 NVMe
Sürücüler	30TB * 24 NVMe
Güç	1600W Yedek Güç Kaynakları
Toplam Ham Kapasite	720TB

Depolama Sunucusu Referansı

Dell : PowerEdge R7615 Raf Sunucusu

HPE : HPE ProLiant DL345 Gen11

Supermicro : A+ Sunucu 2114S-WN24RT

Ağ Anahtarı Spesifikasyonu

Bileşen	Şartname
Raf Üstü (TOR) Anahtarı	32 * 100GbE QSFP 28 Bağlantı Noktası
Omurga Anahtarı	64 * 100GbE QSFP 28 Bağlantı Noktası
Kablo	100G QSFP 28 AOC
Güç	Anahtar başına 500 Watt

Fiyat

MinIO bu mimariyi birden fazla müşteriyle doğruladı ve diğerlerinin terabayt başına ayda aşağıdaki ortalama fiyatı görmesini bekler. Bu ortalama bir sokak fiyatıdır ve gerçek fiyat yapılandırmaya ve donanım satıcısı ilişkisine bağlı olarak değişebilir.

Ölçek	Depolama Donanımı fiyatı (TB/ay başına)	MinIO Yazılım Fiyatı (TB/ay başına)
100 PiB	1,50 dolar	$3.54

Yapay zeka için tedarikçiye özel anahtar teslim donanım aygıtları yüksek TCO'ya neden olacak ve eksabayt ölçeğinde büyük verili yapay zeka girişimleri için birim ekonomisi açısından ölçeklenebilir değildir.

Çözüm

Tüm AI/ML iş yükleri için TCO hedeflerini karşılayarak exabyte ölçeğinde Veri Altyapısı kurulumu karmaşık ve doğru bir şekilde yapılması zor olabilir. MinIO'nun DataPOD altyapı planı, Altyapı yöneticilerinin son derece ölçeklenebilir, performanslı ve uygun maliyetli S3 uyumlu MinIO kurumsal nesne deposuyla gerekli hazır donanımı kurmasını basit ve anlaşılır hale getirir ve bu da kurumsal manzaradaki kuruluşlar genelinde AI girişimlerinden genel pazara sunma süresinin iyileştirilmesi ve değer elde etme süresinin hızlandırılmasıyla sonuçlanır.