paint-brush
MinIO DataPod: Exascale Hesaplama için Bir Referans Mimarisiile@minio
Yeni tarih

MinIO DataPod: Exascale Hesaplama için Bir Referans Mimarisi

ile MinIO7m2024/08/20
Read on Terminal Reader

Çok uzun; Okumak

MinIO, exascale AI ve diğer büyük ölçekli veri gölü iş yüklerini desteklemek için veri altyapısı için kapsamlı bir plan oluşturdu. MinIO DataPod, altyapı yöneticilerinin çeşitli AI ve ML iş yükleri için maliyet açısından verimli çözümler dağıtmasına olanak tanıyan uçtan uca bir mimari sunar.
featured image - MinIO DataPod: Exascale Hesaplama için Bir Referans Mimarisi
MinIO HackerNoon profile picture


Modern işletme kendini verileriyle tanımlar. Bu, AI/ML için bir veri altyapısının yanı sıra iş zekasını, veri analitiğini ve veri bilimini destekleyebilen Modern Datalake için temel olan bir veri altyapısı gerektirir. Bu, geride kalmışlarsa, yeni başlıyorlarsa veya gelişmiş içgörüler için AI kullanıyorlarsa geçerlidir. Öngörülebilir gelecekte, işletmelerin algılanma şekli bu olacaktır. AI'nın işletmede pazara nasıl girdiğine dair daha büyük sorunun birden fazla boyutu veya aşaması vardır. Bunlara veri toplama, dönüştürme, eğitim, çıkarım, üretim ve arşivleme dahildir ve veriler her aşamada paylaşılır. Bu iş yükleri ölçeklendikçe, temeldeki AI veri altyapısının karmaşıklığı artar. Bu, toplam sahip olma maliyetini (TCO) en aza indirirken yüksek performanslı altyapıya ihtiyaç yaratır.


MinIO, exascale AI ve diğer büyük ölçekli veri gölü iş yüklerini desteklemek için kapsamlı bir veri altyapısı planı oluşturdu. Adı MinIO DataPod. Kullandığı ölçüm birimi 100 PiB'dir. Neden? Çünkü gerçek şu ki bu, günümüzde işletmelerde yaygındır. İşte birkaç hızlı örnek:


  • Yaklaşık bir eksabaytlık araba videosuna sahip bir Kuzey Amerika otomobil üreticisi

  • 50 PB'den fazla araç telemetrisine sahip bir Alman otomobil üreticisi

  • 50 PB'den fazla biyolojik, kimyasal ve hasta merkezli veriye sahip bir biyoteknoloji firması

  • 500 PB'den fazla günlük dosyasına sahip bir siber güvenlik şirketi

  • 200 PB'den fazla videoya sahip bir medya akış şirketi

  • Uçaklardan 80 PB'den fazla coğrafi, günlük ve telemetri verisine sahip bir savunma yüklenicisi


Bugün 100 PB'de olmasalar bile, birkaç çeyrek içinde olacaklar. Ortalama bir firma yılda %42 oranında büyüyor, veri merkezli firmalar ise bunun iki katı, hatta daha fazla oranda büyüyor.


MinIO Datapod referans mimarisi, hemen hemen her ölçeğe ulaşmak için farklı şekillerde istiflenebilir - aslında bu taslağı temel alarak inşa eden müşterilerimiz var - bir eksabaytın ötesine kadar ve birden fazla donanım satıcısıyla. MinIO DataPod, altyapı yöneticilerinin çeşitli AI ve ML iş yükleri için maliyet açısından verimli çözümler dağıtmasına olanak tanıyan uçtan uca bir mimari sunar. İşte mimarimizin gerekçesi.

Yapay Zeka, Dağıtılmış Depolama ve Hesaplama Gerektirir

AI iş yükleri, özellikle de üretken AI, hesaplama için doğası gereği GPU'lar gerektirir. Bunlar inanılmaz verim, bellek bant genişliği ve paralel işleme yeteneklerine sahip muhteşem cihazlardır. Gittikçe daha hızlı hale gelen GPU'larla başa çıkmak için yüksek hızlı depolama gerekir. Bu, özellikle eğitim verileri belleğe sığamadığında ve eğitim döngülerinin depolamaya daha fazla çağrı yapması gerektiğinde geçerlidir. Dahası, işletmeler performanstan daha fazlasına ihtiyaç duyar, ayrıca güvenliğe, çoğaltmaya ve dayanıklılığa da ihtiyaç duyarlar.


Kurumsal depolama gereksinimi, mimarinin depolamayı hesaplamadan tamamen ayırmasını gerektirir. Bu, depolamanın hesaplamadan bağımsız olarak ölçeklenmesini sağlar ve depolama büyümesinin genellikle hesaplama büyümesinden bir veya daha fazla büyüklük sırası daha fazla olduğu göz önüne alındığında, bu yaklaşım üstün kapasite kullanımıyla en iyi ekonomiyi sağlar.

Yapay Zeka İş Yükleri Farklı Bir Ağ Sınıfı Gerektiriyor

Ağ altyapısı, AI iş yükü dağıtımları için saniyede 100 Gigabit (Gbps) bant genişliği bağlantıları üzerinde standartlaştırılmıştır. Günümüz NVMe sürücüleri ortalama 7 GBps verim sağlar ve depolama sunucuları ile GPU hesaplama sunucuları arasındaki ağ bant genişliğini AI boru hattı yürütme performansı için darboğaz haline getirir.


Bu sorunu Infiniband (IB) gibi karmaşık ağ çözümleriyle çözmenin gerçek sınırlamaları vardır. İşletmelerin, GPU'lar için yüksek verimde veri sağlamak üzere kutudan çıktığı gibi çalışan mevcut, endüstri standardı Ethernet tabanlı çözümleri (örneğin, TCP üzerinden HTTP) kullanmasını öneriyoruz. Bunun nedenleri şunlardır:


  • Çok daha büyük ve açık ekosistem
  • Azaltılmış ağ altyapısı maliyeti
  • Ethernet üzerinden RDMA desteğiyle (yani: RoCEv2) yüksek ara bağlantı hızları (800 GbE ve üzeri)
  • Ethernet'i dağıtma, yönetme ve gözlemlemede mevcut uzmanlığı ve araçları yeniden kullanın
  • GPU'lar ile depolama sunucusu iletişimi etrafında yapılan yenilikler ethernet tabanlı çözümlerde gerçekleşiyor

Yapay Zeka Gereksinimleri Nesne Depolamayı Gerektirir

Genel bulutlardaki AI veri altyapısının tamamının nesne depoları üzerine inşa edilmesi bir tesadüf değildir. Her büyük temel modelin bir nesne deposunda eğitilmesi de bir tesadüf değildir. Bu, POSIX'in AI tarafından gerekli görülen veri ölçeğinde çalışmak için fazla geveze olmasının bir işlevidir - eski dosyalayıcıların korosunun iddia ettiği şeyin aksine.


Genel bulutta AI sunan aynı mimari, özel buluta ve tabii ki hibrit buluta uygulanmalıdır. Nesne depoları, çeşitli veri biçimlerini ve büyük hacimli yapılandırılmamış verileri işlemede mükemmeldir ve performanstan ödün vermeden büyüyen verileri barındırmak için zahmetsizce ölçeklenebilir. Düz ad alanı ve meta veri yetenekleri, büyük veri kümelerine hızlı erişim gerektiren AI görevleri için kritik önem taşıyan verimli veri yönetimi ve işlemeyi mümkün kılar.


Yüksek hızlı GPU'lar geliştikçe ve ağ bant genişliği 200/400/800 Gbps ve üzeri olarak standartlaştıkça, modern nesne depoları, performans SLA'larını ve yapay zeka iş yüklerinin ölçeğini karşılayan tek çözüm olacak.


Yazılım Tanımlı Her Şey

GPU'ların gösterinin yıldızı olduğunu ve donanım olduklarını biliyoruz. Ancak Nvidia bile size gizli sosun CUDA olduğunu söyleyecektir. Ancak çipin dışına çıkın ve altyapı dünyası giderek daha fazla yazılım tanımlı hale geliyor. Bu, depolama alanından daha doğru bir yer olamaz. Yazılım tanımlı depolama çözümleri, ölçeklenebilirlik, esneklik ve bulut entegrasyonu için olmazsa olmazdır ve aşağıdaki nedenlerden dolayı geleneksel cihaz tabanlı modelleri geride bırakmaktadır:


  • Bulut Uyumluluğu : Yazılım tanımlı depolama, birden fazla bulutta çalışamayan cihazların aksine, bulut operasyonlarıyla uyumludur.


  • Konteynerleştirme : Cihazlar konteynerleştirilemez, bu da bulut tabanlı avantajların kaybedilmesine ve Kubernetes düzenlemesinin engellenmesine neden olur.


  • Donanım Esnekliği : Yazılım tanımlı depolama, uçtan çekirdeğe kadar çok çeşitli donanımları destekleyerek çeşitli BT ortamlarına uyum sağlar.


  • Uyarlanabilir Performans : Yazılım tanımlı depolama, farklı yonga setlerindeki farklı kapasiteleri ve performans ihtiyaçlarını verimli bir şekilde yöneterek eşsiz bir esneklik sunar.


Exabyte ölçeğinde, basitlik ve bulut tabanlı bir işletim modeli hayati önem taşır. Yazılım tanımlı bir çözüm olarak nesne depolama, ister çıplak metal, ister sanal makineler veya konteynerler olsun, piyasadaki hazır (COTS) donanımlarda ve herhangi bir bilgi işlem platformunda sorunsuz bir şekilde çalışmalıdır.


Nesne depolama için özel olarak üretilen donanım aygıtları, kötü tasarlanmış yazılımları genellikle pahalı donanımlar ve karmaşık çözümlerle telafi eder ve bu da yüksek bir toplam sahip olma maliyetine (TCO) yol açar.

Yapay Zeka için MinIO DataPOD Donanım Spesifikasyonu:

AI girişimleri için MinIO kullanan kurumsal müşteriler, 100PiB'lik tekrarlanabilir birimler olarak eksabayt ölçeğinde veri altyapısı oluşturur. Bu, altyapı yöneticilerinin AI verileri belirli bir süre boyunca katlanarak büyüdükçe dağıtım, bakım ve ölçekleme sürecini kolaylaştırmasına yardımcı olur. Aşağıda 100PiB ölçekli bir veri altyapısı oluşturmak için malzeme listesi (BOM) bulunmaktadır.


Küme Belirtimi


Bileşen

Miktar

Toplam Raf Sayısı

30

Depolama Sunucularının Toplam Sayısı

330

Raf başına toplam depolama sunucusu sayısı

11

Toplam TOR anahtar sayısı

60

Omurga anahtarlarının toplam sayısı

10

Silme Kodu Çizgi Boyutu

10

Silme Kodu Paritesi

4


Tek Raf Spesifikasyonu


Bileşen

Tanım

Miktar

Raf Muhafazası

42U/45U yuvalı Raf

1

Depolama Sunucusu

2U form faktörü

11

Raf Üstü Anahtarlar

Katman 2 anahtarı

2

Yönetim Anahtarı

Birleştirilmiş Katman 2 ve Katman 3

1

Ağ Kabloları

AOC kabloları

30-40

Güç

RPDU ile çift güç kaynağı

17kW - 20kW


Depolama Sunucusu Spesifikasyonu

Bileşen

Şartname

Sunucu

2U, tek soket

İşlemci

64 çekirdek, 128 * PCIe 4.0 şerit

Hafıza

256 GB

Çift port, 200gbe NIC

Sürücü bölmeleri

24 sıcak değiştirilebilir 2,5" U.2 NVMe

Sürücüler

30TB * 24 NVMe

Güç

1600W Yedek Güç Kaynakları

Toplam Ham Kapasite

720TB


Depolama Sunucusu Referansı


Dell : PowerEdge R7615 Raf Sunucusu


HPE : HPE ProLiant DL345 Gen11


Supermicro : A+ Sunucu 2114S-WN24RT


Ağ Anahtarı Spesifikasyonu

Bileşen

Şartname


Raf Üstü (TOR) Anahtarı

32 * 100GbE QSFP 28 Bağlantı Noktası


Omurga Anahtarı

64 * 100GbE QSFP 28 Bağlantı Noktası


Kablo

100G QSFP 28 AOC


Güç

Anahtar başına 500 Watt



Fiyat

MinIO bu mimariyi birden fazla müşteriyle doğruladı ve diğerlerinin terabayt başına ayda aşağıdaki ortalama fiyatı görmesini bekler. Bu ortalama bir sokak fiyatıdır ve gerçek fiyat yapılandırmaya ve donanım satıcısı ilişkisine bağlı olarak değişebilir.


Ölçek

Depolama Donanımı fiyatı **(TB/ay başına)**

MinIO Yazılım Fiyatı **(TB/ay başına)**

100 PiB

1,50 dolar

$3.54


Yapay zeka için tedarikçiye özel anahtar teslim donanım aygıtları yüksek TCO'ya neden olacak ve eksabayt ölçeğinde büyük verili yapay zeka girişimleri için birim ekonomisi açısından ölçeklenebilir değildir.

Çözüm

Tüm AI/ML iş yükleri için TCO hedeflerini karşılayarak exabyte ölçeğinde Veri Altyapısı kurulumu karmaşık ve doğru bir şekilde yapılması zor olabilir. MinIO'nun DataPOD altyapı planı, Altyapı yöneticilerinin son derece ölçeklenebilir, performanslı ve uygun maliyetli S3 uyumlu MinIO kurumsal nesne deposuyla gerekli hazır donanımı kurmasını basit ve anlaşılır hale getirir ve bu da kurumsal manzaradaki kuruluşlar genelinde AI girişimlerinden genel pazara sunma süresinin iyileştirilmesi ve değer elde etme süresinin hızlandırılmasıyla sonuçlanır.