paint-brush
MinIO DataPod: 엑사스케일 컴퓨팅을 위한 참조 아키텍처~에 의해@minio
7,524 판독값
7,524 판독값

MinIO DataPod: 엑사스케일 컴퓨팅을 위한 참조 아키텍처

~에 의해 MinIO7m2024/08/20
Read on Terminal Reader

너무 오래; 읽다

MinIO는 엑사스케일 AI 및 기타 대규모 데이터 레이크 워크로드를 지원하기 위한 데이터 인프라에 대한 포괄적인 청사진을 만들었습니다. MinIO DataPod는 인프라 관리자가 다양한 AI 및 ML 워크로드에 대한 비용 효율적인 솔루션을 배포할 수 있도록 하는 엔드투엔드 아키텍처를 제공합니다.
featured image - MinIO DataPod: 엑사스케일 컴퓨팅을 위한 참조 아키텍처
MinIO HackerNoon profile picture


현대 기업은 데이터로 자신을 정의합니다. 여기에는 AI/ML을 위한 데이터 인프라와 비즈니스 인텔리전스, 데이터 분석 및 데이터 과학을 지원할 수 있는 Modern Datalake의 기반이 되는 데이터 인프라가 필요합니다. 이는 기업이 뒤처지거나, 시작하거나, 고급 통찰력을 위해 AI를 사용하는 경우에 해당합니다. 가까운 미래에는 이것이 기업이 인식되는 방식이 될 것입니다. 기업에서 AI가 시장에 출시되는 방법에 대한 더 큰 문제에는 여러 차원 또는 단계가 있습니다. 여기에는 데이터 수집, 변환, 교육, 추론, 생산 및 보관이 포함되며 각 단계에서 데이터가 공유됩니다. 이러한 워크로드가 확장됨에 따라 기본 AI 데이터 인프라의 복잡성이 증가합니다. 이로 인해 총 소유 비용(TCO)을 최소화하는 동시에 고성능 인프라가 필요합니다.


MinIO는 엑사스케일 AI 및 기타 대규모 데이터 레이크 워크로드를 지원하기 위한 데이터 인프라에 대한 포괄적인 청사진을 만들었습니다. 이를 MinIO DataPod라고 합니다. 사용하는 측정 단위는 100PiB입니다. 이유는 무엇일까요? 현실적으로 오늘날 기업에서 이것이 일반적이기 때문입니다. 몇 가지 간단한 예를 들어보겠습니다.


  • 거의 1엑사바이트 규모의 자동차 비디오를 보유한 북미 자동차 제조업체

  • 50PB 이상의 자동차 원격 측정 데이터를 보유한 독일 자동차 제조업체

  • 50PB 이상의 생물학, 화학 및 환자 중심 데이터를 보유한 바이오 기술 기업

  • 500PB 이상의 로그 파일을 보유한 사이버 보안 회사

  • 200PB 이상의 비디오를 보유한 미디어 스트리밍 회사

  • 항공기로부터 80PB 이상의 공간, 로그 및 원격 측정 데이터를 보유한 방위 계약자


오늘날 100 PB에 이르지 못하더라도 몇 분기 안에 도달할 것입니다. 평균적인 회사는 연간 42%의 속도로 성장하고 있으며, 데이터 중심 회사는 그보다 두 배 이상 빠른 속도로 성장하고 있습니다.


MinIO Datapod 참조 아키텍처는 거의 모든 규모를 달성하기 위해 다양한 방식으로 스택할 수 있습니다. 실제로 이 청사진을 기반으로 구축한 고객이 있습니다. 엑사바이트를 넘어서 여러 하드웨어 공급업체와 함께. MinIO DataPod는 인프라 관리자가 다양한 AI 및 ML 워크로드에 대해 비용 효율적인 솔루션을 배포할 수 있도록 하는 엔드투엔드 아키텍처를 제공합니다. 아키텍처의 근거는 다음과 같습니다.

AI에는 분산된 스토리지와 컴퓨팅이 필요합니다.

AI 워크로드, 특히 생성 AI는 본질적으로 컴퓨팅을 위해 GPU가 필요합니다. 놀라운 처리량, 메모리 대역폭 및 병렬 처리 기능을 갖춘 훌륭한 장치입니다. 점점 더 빨라지는 GPU를 따라잡으려면 고속 스토리지가 필요합니다. 이는 특히 학습 데이터가 메모리에 맞지 않고 학습 루프가 스토리지에 더 많은 호출을 해야 하는 경우에 해당합니다. 게다가 기업에는 성능 이상이 필요합니다. 보안, 복제 및 복원력도 필요합니다.


엔터프라이즈 스토리지 요구 사항은 아키텍처가 스토리지를 컴퓨팅에서 완전히 분리해야 한다는 것을 요구합니다. 이를 통해 스토리지는 컴퓨팅과 독립적으로 확장할 수 있으며 스토리지 증가는 일반적으로 컴퓨팅 증가보다 10배 이상 크기 때문에 이 접근 방식은 뛰어난 용량 활용을 통해 최상의 경제성을 보장합니다.

AI 워크로드는 다른 종류의 네트워킹을 요구합니다.

네트워킹 인프라는 AI 워크로드 배포를 위해 초당 100기가비트(Gbps) 대역폭 링크로 표준화되었습니다. 최신 NVMe 드라이브는 평균 7GBps 처리량을 제공하여 스토리지 서버와 GPU 컴퓨팅 서버 간의 네트워크 대역폭이 AI 파이프라인 실행 성능의 병목 현상이 됩니다.


Infiniband(IB)와 같은 복잡한 네트워킹 솔루션으로 이 문제를 해결하는 데는 실제적인 한계가 있습니다. 다음과 같은 이유로 기업은 GPU에 대한 높은 처리량으로 데이터를 전달하기 위해 기본적으로 작동하는 기존의 산업 표준 이더넷 기반 솔루션(예: TCP를 통한 HTTP)을 활용하는 것이 좋습니다.


  • 훨씬 더 크고 개방적인 생태계
  • 네트워크 인프라 비용 절감
  • RDMA over Ethernet 지원(예: RoCEv2)을 통한 높은 상호 연결 속도(800GbE 이상)
  • 이더넷 배포, 관리 및 관찰에 기존 전문 지식과 도구 재사용
  • GPU와 스토리지 서버 통신을 중심으로 한 혁신이 이더넷 기반 솔루션에서 일어나고 있습니다.

AI 요구 사항은 객체 스토리지를 요구합니다.

퍼블릭 클라우드의 AI 데이터 인프라가 모두 객체 저장소 위에 구축된 것은 우연이 아닙니다. 모든 주요 기반 모델이 객체 저장소에서 학습된 것도 우연이 아닙니다. 이는 POSIX가 레거시 파일러의 합창단이 주장하는 것과는 달리 AI에 필요한 데이터 규모에서 작동하기에는 너무 수다스럽다는 사실의 함수입니다.


퍼블릭 클라우드에서 AI를 제공하는 동일한 아키텍처가 프라이빗 클라우드와 하이브리드 클라우드에도 적용되어야 합니다. 객체 저장소는 다양한 데이터 형식과 방대한 양의 비정형 데이터를 처리하는 데 뛰어나며 성능을 저하시키지 않고 증가하는 데이터를 수용하도록 손쉽게 확장할 수 있습니다. 플랫 네임스페이스와 메타데이터 기능을 통해 대용량 데이터 세트에 대한 빠른 액세스가 필요한 AI 작업에 필수적인 효율적인 데이터 관리 및 처리가 가능합니다.


고속 GPU가 발전하고 네트워크 대역폭이 200/400/800Gbps 이상으로 표준화됨에 따라 최신 개체 저장소는 AI 워크로드의 성능 SLA와 규모를 충족하는 유일한 솔루션이 될 것입니다.


소프트웨어가 모든 것을 정의하다

우리는 GPU가 쇼의 스타이며 하드웨어라는 것을 알고 있습니다. 하지만 엔비디아조차도 비결은 CUDA라고 말할 것입니다. 그러나 칩 밖으로 이동하면 인프라 세계는 점점 더 소프트웨어 정의됩니다. 이것이 스토리지보다 더 사실인 곳은 없습니다. 소프트웨어 정의 스토리지 솔루션은 확장성, 유연성 및 클라우드 통합에 필수적이며 다음과 같은 이유로 기존 기기 기반 모델을 능가합니다.


  • 클라우드 호환성 : 소프트웨어 정의 스토리지는 여러 클라우드에서 실행할 수 없는 어플라이언스와 달리 클라우드 운영에 맞춰 조정됩니다.


  • 컨테이너화 : 어플라이언스를 컨테이너화할 수 없으므로 클라우드 기반의 이점을 잃게 되고 Kubernetes 오케스트레이션이 불가능합니다.


  • 하드웨어 유연성 : 소프트웨어 정의 스토리지는 엣지부터 코어까지 광범위한 하드웨어를 지원하여 다양한 IT 환경을 수용합니다.


  • 적응형 성능 : 소프트웨어 정의 스토리지는 탁월한 유연성을 제공하여 다양한 칩셋에서 다양한 용량과 성능 요구 사항을 효율적으로 관리합니다.


엑사바이트 규모에서는 단순성과 클라우드 기반 운영 모델이 중요합니다. 소프트웨어 정의 솔루션인 객체 스토리지는 상용 기성품(COTS) 하드웨어와 베어 메탈, 가상 머신 또는 컨테이너 등 모든 컴퓨팅 플랫폼에서 원활하게 작동해야 합니다.


개체 스토리지를 위한 맞춤형 하드웨어 어플라이언스는 종종 설계가 부족한 소프트웨어 대신 값비싼 하드웨어와 복잡한 솔루션을 사용하여 총 소유 비용(TCO)을 높이는 경우가 많습니다.

AI를 위한 MinIO DataPOD 하드웨어 사양:

AI 이니셔티브를 위해 MinIO를 사용하는 기업 고객은 100PiB의 반복 가능한 단위로 엑사바이트 규모의 데이터 인프라를 구축합니다. 이를 통해 인프라 관리자는 AI 데이터가 일정 기간 동안 기하급수적으로 증가함에 따라 배포, 유지 관리 및 확장 프로세스를 간소화할 수 있습니다. 아래는 100PiB 규모의 데이터 인프라를 구축하기 위한 BOM(자재 목록)입니다.


클러스터 사양


요소

수량

총 랙 수

30

총 저장 서버 수

330

랙당 총 스토리지 서버 수

11

TOR 스위치의 총 수

60

스파인 스위치 총 개수

10

지우기 코드 스트라이프 크기

10

지우기 코드 패리티

4


싱글 랙 사양


요소

설명

수량

랙 인클로저

42U/45U 슬롯 랙

1

저장 서버

2U 폼 팩터

11

랙 상단 스위치

2계층 스위치

2

관리 스위치

2층과 3층의 결합

1

네트워크 케이블

AOC 케이블

30~40

RPDU를 사용한 이중 전원 공급 장치

17kW - 20kW


스토리지 서버 사양

요소

사양

섬기는 사람

2U, 싱글 소켓

CPU

64코어, 128* PCIe 4.0 레인

메모리

256GB (기가바이트)

회로망

듀얼 포트, 200gbe NIC

드라이브 베이

24개의 핫스왑 2.5" U.2 NVMe

드라이브

30TB * 24개의 NVMe

1600W 중복 전원 공급 장치

총 원료 용량

720테라바이트


스토리지 서버 참조


Dell : PowerEdge R7615 랙 서버


HPE : HPE 프로라이언트 DL345 Gen11


슈퍼마이크로 : A+ 서버 2114S-WN24RT


네트워크 스위치 사양

요소

사양


랙 상단(TOR) 스위치

32 * 100GbE QSFP 28 포트


스파인 스위치

64 * 100GbE QSFP 28 포트


케이블

100G QSFP 28 AOC


스위치당 500와트



가격

MinIO는 이 아키텍처를 여러 고객과 검증했으며 다른 고객도 월 테라바이트당 다음과 같은 평균 가격을 볼 것으로 예상합니다. 이는 평균 거리 가격이며 실제 가격은 구성 및 하드웨어 공급업체 관계에 따라 달라질 수 있습니다.


규모

스토리지 하드웨어 가격 **(TB당/월)**

MinIO 소프트웨어 가격 **(TB당/월)**

100파이비

1.50달러

3.54달러


AI를 위한 공급업체별 턴키 하드웨어 어플라이언스는 높은 TCO를 초래하며 엑사바이트 규모의 대규모 데이터 AI 이니셔티브에 대한 단위 경제 관점에서 확장이 불가능합니다.

결론

모든 AI/ML 워크로드에 대한 TCO 목표를 충족하면서 엑사바이트 규모의 데이터 인프라를 설정하는 것은 복잡하고 제대로 하기 어려울 수 있습니다. MinIO의 DataPOD 인프라 청사진을 사용하면 인프라 관리자가 확장성이 뛰어나고 성능이 뛰어나며 비용 효율적인 S3 호환 MinIO 엔터프라이즈 객체 저장소로 필요한 상용 기성품 하드웨어를 간단하고 직관적으로 설정할 수 있어 엔터프라이즈 환경 내 조직 전반의 AI 이니셔티브에서 전반적인 출시 시간이 개선되고 가치 창출 시간이 단축됩니다.