paint-brush
AI 인프라를 위한 최신 데이터레이크를 구축할 때 명심해야 할 원칙~에 의해@minio
12,626 판독값
12,626 판독값

AI 인프라를 위한 최신 데이터레이크를 구축할 때 명심해야 할 원칙

~에 의해 MinIO5m2024/02/06
Read on Terminal Reader
Read this story w/o Javascript

너무 오래; 읽다

AI 게임은 대규모 성능에 관한 것이므로 올바른 기반이 필요합니다. 최신 데이터레이크를 구축하고 올바른 기반을 마련할 때 현명하게 대처하는 방법은 다음과 같습니다.

People Mentioned

Mention Thumbnail
featured image - AI 인프라를 위한 최신 데이터레이크를 구축할 때 명심해야 할 원칙
MinIO HackerNoon profile picture
0-item


AI 도입에 대한 열정은 매우 중요하면서도 종종 간과되는 사실입니다. 모든 AI 이니셔티브의 성공은 본질적으로 기본 데이터 인프라의 품질, 안정성 및 성능과 연관되어 있습니다. 적절한 기반이 없으면 구축할 수 있는 것과 달성할 수 있는 것이 제한됩니다.


데이터 인프라는 전체 AI 인프라가 구축되는 기반입니다. 데이터가 수집, 저장, 처리 및 변환되는 곳입니다. 지도 학습, 비지도 학습, 강화 학습을 사용하는 학습 모델에는 데이터 웨어하우스와 같이 구조화된 데이터를 처리할 수 있는 스토리지 솔루션이 필요합니다. 반면, LLM(대형 언어 모델)을 교육하는 경우 구조화되지 않은 데이터(원시 및 처리된 형식의 문서)를 관리해야 합니다.


Modern Datalake 또는 Lakehouse는 이러한 다양한 AI 유형의 기반입니다. Modern Datalake는 절반은 데이터 웨어하우스이고 절반은 데이터 레이크이며 모든 것에 객체 스토리지를 사용합니다. 최근에는 개방형 테이블 형식이 증가하는 것을 목격했습니다. Apache Iceberg, Apache Hudi, Delta Lake와 같은 OTF(Open Table Format)를 사용하면 데이터 웨어하우스 내에서 객체 스토리지를 원활하게 사용할 수 있습니다.


데이터레이크


이 기사의 나머지 부분에서는 독점 데이터 웨어하우스 및 어플라이언스와 같은 기존 솔루션과 차별화되는 최신 Datalake의 특성을 활용하는 방법을 살펴보겠습니다. AI 인프라의 기반을 구축하려면 다음이 필요합니다.


  • 컴퓨팅과 스토리지의 분리
  • 수평 확장(최대 아님)
  • 소프트웨어 정의
  • 클라우드 네이티브
  • 상용 하드웨어


위의 내용에 동의하면 두 가지 성능 영역에 초점을 맞춘 일련의 모범 사례가 나타납니다. 통합되면 최신 Datalake는 빠르고 확장 가능합니다. 이러한 모범 사례에는 다음이 포함됩니다.


  • 드라이브 가격 및 성능 최적화
  • 고속 네트워크 통합

컴퓨팅과 스토리지 분리

데이터 인프라 내에서 컴퓨팅과 스토리지를 분리한다는 것은 컴퓨팅과 스토리지에 별도의 리소스가 사용된다는 의미입니다. 이는 모든 것이 단일 서버 또는 더 나쁜 경우 하나의 어플라이언스에 패키지로 제공되는 기존 스토리지 솔루션과 대조됩니다. 그러나 최신 데이터레이크는 세분화를 다른 수준으로 끌어올립니다. 데이터 레이크와 데이터 웨어하우스의 스토리지 요구 사항이 완전히 다른 경우 아래와 같이 개체 저장소의 두 가지 개별 인스턴스를 사용할 수 있습니다.


미니오 데이터레이크


또한 데이터 웨어하우스가 충돌하는 구성이 필요한 워크로드를 지원해야 하는 경우 둘 이상의 처리 엔진을 사용할 수 있습니다. 이는 아래에 나와 있습니다.


워크로드 지원


컴포저블 인프라를 사용하면 컴퓨팅 및 스토리지 리소스를 독립적으로 확장할 수 있습니다. 즉, 컴퓨팅과 스토리지를 함께 업그레이드하는 대신 가장 필요한 인프라 부분에 더 많은 리소스를 할당할 수 있습니다. 필요한 리소스에만 투자하므로 비용 효율적인 확장이 가능합니다.

확장이 작동하지 않음

AI 워크로드는 데이터 집약적이며, 종종 여러 CPU 또는 GPU에 분산되고, 교육을 위해 막대한 컴퓨팅 성능을 사용하며 실시간 추론이 필요합니다. 확장이 아닌 확장은 성능을 최적화하고 고속 네트워크를 수용하는 데 도움이 됩니다.


수직 확장과 수직 확장은 데이터 인프라의 용량과 성능을 높이는 두 가지 서로 다른 접근 방식입니다. 그러나 Kubernetes와 같은 클러스터링 플랫폼이 발전하고 점점 더 많은 솔루션이 클라우드 기반이 되기 위해 노력함에 따라 확장이 더 실행 가능한 접근 방식임이 입증되었습니다. 분리된 인프라에서 수평 확장하면 다음과 같은 이점이 있습니다.


고가용성 및 내결함성 - 한 노드가 사용 중이면 다른 노드가 새 요청을 처리하여 대기 시간을 줄이고 처리량을 늘릴 수 있습니다. 한 노드에 장애가 발생하면 워크로드를 다른 노드로 이전하여 가동 중지 시간을 줄이고 연속성을 보장할 수 있습니다.


성능 및 유연성 - 확장은 더 많은 양의 데이터와 더 많은 동시 요청을 처리하기 위해 여러 노드 또는 서버에 워크로드를 분산함으로써 더 나은 성능을 제공할 수 있습니다. 또한 수평 확장은 필요에 따라 노드를 추가하거나 제거할 수 있어 더욱 유연하며, 변동하는 워크로드에 더 쉽게 적응하거나 계절적 변화를 수용할 수 있습니다.


운영 및 리소스 효율성 - 확장 시 유지 관리 및 업그레이드가 단순화됩니다. 업그레이드를 위해 중요한 시스템을 오프라인으로 전환하는 대신 전체 인프라를 중단하지 않고 개별 스토리지 또는 컴퓨팅 노드에서 유지 관리를 수행할 수 있습니다.

클라우드 네이티브 + 소프트웨어 정의

Modern Datalake를 활용하여 AI를 위한 강력한 기반을 구축하는 마지막 구성 요소는 클라우드 네이티브 소프트웨어 정의 접근 방식을 취하는 것입니다.


Docker와 같은 컨테이너와 Kubernetes와 같은 컨테이너 오케스트레이션 도구는 클라우드 네이티브 아키텍처를 가능하게 합니다. Modern Datalake의 모든 구성 요소는 Kubernetes에서 실행되는 컨테이너에서 실행됩니다. 따라서 Modern Datalake는 클라우드 기반입니다.


"소프트웨어 정의"는 종종 컴퓨터 시스템 및 네트워킹의 맥락에서 소프트웨어가 하드웨어 구성 요소의 구성, 기능 및 동작을 제어하고 관리하는 접근 방식을 의미합니다. 이는 스마트 소프트웨어와 멍청하고 빠른 하드웨어에 중점을 두는 코드 이동으로서의 인프라의 구성 요소입니다. 소프트웨어 정의 스토리지는 소프트웨어를 통해 스토리지 리소스를 추상화하고 관리하므로 다양한 장치와 스토리지 미디어에 스토리지 용량을 더 쉽게 할당하고 관리할 수 있습니다.

속도를 위해 제작됨: NVMe 및 100GbE

상용 하드웨어와 소프트웨어 정의 아키텍처를 최대한 활용하려면 두 가지 핵심 요소가 더 필요합니다. 첫 번째는 NVMe 드라이브입니다. 최신 성능 지향 워크로드, 읽기/쓰기의 무작위 특성, 작은 개체의 증가 및 SSD 가격 하락은 모두 SSD 가격 하락을 선호합니다. NVMe 중심 아키텍처 . 계산해 보면 초기 비용은 더 높아질 수 있고 TCO는 더 낮아질 것입니다.


두 번째 구성 요소는 100GbE 네트워킹입니다. 소프트웨어 정의 세계에서 네트워크는 100GbE에서도 많은 설정에서 병목 현상이 발생하는 것으로 나타났습니다. 다음은 이러한 시나리오 중 일부입니다.


데이터 집약적 - AI 워크로드는 이미지, 비디오, 자연어 텍스트, 센서 데이터와 같은 대규모 데이터 세트를 처리하는 경우가 많습니다. 고속 네트워크는 이러한 대규모 데이터 세트를 스토리지와 처리 장치 간에 신속하게 전송하여 데이터 전송 병목 현상을 줄일 수 있습니다.


분산 컴퓨팅 - 많은 AI 작업에는 여러 CPU 또는 GPU에 걸친 분산 컴퓨팅이 포함됩니다. 고속 네트워크는 이러한 장치 간의 효율적인 통신과 데이터 교환을 가능하게 하여 컴퓨팅 클러스터가 효과적으로 병렬로 작동하도록 보장합니다.


모델 훈련 - 딥 러닝 모델, 특히 변환기나 컨벌루션 신경망과 같은 LLM을 훈련하려면 많은 데이터와 계산 능력이 필요합니다. 고속 네트워크를 사용하면 분산 GPU 간의 데이터 로딩 및 동기화 속도가 빨라져 훈련 시간이 크게 단축될 수 있습니다.


실시간 추론 - AI를 통합하는 반응형 애플리케이션에는 짧은 대기 시간과 높은 처리량의 네트워크가 필수적입니다. 고속 네트워크는 사용자 요청과 모델의 응답 사이의 지연을 최소화합니다.

기본 개념

컴퓨팅과 스토리지의 분리, 확장이 아닌 확장, 간단하고 빠른 하드웨어 및 스마트 클라우드 기본 소프트웨어 등의 원칙을 준수함으로써 기업은 이러한 요구 사항을 충족하고 AI 이니셔티브를 추진하기 위한 올바른 기반을 갖춘 최신 데이터레이크를 구축할 수 있습니다. 앞으로.


빈약한 기초 위에 건물을 지을 수는 없습니다. 고대 이집트인들에게 물어보세요. AI 게임은 대규모 성능에 관한 것이므로 올바른 기반이 필요합니다. 기초에 인색한 것은 몇 분 후에 Jenga 타워를 무너뜨릴 기술적 부채를 축적하는 것입니다. 스마트하게 구축하고 기반을 마련하세요.