paint-brush
MinIO DataPod: Kiến trúc tham chiếu cho điện toán Exascaletừ tác giả@minio
7,519 lượt đọc
7,519 lượt đọc

MinIO DataPod: Kiến trúc tham chiếu cho điện toán Exascale

từ tác giả MinIO7m2024/08/20
Read on Terminal Reader

dài quá đọc không nổi

MinIO đã tạo ra một bản thiết kế toàn diện cho cơ sở hạ tầng dữ liệu để hỗ trợ AI exascale và các khối lượng công việc data lake quy mô lớn khác. MinIO DataPod cung cấp một kiến trúc đầu cuối cho phép quản trị viên cơ sở hạ tầng triển khai các giải pháp tiết kiệm chi phí cho nhiều khối lượng công việc AI và ML.
featured image - MinIO DataPod: Kiến trúc tham chiếu cho điện toán Exascale
MinIO HackerNoon profile picture


Doanh nghiệp hiện đại tự định nghĩa bằng dữ liệu của mình. Điều này đòi hỏi một cơ sở hạ tầng dữ liệu cho AI/ML cũng như một cơ sở hạ tầng dữ liệu là nền tảng cho một Datalake hiện đại có khả năng hỗ trợ trí tuệ kinh doanh, phân tích dữ liệu và khoa học dữ liệu. Điều này đúng nếu họ đang tụt hậu, đang bắt đầu hoặc đang sử dụng AI để có được những hiểu biết sâu sắc nâng cao. Trong tương lai gần, đây sẽ là cách mà các doanh nghiệp được nhìn nhận. Có nhiều chiều hoặc giai đoạn đối với vấn đề lớn hơn về cách AI đưa ra thị trường trong doanh nghiệp. Những điều đó bao gồm thu thập dữ liệu, chuyển đổi, đào tạo, suy luận, sản xuất và lưu trữ, với dữ liệu được chia sẻ trên mỗi giai đoạn. Khi các khối lượng công việc này tăng lên, tính phức tạp của cơ sở hạ tầng dữ liệu AI cơ bản cũng tăng lên. Điều này tạo ra nhu cầu về cơ sở hạ tầng hiệu suất cao trong khi giảm thiểu tổng chi phí sở hữu (TCO).


MinIO đã tạo ra một bản thiết kế toàn diện cho cơ sở hạ tầng dữ liệu để hỗ trợ AI exascale và các khối lượng công việc data lake quy mô lớn khác. Nó được gọi là MinIO DataPod. Đơn vị đo lường mà nó sử dụng là 100 PiB. Tại sao? Bởi vì thực tế là điều này phổ biến hiện nay trong doanh nghiệp. Sau đây là một số ví dụ nhanh:


  • Một nhà sản xuất ô tô Bắc Mỹ có gần một exabyte video về ô tô

  • Một nhà sản xuất ô tô Đức có hơn 50 PB dữ liệu từ xa về ô tô

  • Một công ty công nghệ sinh học có hơn 50 PB dữ liệu sinh học, hóa học và dữ liệu tập trung vào bệnh nhân

  • Một công ty an ninh mạng với hơn 500 PB tệp nhật ký

  • Một công ty truyền phát phương tiện truyền thông với hơn 200 PB video

  • Một nhà thầu quốc phòng có hơn 80 PB dữ liệu không gian địa lý, nhật ký và dữ liệu đo từ xa từ máy bay


Ngay cả khi họ không đạt 100 PB ngày hôm nay, họ sẽ đạt được trong vòng vài quý. Công ty trung bình đang tăng trưởng ở mức 42% một năm, các công ty tập trung vào dữ liệu đang tăng trưởng gấp đôi tốc độ đó, nếu không muốn nói là hơn.


Kiến trúc tham chiếu MinIO Datapod có thể được xếp chồng theo nhiều cách khác nhau để đạt được hầu như mọi quy mô - thực tế chúng tôi có những khách hàng đã xây dựng dựa trên bản thiết kế này - vượt qua cả exabyte và với nhiều nhà cung cấp phần cứng. MinIO DataPod cung cấp kiến trúc đầu cuối cho phép quản trị viên cơ sở hạ tầng triển khai các giải pháp tiết kiệm chi phí cho nhiều khối lượng công việc AI và ML. Sau đây là lý do cho kiến trúc của chúng tôi.

AI yêu cầu lưu trữ và tính toán phân tách

Khối lượng công việc AI, đặc biệt là AI tạo sinh, về bản chất đòi hỏi GPU để tính toán. Chúng là những thiết bị tuyệt vời với thông lượng đáng kinh ngạc, băng thông bộ nhớ và khả năng xử lý song song. Để theo kịp GPU ngày càng nhanh hơn đòi hỏi phải có bộ nhớ tốc độ cao. Điều này đặc biệt đúng khi dữ liệu đào tạo không thể phù hợp với bộ nhớ và các vòng lặp đào tạo phải thực hiện nhiều cuộc gọi hơn đến bộ nhớ. Hơn nữa, các doanh nghiệp yêu cầu nhiều hơn hiệu suất, họ cũng cần bảo mật, sao chép và khả năng phục hồi.


Yêu cầu lưu trữ doanh nghiệp đòi hỏi kiến trúc phải tách biệt hoàn toàn lưu trữ khỏi tính toán. Điều này cho phép lưu trữ mở rộng độc lập với tính toán và vì tốc độ tăng trưởng lưu trữ thường cao hơn tốc độ tăng trưởng tính toán một hoặc nhiều cấp độ, nên cách tiếp cận này đảm bảo tính kinh tế tốt nhất thông qua việc sử dụng năng lực vượt trội.

Khối lượng công việc AI đòi hỏi một lớp mạng khác

Cơ sở hạ tầng mạng đã chuẩn hóa trên các liên kết băng thông 100 Gigabits mỗi giây (Gbps) cho các triển khai khối lượng công việc AI. Các ổ NVMe hiện đại cung cấp thông lượng trung bình 7GBps khiến băng thông mạng giữa các máy chủ lưu trữ và máy chủ tính toán GPU trở thành nút thắt cổ chai đối với hiệu suất thực hiện đường ống AI.


Giải quyết vấn đề này bằng các giải pháp mạng phức tạp như Infiniband (IB) có những hạn chế thực sự. Chúng tôi khuyến nghị các doanh nghiệp tận dụng các giải pháp Ethernet hiện có, theo tiêu chuẩn công nghiệp (ví dụ: HTTP qua TCP) hoạt động ngay để cung cấp dữ liệu ở thông lượng cao cho GPU vì những lý do sau:


  • Hệ sinh thái mở và lớn hơn nhiều
  • Giảm chi phí cơ sở hạ tầng mạng
  • Tốc độ kết nối cao (800 GbE trở lên) với hỗ trợ RDMA qua Ethernet (ví dụ: RoCEv2)
  • Tái sử dụng chuyên môn và công cụ hiện có trong việc triển khai, quản lý và quan sát Ethernet
  • Sự đổi mới xung quanh GPU để truyền thông máy chủ lưu trữ đang diễn ra trên các giải pháp dựa trên Ethernet

Yêu cầu của lưu trữ đối tượng theo yêu cầu AI

Không phải ngẫu nhiên mà cơ sở hạ tầng dữ liệu AI trong đám mây công cộng đều được xây dựng trên các kho đối tượng. Cũng không phải ngẫu nhiên mà mọi mô hình nền tảng chính đều được đào tạo trên một kho đối tượng. Đây là một chức năng của thực tế là POSIX quá nhiều lời để hoạt động ở quy mô dữ liệu mà AI yêu cầu - bất chấp những gì mà những người nộp hồ sơ cũ sẽ tuyên bố.


Kiến trúc tương tự cung cấp AI trong đám mây công cộng nên được áp dụng cho đám mây riêng và rõ ràng là đám mây lai. Các kho lưu trữ đối tượng vượt trội trong việc xử lý nhiều định dạng dữ liệu và khối lượng lớn dữ liệu phi cấu trúc và có thể dễ dàng mở rộng quy mô để chứa dữ liệu ngày càng tăng mà không ảnh hưởng đến hiệu suất. Không gian tên phẳng và khả năng siêu dữ liệu của chúng cho phép quản lý và xử lý dữ liệu hiệu quả, điều này rất quan trọng đối với các tác vụ AI yêu cầu truy cập nhanh vào các tập dữ liệu lớn.


Khi GPU tốc độ cao phát triển và băng thông mạng đạt chuẩn 200/400/800 Gbps trở lên, kho lưu trữ đối tượng hiện đại sẽ là giải pháp duy nhất đáp ứng được SLA về hiệu suất và quy mô khối lượng công việc AI.


Phần mềm định nghĩa mọi thứ

Chúng ta biết rằng GPU là ngôi sao của chương trình và chúng là phần cứng. Nhưng ngay cả Nvidia cũng sẽ nói với bạn rằng công thức bí mật là CUDA. Tuy nhiên, nếu đi ra ngoài chip, thế giới cơ sở hạ tầng ngày càng được định nghĩa bằng phần mềm. Không nơi nào điều này đúng hơn là lưu trữ. Các giải pháp lưu trữ được định nghĩa bằng phần mềm là thiết yếu cho khả năng mở rộng, tính linh hoạt và tích hợp đám mây, vượt trội hơn các mô hình dựa trên thiết bị truyền thống vì những lý do sau:


  • Khả năng tương thích với đám mây : Lưu trữ được xác định bằng phần mềm phù hợp với hoạt động đám mây, không giống như các thiết bị không thể chạy trên nhiều đám mây.


  • Container hóa : Các thiết bị không thể được container hóa, làm mất đi lợi thế của nền tảng đám mây gốc và ngăn cản quá trình điều phối Kubernetes.


  • Tính linh hoạt của phần cứng : Lưu trữ được xác định bằng phần mềm hỗ trợ nhiều loại phần cứng, từ phần cứng biên đến phần cứng lõi, phù hợp với nhiều môi trường CNTT khác nhau.


  • Hiệu suất thích ứng : Bộ lưu trữ được xác định bằng phần mềm mang lại tính linh hoạt vô song, quản lý hiệu quả các dung lượng và nhu cầu hiệu suất khác nhau trên nhiều loại chipset.


Ở quy mô exabyte, tính đơn giản và mô hình hoạt động dựa trên đám mây là rất quan trọng. Lưu trữ đối tượng, như một giải pháp được xác định bằng phần mềm, phải hoạt động liền mạch trên phần cứng hàng hóa có sẵn (COTS) và bất kỳ nền tảng điện toán nào, cho dù là kim loại trần, máy ảo hay container.


Các thiết bị phần cứng được thiết kế riêng cho lưu trữ đối tượng thường bù đắp cho phần mềm được thiết kế kém bằng phần cứng tốn kém và các giải pháp phức tạp, dẫn đến tổng chi phí sở hữu (TCO) cao.

Thông số kỹ thuật phần cứng MinIO DataPOD cho AI:

Khách hàng doanh nghiệp sử dụng MinIO cho các sáng kiến AI xây dựng cơ sở hạ tầng dữ liệu quy mô exabyte dưới dạng các đơn vị lặp lại 100PiB. Điều này giúp các quản trị viên cơ sở hạ tầng dễ dàng triển khai, bảo trì và mở rộng quy mô khi dữ liệu AI tăng theo cấp số nhân theo thời gian. Dưới đây là danh mục vật liệu (BOM) để xây dựng cơ sở hạ tầng dữ liệu quy mô 100PiB.


Đặc điểm kỹ thuật cụm


Thành phần

Số lượng

Tổng số giá đỡ

30

Tổng số máy chủ lưu trữ

330

Tổng số máy chủ lưu trữ trên mỗi giá

11

Tổng số công tắc TOR

60

Tổng số công tắc Spine

10

Kích thước sọc mã xóa

10

Mã xóa chẵn lẻ

4


Thông số kỹ thuật của giá đỡ đơn


Thành phần

Sự miêu tả

Số lượng

Vỏ tủ rack

Rack khe cắm 42U/45U

1

Máy chủ lưu trữ

Hệ số hình thức 2U

11

Công tắc trên cùng của giá đỡ

Công tắc lớp 2

2

Công tắc quản lý

Kết hợp lớp 2 và lớp 3

1

Cáp mạng

Cáp AOC

30-40

Quyền lực

Nguồn điện kép với RPDU

17kW - 20kW


Thông số kỹ thuật máy chủ lưu trữ

Thành phần

Đặc điểm kỹ thuật

Máy chủ

2U, ổ cắm đơn

Bộ vi xử lý

64 lõi, 128 * làn PCIe 4.0

Ký ức

256GB

Mạng

Cổng kép, NIC 200gbe

Khoang ổ đĩa

24 trao đổi nóng 2,5" U.2 NVMe

Ổ đĩa

30TB * 24 NVMe

Quyền lực

Nguồn điện dự phòng 1600W

Tổng công suất thô

720TB


Tham khảo máy chủ lưu trữ


Dell : Máy chủ rack PowerEdge R7615


HPE : HPE ProLiant DL345 Gen11


Supermicro : Máy chủ A+ 2114S-WN24RT


Thông số kỹ thuật của bộ chuyển mạch mạng

Thành phần

Đặc điểm kỹ thuật


Công tắc trên cùng của Rack (TOR)

32 * 100GbE QSFP 28 Cổng


Chuyển đổi cột sống

64 * 100GbE QSFP 28 Cổng


Cáp

100G QSFP 28 AOC


Quyền lực

500 Watts cho mỗi công tắc



Giá

MinIO đã xác thực kiến trúc này với nhiều khách hàng và mong đợi những người khác sẽ thấy mức giá trung bình sau cho mỗi terabyte mỗi tháng. Đây là mức giá trung bình trên đường phố và giá thực tế có thể thay đổi tùy thuộc vào cấu hình và mối quan hệ với nhà cung cấp phần cứng.


Tỉ lệ

Giá phần cứng lưu trữ **(Theo TB/tháng)**

Giá phần mềm MinIO **(Mỗi TB/tháng)**

100PiB

1,50 đô la

3,54 đô la


Các thiết bị phần cứng chìa khóa trao tay dành riêng cho AI sẽ dẫn đến TCO cao và không thể mở rộng quy mô theo quan điểm kinh tế đơn vị đối với các sáng kiến AI dữ liệu lớn ở quy mô exabyte.

Phần kết luận

Thiết lập Cơ sở hạ tầng dữ liệu ở quy mô exabyte trong khi vẫn đáp ứng các mục tiêu TCO cho tất cả khối lượng công việc AI/ML có thể phức tạp và khó thực hiện đúng. Bản thiết kế cơ sở hạ tầng DataPOD của MinIO giúp các quản trị viên Cơ sở hạ tầng dễ dàng và trực quan thiết lập phần cứng hàng hóa cần thiết có sẵn với kho lưu trữ đối tượng doanh nghiệp MinIO tương thích với S3 có khả năng mở rộng cao, hiệu suất cao, tiết kiệm chi phí, giúp cải thiện thời gian đưa sản phẩm ra thị trường và thời gian tạo giá trị nhanh hơn từ các sáng kiến AI trên khắp các tổ chức trong bối cảnh doanh nghiệp.