paint-brush
Những nguyên tắc cần ghi nhớ khi xây dựng Datalake hiện đại cho cơ sở hạ tầng AI của bạntừ tác giả@minio
12,626 lượt đọc
12,626 lượt đọc

Những nguyên tắc cần ghi nhớ khi xây dựng Datalake hiện đại cho cơ sở hạ tầng AI của bạn

từ tác giả MinIO5m2024/02/06
Read on Terminal Reader
Read this story w/o Javascript

dài quá đọc không nổi

Trò chơi AI tập trung vào hiệu suất trên quy mô lớn và điều này đòi hỏi nền tảng phù hợp. Đây là cách thông minh khi xây dựng một hồ dữ liệu hiện đại và đặt nền tảng phù hợp.

People Mentioned

Mention Thumbnail
featured image - Những nguyên tắc cần ghi nhớ khi xây dựng Datalake hiện đại cho cơ sở hạ tầng AI của bạn
MinIO HackerNoon profile picture
0-item


Trong bối cảnh việc nhiệt tình áp dụng AI là một sự thật quan trọng và thường bị bỏ qua - sự thành công của bất kỳ sáng kiến AI nào về bản chất đều gắn liền với chất lượng, độ tin cậy và hiệu suất của cơ sở hạ tầng dữ liệu cơ bản. Nếu bạn không có nền tảng phù hợp, bạn sẽ bị hạn chế về những gì bạn có thể xây dựng và do đó những gì bạn có thể đạt được.


Cơ sở hạ tầng dữ liệu của bạn là nền tảng để xây dựng toàn bộ cơ sở hạ tầng AI của bạn. Đó là nơi dữ liệu được thu thập, lưu trữ, xử lý và chuyển đổi. Các mô hình đào tạo sử dụng phương pháp học tập có giám sát, không giám sát và tăng cường yêu cầu các giải pháp lưu trữ có thể xử lý dữ liệu có cấu trúc - như Kho dữ liệu. Mặt khác, nếu bạn đang đào tạo Mô hình ngôn ngữ lớn (LLM), bạn phải quản lý dữ liệu phi cấu trúc - tài liệu ở dạng thô và đã xử lý.


Datalake hiện đại, hay Lakehouse, là nền tảng cho cả hai loại AI khác nhau này. Datalake hiện đại là một nửa Kho dữ liệu và một nửa Hồ dữ liệu và sử dụng bộ lưu trữ đối tượng cho mọi thứ. Gần đây hơn, chúng ta đã chứng kiến sự gia tăng của các định dạng bảng mở. Các định dạng bảng mở (OTF) như Apache Iceberg, Apache Hudi và Delta Lake giúp việc lưu trữ đối tượng được sử dụng trong kho dữ liệu trở nên liền mạch.


Hồ dữ liệu


Phần còn lại của bài viết này sẽ xem xét cách tận dụng các đặc điểm của Datalake hiện đại để phân biệt nó với các giải pháp thông thường như Kho dữ liệu và thiết bị độc quyền. Để xây dựng nền tảng cho cơ sở hạ tầng AI, bạn cần những điều sau:


  • Phân chia tính toán và lưu trữ
  • Thu nhỏ quy mô (Không tăng)
  • Phần mềm được xác định
  • Đám mây gốc
  • Phần cứng thương mại


Nếu chúng ta đồng ý với những điều trên thì sẽ xuất hiện một loạt các phương pháp thực hành tốt nhất tập trung vào hai lĩnh vực hoạt động. Nếu được kết hợp, Datalake hiện đại sẽ vừa nhanh vừa có thể mở rộng. Những phương pháp hay nhất này bao gồm:


  • Tối ưu hóa giá và hiệu suất ổ đĩa
  • Kết hợp mạng tốc độ cao

Phân chia tính toán và lưu trữ

Việc phân chia điện toán và lưu trữ trong cơ sở hạ tầng dữ liệu của bạn có nghĩa là các tài nguyên riêng biệt được sử dụng cho điện toán và lưu trữ. Điều này trái ngược với các giải pháp lưu trữ thông thường, trong đó mọi thứ được đóng gói trong một máy chủ duy nhất hoặc tệ hơn là một thiết bị. Tuy nhiên, Datalakes hiện đại đưa sự phân chia lên một cấp độ khác. Nếu Hồ dữ liệu và Kho dữ liệu có các yêu cầu lưu trữ hoàn toàn khác nhau, chúng tôi có thể sử dụng hai phiên bản riêng biệt của kho lưu trữ đối tượng, như hiển thị bên dưới.


Hồ dữ liệu Minio


Ngoài ra, nếu Kho dữ liệu cần hỗ trợ khối lượng công việc yêu cầu cấu hình xung đột thì bạn có thể sử dụng nhiều công cụ xử lý. Điều này được hiển thị dưới đây.


Hỗ trợ khối lượng công việc


Cơ sở hạ tầng có thể kết hợp cho phép bạn mở rộng quy mô tài nguyên điện toán và lưu trữ của mình một cách độc lập. Điều này có nghĩa là bạn có thể phân bổ nhiều tài nguyên hơn cho phần cơ sở hạ tầng cần nhất thay vì nâng cấp cả điện toán và lưu trữ cùng nhau. Nó giúp mở rộng quy mô một cách hiệu quả về mặt chi phí vì bạn chỉ đầu tư vào các nguồn lực cần thiết.

Mở rộng quy mô không tăng

Khối lượng công việc AI cần nhiều dữ liệu, thường được phân bổ trên nhiều CPU hoặc GPU, sử dụng sức mạnh tính toán dồi dào để đào tạo và cần phải suy luận theo thời gian thực. Mở rộng quy mô chứ không phải tăng quy mô, giúp tối ưu hóa hiệu suất và đáp ứng các mạng tốc độ cao.


Mở rộng quy mô và tăng quy mô là hai cách tiếp cận khác nhau để tăng công suất và hiệu suất cơ sở hạ tầng dữ liệu của bạn. Tuy nhiên, việc mở rộng quy mô đang được chứng minh là cách tiếp cận khả thi hơn khi có những tiến bộ trong các nền tảng phân cụm như Kubernetes và ngày càng có nhiều giải pháp cố gắng trở thành nền tảng đám mây. Mở rộng quy mô trong cơ sở hạ tầng tách rời sẽ cung cấp:


Tính sẵn sàng cao và khả năng chịu lỗi - Nếu một nút bận, nút khác có thể nhận yêu cầu mới, giảm thời gian chờ đợi và tăng thông lượng. Nếu một nút bị lỗi, khối lượng công việc có thể được chuyển sang các nút khác, giảm thời gian ngừng hoạt động và đảm bảo tính liên tục.


Hiệu suất và tính linh hoạt - Việc mở rộng quy mô có thể mang lại hiệu suất tốt hơn bằng cách phân phối khối lượng công việc trên nhiều nút hoặc máy chủ để xử lý khối lượng dữ liệu lớn hơn và nhiều yêu cầu đồng thời hơn. Việc mở rộng quy mô cũng linh hoạt hơn vì bạn có thể thêm hoặc xóa các nút khi cần, giúp điều chỉnh khối lượng công việc biến động hoặc phù hợp với các biến đổi theo mùa dễ dàng hơn.


Hiệu quả về mặt vận hành và tài nguyên - Việc bảo trì và nâng cấp được đơn giản hóa khi bạn mở rộng quy mô. Thay vì ngoại tuyến một hệ thống quan trọng để nâng cấp, bạn có thể thực hiện bảo trì trên các nút lưu trữ hoặc điện toán riêng lẻ mà không làm gián đoạn toàn bộ cơ sở hạ tầng.

Cloud Native + Phần mềm được xác định

Thành phần cuối cùng của việc tận dụng Datalake hiện đại để xây dựng nền tảng vững chắc cho AI là áp dụng cách tiếp cận dựa trên nền tảng đám mây, được xác định bằng phần mềm.


Các bộ chứa như Docker và các công cụ điều phối bộ chứa như Kubernetes giúp biến kiến trúc dựa trên nền tảng đám mây trở nên khả thi. Tất cả các thành phần của Datalake hiện đại đều chạy trong các thùng chứa chạy trong Kubernetes. Do đó, Datalake hiện đại có nguồn gốc từ đám mây.


"Được xác định bằng phần mềm" đề cập đến cách tiếp cận trong đó phần mềm kiểm soát và quản lý cấu hình, chức năng và hành vi của các thành phần phần cứng, thường là trong bối cảnh hệ thống máy tính và mạng. Đây là khối xây dựng của cơ sở hạ tầng dưới dạng chuyển động mã, trong đó trọng tâm là phần mềm thông minh và phần cứng cực nhanh. Bộ lưu trữ được xác định bằng phần mềm tóm tắt và quản lý tài nguyên lưu trữ thông qua phần mềm, giúp việc phân bổ và quản lý dung lượng lưu trữ trên các thiết bị và phương tiện lưu trữ khác nhau dễ dàng hơn.

Được xây dựng cho tốc độ: NVMe và 100GbE

Để tận dụng tối đa lợi thế của kiến trúc được xác định bằng phần mềm và phần cứng hàng hóa của bạn - bạn cần thêm hai phần quan trọng. Đầu tiên là ổ NVMe. Khối lượng công việc hiện đại, hướng đến hiệu suất, tính chất ngẫu nhiên của việc đọc/ghi, sự gia tăng của các vật thể nhỏ và giá SSD giảm đều ủng hộ một Kiến trúc lấy NVMe làm trung tâm . Hãy làm phép tính đó, số tiền trả trước có thể cao hơn, TCO sẽ thấp hơn.


Thành phần thứ hai là mạng 100GbE. Trong thế giới được xác định bằng phần mềm, mạng hóa ra lại là nút thắt cổ chai trong nhiều thiết lập, ngay cả ở tốc độ 100GbE. Dưới đây là một số kịch bản đó:


Chuyên sâu về dữ liệu - Khối lượng công việc AI thường xử lý các tập dữ liệu lớn, chẳng hạn như hình ảnh, video, văn bản ngôn ngữ tự nhiên và dữ liệu cảm biến. Mạng tốc độ cao có thể nhanh chóng chuyển các bộ dữ liệu lớn này giữa các đơn vị lưu trữ và xử lý, giảm tắc nghẽn truyền dữ liệu.


Điện toán phân tán - Nhiều tác vụ AI liên quan đến điện toán phân tán trên nhiều CPU hoặc GPU. Mạng tốc độ cao cho phép liên lạc và trao đổi dữ liệu hiệu quả giữa các thiết bị này, đảm bảo các cụm máy tính hoạt động song song hiệu quả.


Đào tạo mô hình - Đào tạo các mô hình học sâu, đặc biệt là LLM như máy biến áp hoặc mạng thần kinh tích chập, đòi hỏi nhiều dữ liệu và sức mạnh tính toán. Mạng tốc độ cao cho phép tải và đồng bộ hóa dữ liệu nhanh hơn giữa các GPU được phân phối, điều này có thể tăng tốc đáng kể thời gian đào tạo.


Suy luận thời gian thực - Mạng có độ trễ thấp và thông lượng cao rất cần thiết cho các ứng dụng phản hồi tích hợp AI. Mạng tốc độ cao đảm bảo độ trễ tối thiểu giữa yêu cầu của người dùng và phản hồi từ mô hình.

Các khái niệm cơ bản

Bằng cách tuân thủ các nguyên tắc sau: phân chia tính toán và lưu trữ, mở rộng quy mô, không tăng quy mô, phần cứng nhanh, nhanh và phần mềm gốc đám mây thông minh, doanh nghiệp có thể xây dựng một Datalake hiện đại có nền tảng phù hợp để đáp ứng các yêu cầu này và thúc đẩy các sáng kiến AI của bạn phía trước.


Bạn không thể xây dựng một tòa nhà trên nền móng kém, hãy hỏi người Ai Cập cổ đại. Trò chơi AI tập trung vào hiệu suất trên quy mô lớn và điều này đòi hỏi nền tảng phù hợp. Tiết kiệm nền tảng là tích lũy nợ kỹ thuật, điều này sẽ làm đổ tháp Jenga của bạn sau vài phút. Xây dựng thông minh, đặt nền móng đúng chỗ.