paint-brush
Làm cách nào để bạn chọn Máy chủ, CPU và GPU tốt nhất cho AI của mình?từ tác giả@hostkey
530 lượt đọc
530 lượt đọc

Làm cách nào để bạn chọn Máy chủ, CPU và GPU tốt nhất cho AI của mình?

từ tác giả Hostkey.com5m2024/04/18
Read on Terminal Reader

dài quá đọc không nổi

Trí tuệ nhân tạo đã trở nên quan trọng đối với các ngành công nghiệp khác nhau. Việc chọn bộ xử lý và card đồ họa phù hợp sẽ cho phép bạn thiết lập nền tảng hiệu suất cao. Việc lựa chọn bộ tăng tốc đồ họa hay dung lượng RAM cài đặt trong máy chủ sẽ có tác động lớn hơn so với việc lựa chọn giữa các loại CPU.
featured image - Làm cách nào để bạn chọn Máy chủ, CPU và GPU tốt nhất cho AI của mình?
Hostkey.com HackerNoon profile picture
0-item


Với sự phát triển của trí tuệ nhân tạo tổng hợp và các ứng dụng thực tế của nó, việc tạo ra máy chủ cho trí tuệ nhân tạo đã trở nên quan trọng đối với nhiều ngành công nghiệp khác nhau - từ sản xuất ô tô đến y học, cũng như các tổ chức giáo dục và chính phủ.


Hãy xem xét các thành phần quan trọng nhất ảnh hưởng đến việc lựa chọn máy chủ cho trí tuệ nhân tạo: bộ xử lý trung tâm (CPU) và bộ xử lý đồ họa (GPU). Việc chọn bộ xử lý và card đồ họa phù hợp sẽ cho phép bạn thiết lập nền tảng hiệu suất cao và tăng tốc đáng kể các phép tính liên quan đến trí tuệ nhân tạo trên máy chủ chuyên dụng hoặc ảo (VPS).


Thuê máy chủ GPU với khả năng triển khai ngay lập tức hoặc một máy chủ có cấu hình tùy chỉnh với thẻ NVIDIA Tesla H100 / H100 80Gb hoặc RTX A5000 / A4000 cấp chuyên nghiệp. Máy chủ GPU có thẻ trò chơi RTX4090 cũng có sẵn.



Làm cách nào để chọn bộ xử lý phù hợp cho máy chủ AI của bạn?

Bộ xử lý là "máy tính" chính nhận lệnh từ người dùng và thực hiện "chu kỳ lệnh" để mang lại kết quả mong muốn. Do đó, yếu tố quan trọng khiến máy chủ AI trở nên mạnh mẽ chính là CPU của nó.


Bạn có thể mong đợi một sự so sánh giữa bộ xử lý AMD và Intel. Đúng vậy, hai công ty dẫn đầu ngành này đang đi đầu trong lĩnh vực sản xuất bộ xử lý, với dòng Intel® Xeon® thế hệ thứ 5 (và đã được công bố là thế hệ thứ 6) và AMD EPYC™ 8004/9004 đại diện cho đỉnh cao của bộ xử lý CISC dựa trên x86.


Nếu bạn đang tìm kiếm hiệu suất tuyệt vời kết hợp với hệ sinh thái trưởng thành và đã được chứng minh, việc lựa chọn các sản phẩm hàng đầu từ các nhà sản xuất chip này sẽ là lựa chọn phù hợp. Nếu ngân sách là vấn đề đáng lo ngại, hãy xem xét các phiên bản cũ hơn của bộ xử lý Intel® Xeon® và AMD EPYC™.


Ngay cả CPU máy tính để bàn của các mẫu cao cấp hơn của AMD hoặc Nvidia cũng sẽ là điểm khởi đầu tốt để làm việc với AI nếu khối lượng công việc của bạn không yêu cầu số lượng lớn lõi và khả năng đa luồng. Trong thực tế, khi nói đến mô hình ngôn ngữ, việc lựa chọn bộ tăng tốc đồ họa hay dung lượng RAM lắp vào máy chủ sẽ có tác động lớn hơn so với việc lựa chọn giữa các loại CPU.


Mặc dù một số kiểu máy, chẳng hạn như 8x7B của Mixtral, có thể tạo ra kết quả tương đương với sức mạnh tính toán của lõi tensor có trong thẻ video khi chạy trên CPU, nhưng chúng cũng yêu cầu RAM nhiều hơn 2-3 lần so với gói CPU + GPU. Ví dụ: một model chạy trên RAM 16 GB và bộ nhớ video GPU 24 GB có thể yêu cầu RAM lên tới 64 GB khi chỉ chạy trên CPU.


Ngoài AMD và Intel, còn có các tùy chọn khác. Đây có thể là các giải pháp dựa trên kiến trúc ARM, chẳng hạn như NVIDIA Grace™, kết hợp lõi ARM với các tính năng NVIDIA đã được cấp bằng sáng chế hoặc Ampere Altra™.


Làm cách nào để chọn bộ xử lý đồ họa (GPU) phù hợp cho máy chủ AI của bạn?

GPU đóng vai trò ngày càng quan trọng trong hoạt động của máy chủ AI hiện nay. Nó đóng vai trò như một bộ tăng tốc giúp CPU xử lý các yêu cầu tới mạng thần kinh nhanh hơn và hiệu quả hơn nhiều. GPU có thể chia các tác vụ thành các phân đoạn nhỏ hơn và thực hiện chúng đồng thời bằng cách sử dụng tính toán song song hoặc các lõi chuyên dụng. Ví dụ: lõi tensor của NVIDIA cung cấp hiệu suất cao hơn nhiều trong các phép tính dấu phẩy động 8 bit (FP8) với Transformer Engine, Tensor Float 32 (TF32) và FP16, cho thấy kết quả xuất sắc trong điện toán hiệu năng cao (HPC).


Điều này đặc biệt đáng chú ý không phải trong quá trình suy luận (hoạt động của mạng lưới thần kinh) mà trong quá trình đào tạo, chẳng hạn như đối với các mô hình có FP32, quá trình này có thể mất vài tuần hoặc thậm chí vài tháng.


Để thu hẹp tiêu chí tìm kiếm của bạn, hãy xem xét các câu hỏi sau:

  • Bản chất khối lượng công việc của máy chủ AI của bạn có thay đổi theo thời gian không? Hầu hết các GPU hiện đại đều được thiết kế cho các nhiệm vụ rất cụ thể. Kiến trúc chip của họ có thể phù hợp với một số lĩnh vực phát triển hoặc ứng dụng AI nhất định, đồng thời các giải pháp phần cứng và phần mềm mới có thể khiến các thế hệ GPU trước đó trở nên lỗi thời chỉ sau vài năm (1-2-3).
  • Bạn sẽ chủ yếu tập trung vào đào tạo AI hay suy luận (cách sử dụng)? Hai quy trình này là nền tảng của tất cả các bước lặp AI hiện đại với ngân sách bộ nhớ hạn chế.


Trong quá trình đào tạo, mô hình AI xử lý một lượng lớn dữ liệu với hàng tỷ, thậm chí hàng nghìn tỷ tham số. Nó điều chỉnh "trọng số" của thuật toán cho đến khi có thể tạo ra kết quả chính xác một cách nhất quán.


Ở chế độ suy luận, AI dựa vào “bộ nhớ” quá trình đào tạo của mình để phản hồi dữ liệu đầu vào mới trong thế giới thực. Cả hai quá trình đều yêu cầu tài nguyên tính toán đáng kể, vì vậy GPU và mô-đun mở rộng được cài đặt để tăng tốc.


Các đơn vị xử lý đồ họa (GPU) được thiết kế đặc biệt để đào tạo các mô hình deep learning với các lõi và cơ chế chuyên dụng có thể tối ưu hóa quy trình này. Ví dụ: H100 của NVIDIA với 8 lõi GPU cung cấp hơn 32 petaflop hiệu suất trong học sâu FP8. Mỗi H100 chứa lõi tensor thế hệ thứ tư sử dụng loại dữ liệu mới gọi là FP8 và "Transformer Engine" để tối ưu hóa. Gần đây, NVIDIA đã giới thiệu thế hệ GPU tiếp theo của họ, B200, sẽ còn mạnh hơn nữa.


Một giải pháp thay thế mạnh mẽ cho các giải pháp AMD là AMD Instinct™ MI300X. Tính năng của nó là dung lượng bộ nhớ lớn và băng thông dữ liệu cao, điều này rất quan trọng đối với các ứng dụng AI tổng hợp dựa trên suy luận, chẳng hạn như mô hình ngôn ngữ lớn (LLM). AMD tuyên bố rằng GPU của họ hiệu quả hơn 30% so với các giải pháp của NVIDIA nhưng có phần mềm kém hoàn thiện hơn.


Nếu bạn cần hy sinh một chút hiệu suất để phù hợp với hạn chế về ngân sách hoặc nếu tập dữ liệu đào tạo AI của bạn không quá lớn, bạn có thể xem xét các lựa chọn khác từ AMD và NVIDIA. Đối với các tác vụ suy luận hoặc khi không cần hoạt động liên tục ở chế độ đào tạo 24/7, các giải pháp "tiêu dùng" dựa trên Nvidia RTX 4090 hoặc RTX 3090 có thể phù hợp.


Nếu bạn đang tìm kiếm sự ổn định trong các phép tính dài hạn cho việc đào tạo mô hình, bạn có thể xem xét thẻ RTX A4000 hoặc A5000 của NVIDIA. Mặc dù H100 với bus PCIe có thể cung cấp giải pháp mạnh mẽ hơn với hiệu suất 60-80% tùy theo tác vụ, RTX A5000 là một lựa chọn dễ tiếp cận hơn và có thể là lựa chọn tối ưu cho một số tác vụ nhất định (chẳng hạn như làm việc với các mẫu như 8x7B).


Để có các giải pháp suy luận mới lạ hơn, bạn có thể xem xét các thẻ như AMD Alveo™ V70, NVIDIA A2/L4 Tensor Core và Qualcomm® Cloud AI 100. Trong tương lai gần, AMD và NVIDIA có kế hoạch vượt trội hơn GPU Gaudi 3 của Intel trong thị trường đào tạo AI .


Xem xét tất cả các yếu tố này và tính đến việc tối ưu hóa phần mềm cho HPC và AI, chúng tôi khuyên dùng các máy chủ có bộ xử lý Intel Xeon hoặc AMD Epyc và GPU của NVIDIA. Đối với các tác vụ suy luận AI, bạn có thể sử dụng GPU từ RTX A4000/A5000 đến RTX 3090, còn để đào tạo và làm việc trên mạng thần kinh đa phương thức, bạn nên phân bổ ngân sách cho các giải pháp từ RTX 4090 đến A100/H100.





Thuê máy chủ GPU với khả năng triển khai ngay lập tức hoặc một máy chủ có cấu hình tùy chỉnh với thẻ NVIDIA Tesla H100 / H100 80Gb hoặc RTX A5000 / A4000 cấp chuyên nghiệp. Máy chủ GPU có thẻ trò chơi RTX4090 cũng có sẵn.

Câu chuyện này được phân phối trong Chương trình viết blog kinh doanh của HackerNoon. Tìm hiểu thêm về chương trình đây .