1,537 lượt đọc

Chip AI vào năm 2024: Nvidia có sẵn sàng dẫn đầu cuộc đua không?

từ tác giả George Anadiotis8m2023/11/11

dài quá đọc không nổi

Mọi điều chúng tôi biết được về tương lai của Chip AI bằng cách theo dõi những thông báo mới nhất của NVIDIA.

featured image - Chip AI vào năm 2024: Nvidia có sẵn sàng dẫn đầu cuộc đua không?

Những điều chúng tôi biết được về tương lai của Chip AI bằng cách theo dõi các thông báo mới nhất của NVIDIA, trao đổi với các chuyên gia trong ngành cũng như xem xét tin tức và phân tích.

Khám phá các chip AI đã trở thành một trò tiêu khiển cũng như một chủ đề phổ biến trong các bài báo về Dàn dựng mọi thứ . Vào năm 2023, chúng tôi cảm thấy như mình đã tụt lại phía sau về điều đó..nhưng một lần nữa, điều đó có quan trọng không? Chẳng phải NVIDIA vẫn thống trị vị trí tối cao – định giá 1 nghìn tỷ , hơn 80% thị phần, H100 bán chạy như bánh mì nóng và phá vỡ mọi kỷ lục các thứ? Vâng, vâng, nhưng..không nhanh như vậy.

Sau khi có cơ hội chọn CPO AI tại bộ não của HPE Evan Sparks tại tập AI Chips trong loạt bài “Có gì mới trong AI” của chúng tôi với O'Reilly , hãy ngồi tại một vài cuộc họp báo của NVIDIA và quét rất nhiều tin tức và phân tích để bạn không cần phải làm vậy, chúng tôi có cái nhìn sâu sắc hơn để chia sẻ về Chip AI vào năm 2024. Dưới đây là những gì đang diễn ra và nó có khả năng ảnh hưởng như thế nào đến AI trong tương lai.

NVIDIA phá vỡ kỷ lục điểm chuẩn MPerf

Hãy bắt đầu với tin tức. Hôm qua, NVIDIA đã công bố kết quả của họ từ các lần gửi MLPerf mới nhất . MLPerf là tiêu chuẩn thực tế trong các tiêu chuẩn về khối lượng công việc AI và khi ngày càng có nhiều khối lượng công việc AI xuất hiện , MLPerf sẽ tiếp tục bổ sung vào bộ phần mềm đó . Với việc Generative AI phát triển trong năm qua, MLPerf đã bổ sung khối lượng công việc Gen AI vào kho vũ khí của mình.

Trước đây đã thêm điểm chuẩn sử dụng một phần của bộ dữ liệu GPT-3 đầy đủ để huấn luyện Mô hình ngôn ngữ lớn (LLM), phần bổ sung mới nhất cho MLPerf là điểm chuẩn đào tạo dựa trên mô hình chuyển văn bản thành hình ảnh Khuếch tán ổn định. NVIDIA đã vượt qua cả hai điều này cũng như một số điều khác. Intel và Google cũng tự hào về những thành tựu to lớn trong việc đào tạo AI .

NVIDIA Eos — siêu máy tính AI được hỗ trợ bởi 10.752 GPU NVIDIA H100 Tensor Core và mạng NVIDIA Quantum-2 InfiniBand — đã hoàn thành tiêu chuẩn đào tạo dựa trên mô hình GPT-3 với 175 tỷ thông số được đào tạo trên một tỷ mã thông báo chỉ trong 3,9 phút.

Đó là mức tăng gần gấp 3 lần so với 10,9 phút, kỷ lục mà NVIDIA thiết lập khi thử nghiệm được giới thiệu cách đây chưa đầy sáu tháng. Bằng phép ngoại suy, Eos giờ đây có thể đào tạo LLM đó chỉ trong 8 ngày, nhanh hơn 73 lần so với hệ thống tiên tiến nhất trước đây sử dụng 512 GPU A100. Đối với tiêu chuẩn Khuếch tán ổn định, 1.024 GPU kiến trúc NVIDIA Hopper phải mất 2,5 phút để hoàn thành.

Nhưng đó không phải là tất cả. Như NVIDIA lưu ý, công ty là công ty duy nhất thực hiện tất cả các bài kiểm tra MLPerf, chứng tỏ hiệu suất nhanh nhất và khả năng mở rộng lớn nhất trong mỗi chín tiêu chuẩn. Trong MLPerf HPC, một chuẩn mực riêng cho các mô phỏng được hỗ trợ bởi AI trên siêu máy tính, GPU H100 mang lại hiệu suất gấp đôi so với GPU NVIDIA A100 Tensor Core trong vòng HPC vừa qua .

Các lựa chọn để đào tạo mô hình AI

Bây giờ, hãy bắt đầu giải nén những kết quả này. Điều đầu tiên cần lưu ý là các kích thước khác nhau của quy mô. Khi Eos được công bố lần đầu tiên , nó có 4.608 chiếc H100. Ngày nay, nó có 10.752. Nhưng NVIDIA không phải là người duy nhất tận dụng quy mô và hiệu suất của Eos.

Như công ty lưu ý, một nền tảng đầy đủ các cải tiến về máy gia tốc, hệ thống và phần mềm đã được cả Eos và Microsoft Azure sử dụng trong vòng mới nhất. Azure không gửi ở tất cả các danh mục, nhưng trong điểm chuẩn GPT-3 mà cả hai đều được gửi, kết quả thực tế giống hệt nhau. Và phiên bản của Azure cũng có sẵn trên thị trường.

Hơn nữa, hiệu suất mở rộng của Eos ở mức 80%. Lý tưởng nhất là tăng gấp đôi số lượng GPU sẽ mang lại hiệu suất gấp đôi. Đạt được 80% trong số đó, ở quy mô này, là một kỳ tích. NVIDIA cho rằng điều này là do ngăn xếp của nó - sự kết hợp giữa phần cứng, phần mềm và mạng.

Một điều đáng rút ra ở đây là “ Định luật Jensen “, biệt danh dùng để mô tả hiệu suất và khả năng mở rộng mà GPU NVIDIA đạt được, dường như vẫn còn hiệu lực. Nhưng có lẽ câu hỏi thực sự là ai nên quan tâm và tại sao.

Loại quy mô đó không phải ai cũng có thể xử lý được ngoại trừ những người có quy mô siêu quy mô thông thường, ngay cả khi họ muốn. GPU NVIDIA H100 đang bị thiếu hụt mặc dù có giá khoảng 30 nghìn USD mỗi chiếc. Như báo cáo Trạng thái AI năm 2023 lưu ý, các tổ chức đang trong một cuộc chạy đua dự trữ. Nhưng cũng có những tin tốt.

Trước hết, chip NVIDIA có giá trị vòng đời rất dài: 5 năm kể từ khi ra mắt cho đến khi đạt mức phổ biến cao nhất. NVIDIA V100 ra mắt năm 2017 vẫn là con chip được sử dụng phổ biến nhất trong nghiên cứu AI. Điều này cho thấy những chiếc A100 ra mắt vào năm 2020 có thể đạt đỉnh vào năm 2026 khi V100 có khả năng chạm đáy.

Ngoài ra, vẫn còn nghi vấn liệu việc đào tạo mô hình Gen AI mới từ đầu có phải là điều mà hầu hết các tổ chức sẽ cần phải làm hay không. Phần lớn các tổ chức có thể sẽ chỉ sử dụng các mô hình Gen AI được đào tạo trước được đóng gói dưới dạng cơ bản để hỗ trợ các ứng dụng hoặc chọn sử dụng thứ gì đó như ChatGPT qua API. Cả hai tùy chọn này đều yêu cầu GPU chính xác bằng không.

Tất nhiên, mặt trái của nó là cả hai lựa chọn này đều không mang lại quyền tự chủ và an toàn. Nhưng ngay cả đối với các tổ chức chọn phát triển Gen AI nội bộ, việc đào tạo một thứ gì đó từ đầu có lẽ không phải là điều hợp lý nhất đối với hầu hết mọi người. Sử dụng mô hình Gen AI nguồn mở có sẵn và tùy chỉnh nó thông qua tinh chỉnh hoặc RAG (Thế hệ tăng cường truy xuất) sẽ nhanh hơn và dễ dàng hơn nhiều và chỉ yêu cầu một phần tính toán.

Các đối thủ của NVIDIA có thể bắt kịp như thế nào

Dù bằng cách nào, tầm nhìn dài hạn ở đây là việc mở rộng quy mô theo cách NVIDIA thực hiện để tạo ra các mô hình AI mạnh hơn trong thời gian ngắn hơn. Chúng ta có thể mong đợi kết quả sẽ giảm dần, cho dù điều đó có nghĩa là các mô hình giống GPT mạnh mẽ hơn, các mô hình nguồn mở hay các ứng dụng phái sinh.

Nhưng có một loạt câu hỏi khác cần xem xét ở đây. Sự thống trị của NVIDIA có phải là điều tốt cho ngành? Có thể và nên kéo dài? Sự cạnh tranh là gì? Và tại sao phần còn lại của thế giới nên quan tâm?

Như tôi và những người khác đã lưu ý, sự thống trị của NVIDIA không chỉ dựa trên phần cứng mà còn dựa trên toàn bộ hệ thống của nó. Hơn nữa, như nhà phân tích Dylan Patel đã lưu ý , NVIDIA cũng tận dụng một loạt chiến thuật kinh doanh liên quan đến quản lý chuỗi cung ứng, chiến lược bán hàng và gói hàng mà ít hãng khác có thể sao chép. Nhưng điều đó không có nghĩa là sự cạnh tranh cũng không diễn ra.

Xét về siêu máy tính và khả năng mở rộng quy mô, Eos của NVIDIA chắc chắn không phải là trò chơi duy nhất trong thị trấn. Như Sparks đã đề cập, Aurora của Intel có 60.000 GPU Ponte Vecchio của riêng họ sắp được đưa lên mạng. Ngoài ra, còn có nhiều siêu máy tính khác trên thế giới có nhiều loại chip và kiến trúc từ các nhà sản xuất khác nhau và tất cả chúng đều có khả năng thực hiện số học dấu phẩy động hiệu suất cao.

NVIDIA có lợi thế do là công ty đầu tiên tập trung vào khối lượng công việc AI, nhưng mỗi đối thủ cạnh tranh đầy tham vọng của họ đều có lộ trình để bắt kịp. Cho đến gần đây, chúng ta thường nghĩ rằng CUDA, lớp phần mềm của NVIDIA, là con hào lớn nhất của công ty.

Như Patel lưu ý , nhiều khung công tác máy học đã ra đời và biến mất, nhưng hầu hết đều dựa chủ yếu vào việc tận dụng CUDA của NVIDIA và hoạt động tốt nhất trên GPU NVIDIA. Tuy nhiên, với sự xuất hiện của PyTorch 2.0 và Triton của OpenAI, vị trí thống trị của NVIDIA trong lĩnh vực này, chủ yếu nhờ lợi thế phần mềm, đang bị phá vỡ. Những khung này giúp đối thủ cạnh tranh của NVIDIA xây dựng hệ thống ngăn xếp của riêng họ dễ dàng hơn.

Tất nhiên, khi Patel bổ sung thêm một ghi chú khác phác thảo kế hoạch dẫn đầu của NVIDIA , NVIDIA sẽ không ngồi yên trong tay họ. Mặc dù NVIDIA cực kỳ thành công nhưng họ cũng là một trong những công ty hoang tưởng nhất trong ngành, với CEO Jensen Huang là hiện thân của tinh thần Andy Grove. Không phải ngẫu nhiên mà NVIDIA nhấn mạnh rằng đội ngũ của họ hiện đang tuyển dụng số kỹ sư phần mềm nhiều gấp đôi so với kỹ sư phần cứng.

Thành công sinh ra sự tự mãn. Sự tự mãn sinh ra thất bại. Chỉ có người hoang tưởng sống sót.
Andy Grove

Cạnh tranh, quy mô, hiệu suất và TCO

Patel còn đặt câu hỏi về một số chiến thuật của NVIDIA, đây là điều mà chúng tôi không có ý kiến. Những gì chúng ta có thể nói là mặc dù sự không ngừng nghỉ của NVIDIA không để họ tự mãn, nhưng việc bất kỳ nhà cung cấp nào sở hữu trên 80% thị phần trong thời gian dài là điều không tốt cho sức khỏe. Có lẽ sẽ là một điều tốt cho mọi người khi chứng kiến sự cạnh tranh bắt kịp.

Tại thời điểm này, các công ty siêu quy mô, các đối thủ cạnh tranh đương nhiệm như AMD và Intel cũng như một loạt công ty mới nổi đều đang phát triển chip AI tùy chỉnh của riêng họ cho năm 2024 và hơn thế nữa. Người ta ước tính rằng NVIDIA có tỷ suất lợi nhuận 1000% đối với H100 , vốn cũng đang bị thiếu hụt. Không có gì ngạc nhiên khi mọi người đều muốn tham gia hành động và/hoặc phát triển quyền tự chủ của mình. Đối với người tiêu dùng, cạnh tranh nhiều hơn sẽ có nghĩa là có nhiều lựa chọn và quyền tự chủ hơn, cũng như hiệu suất và giá cả tốt hơn .

Tuy nhiên, ở thời điểm hiện tại, NVIDIA vẫn là người dẫn đầu không thể tranh cãi – mặc dù có một hoặc hai chú thích ở cuối trang. Ví dụ: khi được yêu cầu so sánh trực tiếp kết quả MLPerf của NVIDIA với Gaudi của Intel, giám đốc tiếp thị sản phẩm trong Nhóm Máy tính Tăng tốc tại NVIDIA Dave Salvator đã chỉ ra hai điều. Đầu tiên, các bài nộp của Gaudi không ở mức gần 10K. Thứ hai, kết quả của NVIDIA tốt hơn khoảng 2 lần so với trên cơ sở chuẩn hóa. Tuy nhiên, những người khác như nhà phân tích Karl Freund lại coi Gaudi2 là một sự thay thế đáng tin cậy .

Chú thích cuối trang số 1: MLPerf là một tiêu chuẩn được hoan nghênh rộng rãi trong ngành. Tuy nhiên, giống như tất cả các tiêu chuẩn, nó không hoàn hảo. Như Sparks đã lưu ý, một yếu tố quan trọng còn thiếu trong MLPerf là giá cả. Mặc dù có thể hiểu được rằng việc đưa giá vào bất kỳ tiêu chuẩn nào là khó khăn vì một số lý do, nhưng điều đó cũng có nghĩa là kết quả cần phải được đặt trong bối cảnh. Ví dụ: theo phân tích của Patrick Kennedy, Gaudi2 của Intel có hiệu suất trên mỗi đô la tốt hơn gấp 4 lần so với H100 của NVIDIA .

Chú thích cuối trang số 2: Chỉ riêng hiệu suất hiếm khi là thước đo duy nhất quan trọng đối với người mua tiềm năng. Thông thường, điều quan trọng nhất là tỷ lệ hiệu suất trên chi phí: chi phí để thực hiện một thao tác nhất định trong một khung thời gian nhất định là bao nhiêu. Để đạt được số liệu đó, tổng chi phí sở hữu (TCO) của chip AI phải được tính đến. Đây là một công việc phức tạp đòi hỏi chuyên môn sâu.

Một phần lớn TCO cho chip AI là suy luận, tức là việc sử dụng các mô hình AI đã được đào tạo trong sản xuất. Đào tạo một mô hình AI thường là một nỗ lực tốn kém và phức tạp. Suy luận có thể đơn giản hơn khi so sánh, nhưng nó thường chiếm phần lớn chi phí vận hành và vòng đời của mô hình.

Khối lượng công việc đào tạo và suy luận có những đặc điểm khác nhau. Điều này có nghĩa là một hệ thống thực hiện tốt việc huấn luyện không nhất thiết phải thực hiện tốt việc suy luận. Trường hợp điển hình – khi Salvator được yêu cầu nhận xét về hiệu suất suy luận của Eos, anh ấy đã giới thiệu những người tham dự đến các cuộc họp giao ban trong tương lai. Trong khi đó, mọi người đang xây dựng các hệ thống mới tập trung vào suy luận , trong khi những người khác đang cố gắng tận dụng tối đa những hệ thống hiện có .

Phần kết luận

NVIDIA vừa cho thấy khả năng lãnh đạo của mình không có dấu hiệu suy yếu trước mắt. Tuy nhiên, đó không hẳn là điều tốt cho phần còn lại của thế giới. Sự cạnh tranh ở đó và cơ hội để bắt kịp cũng ở đó, dù có vẻ rất xa vào thời điểm này. Chip AI vào năm 2024 sẽ là điều đáng để mắt tới. Trong mọi trường hợp, cách các điểm nổi bật của điểm chuẩn chuyển thành tác động thực tế, khả năng sử dụng và TCO đối với các tổ chức mong muốn phát triển và sử dụng AI là không tuyến tính.

Tham gia Bản tin Orchestrate all the Things

Những câu chuyện về cách Công nghệ, Dữ liệu, AI và Truyền thông kết hợp với nhau định hình cuộc sống của chúng ta. Phân tích, Bài tiểu luận, Phỏng vấn và Tin tức. Hình thức trung bình đến dài hạn, 1-3 lần mỗi tháng.