paint-brush
2024년 AI 칩: Nvidia가 경쟁을 주도할 준비가 되어 있습니까?~에 의해@linked_do
1,470 판독값
1,470 판독값

2024년 AI 칩: Nvidia가 경쟁을 주도할 준비가 되어 있습니까?

~에 의해 George Anadiotis8m2023/11/11
Read on Terminal Reader

너무 오래; 읽다

NVIDIA의 최신 발표를 추적하면서 AI 칩의 미래에 대해 배운 모든 것입니다.
featured image - 2024년 AI 칩: Nvidia가 경쟁을 주도할 준비가 되어 있습니까?
George Anadiotis HackerNoon profile picture
0-item
1-item

NVIDIA의 최신 발표를 추적하고, 업계 전문가와 대화하고, 뉴스와 분석을 살펴보며 AI 칩의 미래에 대해 배운 내용입니다.


AI 칩을 탐색하는 것은 오락이자 모든 사물 조정 기사 의 인기 주제였습니다. 2023년에는 그런 면에서 우리가 다소 뒤처진 것 같은 느낌이 들었습니다.. 그런데 또 그게 문제가 되나요? NVIDIA는 여전히 1조 가치 평가 , 80% 이상의 시장 점유율, 뜨거운 빵처럼 팔리고 모든 기록을 깨는 H100 등 최고를 군림하고 있지 않습니까? 네, 그렇죠. 하지만..그렇게 빠르진 않아요.


O'Reilly와 함께하는 "AI의 새로운 기능" 시리즈의 AI Chips 에피소드 에서 HPE Evan Sparks의 두뇌에서 AI CPO를 선택할 기회를 얻은 후 몇 차례 NVIDIA 기자 회견에 참석하고 수많은 뉴스와 내용을 살펴보세요. 분석을 통해 2024년에 AI 칩에 대해 좀 더 미묘한 관점을 공유할 수 있습니다. 현재 진행 중인 상황과 앞으로 AI에 어떤 영향을 미칠 수 있는지 살펴보겠습니다.

NVIDIA가 MLPerf 벤치마크 기록을 깨뜨렸습니다.

뉴스부터 시작하겠습니다. 어제 NVIDIA는 최신 MLPerf 제출 결과를 발표했습니다 . MLPerf는 AI 워크로드 벤치마크의 사실상 표준이며 더 많은 AI 워크로드가 등장함에 따라 MLPerf는 계속해서 제품군에 추가하고 있습니다 . 작년에 Generative AI가 시작되면서 MLPerf는 Gen AI 워크로드를 무기고에 추가했습니다.


이전에 LLM(대형 언어 모델)을 교육하기 위해 전체 GPT-3 데이터 세트의 일부를 사용하는 벤치마크를 추가한 데 이어 MLPerf에 최근 추가된 것은 Stable Diffusion 텍스트-이미지 모델을 기반으로 한 교육 벤치마크입니다. NVIDIA는 이 두 가지뿐만 아니라 몇 가지 더 많은 성과를 거두었습니다. Intel과 Google은 또한 AI 훈련에서 큰 이점을 자랑합니다 .


무려 10,752개의 NVIDIA H100 Tensor Core GPUNVIDIA Quantum-2 InfiniBand 네트워킹으로 구동되는 AI 슈퍼컴퓨터인 NVIDIA Eos 는 단 3.9분 만에 10억 개의 토큰에 대해 훈련된 1,750억 개의 매개변수가 있는 GPT-3 모델 기반의 훈련 벤치마크를 완료했습니다.


NVIDIA는 MLPerf 3.1 벤치마크에서 몇 가지 기록을 경신했습니다.


이는 6개월 전 테스트가 도입되었을 때 NVIDIA가 세운 기록인 10.9분보다 거의 3배 향상된 수치입니다. 추정에 따르면 이제 Eos는 512개의 A100 GPU를 사용하는 이전 최첨단 시스템보다 73배 빠른 속도로 해당 LLM을 단 8일 만에 훈련할 수 있습니다. Stable Diffusion 벤치마크의 경우 1,024개의 NVIDIA Hopper 아키텍처 GPU를 사용 하여 완료하는 데 2.5분이 걸렸습니다.


하지만 그게 전부는 아닙니다. NVIDIA가 언급했듯이 이 회사는 모든 MLPerf 테스트를 실행한 유일한 회사였으며 9개 벤치마크 각각에서 가장 빠른 성능과 가장 큰 확장성을 보여주었습니다. 슈퍼컴퓨터의 AI 지원 시뮬레이션을 위한 별도의 벤치마크인 MLPerf HPC에서 H100 GPU는 지난 HPC 라운드 에서 NVIDIA A100 Tensor Core GPU 성능을 최대 2배까지 제공했습니다.

AI 모델 학습 옵션

이제 이 결과를 풀어보겠습니다. 가장 먼저 주목해야 할 것은 규모의 다양한 차원입니다. EOS가 처음 발표되었을 때 4,608개의 H100이 탑재되었습니다. 현재 10,752개가 있습니다. 그러나 NVIDIA가 Eos의 규모와 성능을 활용하는 유일한 회사는 아닙니다.


회사가 지적한 바와 같이, 최신 라운드에서는 Eos와 Microsoft Azure 모두 가속기, 시스템 및 소프트웨어 혁신의 풀스택 플랫폼이 사용되었습니다. Azure는 모든 카테고리를 제출하지는 않았지만, 두 카테고리가 모두 제출된 GPT-3 벤치마크에서는 결과가 사실상 동일했습니다. 그리고 Azure의 인스턴스도 상업적으로 이용 가능합니다.


게다가 EOS의 확장 효율성은 80%를 넘었습니다. 이상적으로 GPU 수를 두 배로 늘리면 성능이 두 배 향상됩니다. 이 규모에서 그 중 80%를 얻는 것은 대단한 일입니다. NVIDIA는 이를 하드웨어, 소프트웨어 및 네트워킹의 조합인 스택에 기인했습니다.


여기서 한 가지 시사점은 NVIDIA GPU가 달성하는 성능과 확장을 설명하는 데 사용되는 별명인 " Jensen의 법칙 "이 여전히 유효한 것으로 보인다는 것입니다. 하지만 아마도 진짜 질문은 누가, 왜 관심을 가져야 하는가일 것입니다.


그런 종류의 규모는 하이퍼스케일러가 원하더라도 일반적으로 감당할 수 있는 것이 아닙니다. NVIDIA H100 GPU는 각각 약 30,000달러의 가격에도 불구하고 공급이 부족합니다. 2023년 AI 현황 보고서 에 따르면 조직은 비축 경쟁을 벌이고 있습니다. 하지만 좋은 소식도 있습니다.


조직들은 NVIDIA GPU를 확보하기 위한 경쟁을 벌이고 있습니다


우선, NVIDIA 칩은 출시부터 최고 인기까지 5년이라는 매우 긴 수명 가치를 가지고 있습니다. 2017년에 출시된 NVIDIA V100은 여전히 AI 연구에서 가장 일반적으로 사용되는 칩입니다. 이는 2020년에 출시된 A100이 V100이 최저점에 도달할 가능성이 있는 2026년에 정점을 찍을 수 있음을 시사합니다.


또한 새로운 Gen AI 모델을 처음부터 훈련하는 것이 대부분의 조직에서 수행해야 할 작업인지 의문입니다. 대부분의 조직은 애플리케이션을 강화하기 위해 내부적으로 패키지된 사전 훈련된 Gen AI 모델만 사용하거나 API를 통해 ChatGPT와 같은 것을 사용하도록 선택할 것입니다. 이 두 옵션 모두 정확히 0개의 GPU가 필요합니다.


물론 반대 측면은 이 두 가지 옵션 모두 자율성과 안전성이 전혀 제공되지 않는다는 것입니다. 그러나 내부 Gen AI를 개발하기로 선택한 조직의 경우에도 처음부터 무언가를 교육하는 것이 대부분의 경우 가장 적합한 방법은 아닐 것입니다. 기성 오픈 소스 Gen AI 모델을 가져와 미세 조정이나 RAG(Retrieval Augmented Generation)를 통해 사용자 정의하는 것이 훨씬 더 빠르고 쉬우며 컴퓨팅의 일부만 필요합니다.

NVIDIA 경쟁업체가 따라잡을 수 있는 방법

어느 쪽이든, 여기서 장기적인 관점은 NVIDIA가 수행하는 방식을 확장하면 더 짧은 시간에 더 강력한 AI 모델이 가능해진다는 것입니다. 더욱 강력한 GPT 유사 모델, 오픈 소스 모델, 파생 애플리케이션 등 결과가 조금씩 흘러나올 것으로 예상할 수 있습니다.


그러나 여기서 고려해야 할 또 다른 질문이 있습니다. NVIDIA의 지배력은 업계에 좋은 것입니까? 지속될 수 있고 지속되어야 합니까? 경쟁은 무엇입니까? 그리고 나머지 세계가 왜 관심을 가져야 합니까?


나와 다른 사람들이 지적했듯이 NVIDIA의 지배력은 하드웨어뿐만 아니라 스택 전체에 기반을 두고 있습니다. 또한, 분석가 Dylan Patel이 언급한 바와 같이 NVIDIA는 공급망 관리, 판매 전략 및 번들링과 관련하여 다른 기업에서는 거의 따라할 수 없는 일련의 비즈니스 전술을 활용합니다. 하지만 그렇다고 해서 경쟁이 가만히 있는 것도 아닙니다.


슈퍼컴퓨터와 확장에 관한 한, NVIDIA의 Eos가 확실히 유일한 게임은 아닙니다. Sparks가 언급했듯이 60,000개의 자체 Ponte Vecchio GPU를 갖춘 Intel의 Aurora가 곧 온라인에 출시될 예정입니다. 또한 세계에는 다양한 제조업체의 다양한 칩과 아키텍처를 갖춘 슈퍼컴퓨터가 많이 있으며 모두 고성능 부동 소수점 연산을 수행할 수 있습니다.


Intel의 Gaudi 2 AI 칩은 FP8 소프트웨어를 사용하여 MLPerf 3.1 GPT-3에서 2배의 성능 향상을 달성합니다.


NVIDIA는 AI 워크로드에 가장 먼저 집중했다는 점에서 우위를 점하고 있지만, 각 경쟁사들은 따라잡을 로드맵을 가지고 있습니다. 최근까지 우리는 NVIDIA의 소프트웨어 계층인 CUDA가 회사의 가장 큰 해자라고 생각했습니다.


Patel이 언급한 것처럼 많은 기계 학습 프레임워크가 나타났다 사라졌지만 대부분은 NVIDIA의 CUDA 활용에 크게 의존했으며 NVIDIA GPU에서 최고의 성능을 발휘했습니다. 그러나 PyTorch 2.0과 OpenAI의 Triton이 등장하면서 주로 소프트웨어 해자로 인해 이 분야에서 NVIDIA의 지배적인 위치가 흔들리고 있습니다. 이러한 프레임워크를 사용하면 NVIDIA의 경쟁 업체가 자체 스택을 더 쉽게 구축할 수 있습니다.


물론 Patel이 선두를 유지하려는 NVIDIA의 자체 계획을 설명하는 다른 메모를 추가함에 따라 NVIDIA는 손을 놓고 있지 않습니다. NVIDIA는 큰 성공을 거두었지만 업계에서 가장 편집증적인 기업 중 하나이기도 합니다. CEO Jensen Huang은 Andy Grove의 정신을 구현하고 있습니다. NVIDIA가 자사 팀이 현재 하드웨어 엔지니어보다 두 배나 많은 소프트웨어 엔지니어를 고용하고 있다는 사실을 강조한 것은 우연이 아닙니다.

성공은 안일함을 낳습니다. 안일함은 실패를 낳습니다. 편집증 환자만이 살아남는다.

앤디 그로브

경쟁, 규모, 성능 및 TCO

Patel은 NVIDIA의 전술 중 일부에 대해 의문을 제기했는데, 이에 대해서는 우리가 의견을 갖고 있지 않습니다. 우리가 말할 수 있는 것은 NVIDIA의 끈질긴 노력이 그들이 안주하도록 놔두지 않더라도 단일 공급업체가 오랫동안 80% 이상의 시장 점유율을 소유하는 것은 그다지 건강하지 않다는 것입니다. 경쟁이 따라잡는 것을 보는 것은 아마도 모두에게 좋은 일이 될 것입니다.


이 시점에서 하이퍼스케일러, AMD 및 Intel과 같은 기존 경쟁업체 및 신생 기업들은 모두 2024년 및 그 이후를 위한 맞춤형 AI 칩을 개발하기 위해 노력하고 있습니다. NVIDIA는 역시 공급이 부족한 H100에 대해 1000%의 마진을 갖고 있는 것으로 추정됩니다. 모든 사람이 행동을 취하고/하거나 자율성을 키우고 싶어하는 것은 당연합니다. 소비자에게 있어 경쟁이 심해지면 더 많은 선택권과 자율성을 갖게 될 뿐만 아니라 더 나은 성능과 가격을 의미하게 됩니다 .


그러나 당분간 NVIDIA는 각주가 한두 개 있기는 하지만 여전히 확실한 리더입니다. 예를 들어 NVIDIA의 MLPerf 결과를 Intel의 Gaudi와 직접 비교하라는 요청을 받았을 때 NVIDIA Accelerated Computing Group의 제품 마케팅 이사는 두 가지를 지적했습니다. 첫째, Gaudi 제출물은 10K 규모 근처에도 없었습니다. 둘째, NVIDIA 결과는 정규화된 기준에 비해 약 2배 더 좋았습니다. 그러나 분석가 Karl Freund와 같은 다른 사람들은 Gaudi2를 신뢰할 수 있는 대안으로 간주합니다 .


시간 경과에 따른 GPU 공급업체 시장 점유율(JPR 기준)


각주 #1: MLPerf는 업계에서 널리 호평을 받는 벤치마크입니다. 그러나 모든 벤치마크와 마찬가지로 완벽하지는 않습니다. Sparks가 언급했듯이 MLPerf에서 누락된 중요한 요소 중 하나는 가격 책정입니다. 벤치마크에 가격을 통합하는 것이 여러 가지 이유로 까다롭다는 점은 이해할 수 있지만 결과를 맥락에 맞게 조정해야 한다는 뜻이기도 합니다. 예를 들어 Patrick Kennedy의 분석에 따르면 Intel의 Gaudi2는 NVIDIA의 H100보다 달러당 성능이 4배 더 좋습니다 .


각주 #2: 성능만이 잠재 구매자에게 중요한 유일한 척도가 되는 경우는 거의 없습니다. 가장 중요한 것은 비용 대비 성능 비율, 즉 특정 기간 내에 특정 작업을 수행하는 데 드는 비용입니다. 해당 측정 기준에 도달하려면 AI 칩의 총 소유 비용(TCO)을 고려해야 합니다. 이는 심층적인 전문 지식이 필요한 복잡한 작업입니다.


AI 칩 TCO의 큰 부분은 추론, 즉 생산에 훈련된 AI 모델을 사용하는 것입니다. AI 모델을 훈련하는 것은 일반적으로 비용이 많이 들고 복잡한 노력입니다. 추론은 비교적 간단할 수 있지만 일반적으로 모델 수명과 운영 비용의 대부분을 차지합니다.


훈련 워크로드와 추론 워크로드는 서로 다른 특성을 가지고 있습니다. 이는 훈련에 좋은 시스템이 반드시 추론에도 똑같이 좋은 것은 아니라는 것을 의미합니다. 적절한 사례 – Salvator가 추론에 대한 Eos 성과에 대해 논평하라는 요청을 받았을 때 그는 참석자들에게 향후 브리핑을 언급했습니다. 한편, 사람들은 추론에 초점을 맞춘 새로운 시스템을 구축하고 있는 반면, 다른 사람들은 기존 시스템을 최대한 활용하려고 노력하고 있습니다.

결론

NVIDIA는 자사의 리더십이 가까운 미래에 약해질 조짐을 보이지 않는다는 점을 방금 보여주었습니다. 그러나 이것이 반드시 나머지 세계에 좋은 것은 아닙니다. 경쟁이 있고, 따라잡을 수 있는 기회도 있지만, 지금으로서는 멀게 느껴질 수도 있습니다. 2024년에는 AI칩이 주목된다. 어떤 경우든 벤치마크 하이라이트가 AI를 개발하고 사용하려는 조직의 실제 영향, 유용성 및 TCO로 어떻게 변환되는지는 선형적이지 않습니다.

모든 것을 오케스트레이션하는 뉴스레터에 참여하세요


기술, 데이터, AI 및 미디어가 어떻게 서로 흘러들어 우리 삶을 형성하는지에 대한 이야기. 분석, 에세이, 인터뷰 및 뉴스. 중장기 형태로 월 1~3회.


여기에도 게시되었습니다.