1,537 okumalar

2024'te Yapay Zeka Çipleri: Nvidia Yarışta Liderliğe Hazır mı?

ile George Anadiotis8m2023/11/11

Çok uzun; Okumak

NVIDIA'nın en son duyurularını takip ederek AI Chips'in geleceği hakkında öğrendiğimiz her şey.

featured image - 2024'te Yapay Zeka Çipleri: Nvidia Yarışta Liderliğe Hazır mı?

NVIDIA'nın en son duyurularını takip ederek, sektör uzmanlarıyla konuşarak ve haberleri ve analizleri tarayarak AI Chips'in geleceği hakkında öğrendiklerimiz.

Yapay zeka çiplerini keşfetmek bir eğlence olmasının yanı sıra Her Şeyi Orkestre Et makalelerinde popüler bir temaydı. 2023'te bu konuda biraz geride kaldığımızı hissettik... ama yine de bu önemli mi? NVIDIA hâlâ üstün değil mi – 1 trilyon değerleme , %80'den fazla pazar payı, sıcak ekmek gibi satılan ve tüm rekorları kıran H100'ler? Evet, ama...o kadar hızlı değil.

O'Reilly ile birlikte "Yapay Zekada Yenilikler" serimizin Yapay Zeka Çipleri bölümünde HPE Evan Sparks'ın beyninde Yapay Zeka CPO'sunu seçme şansını yakaladıktan sonra, NVIDIA'nın birkaç basın konferansına katılın ve tonlarca haber ve içeriği tarayın. Analizlere gerek kalmaması için 2024'te Yapay Zeka Çipleri hakkında paylaşacak daha incelikli bir görüşümüz var. İşte neler olup bittiği ve bunun Yapay Zeka'nın ilerlemesini nasıl etkilemesi muhtemel.

NVIDIA, MLPerf kıyaslama rekorlarını kırdı

Haberlerle başlayalım. Dün NVIDIA, en son MLPerf gönderimlerinin sonuçlarını açıkladı . MLPerf, yapay zeka iş yükü karşılaştırmalarında fiili standarttır ve daha fazla yapay zeka iş yükü ortaya çıktıkça MLPerf, bu pakete eklemeye devam eder . Geçtiğimiz yıl Generative AI'nın yükselişe geçmesiyle MLPerf, Gen AI iş yüklerini cephaneliğine ekledi.

Daha önce Büyük Dil Modeli'ni (LLM) eğitmek için GPT-3 veri setinin tamamının bir kısmını kullanan bir kıyaslama ekleyen MLPerf'e en son eklenen , Stabil Difüzyon metinden görüntüye modeline dayanan bir eğitim kıyaslamasıdır. NVIDIA bunların her ikisinde de başarılı oldu ve birkaç tane daha. Intel ve Google ayrıca yapay zeka eğitiminde büyük kazanımlarla övünüyor .

10.752 adet NVIDIA H100 Tensor Core GPU ve NVIDIA Quantum-2 InfiniBand ağıyla desteklenen bir yapay zeka süper bilgisayarı olan NVIDIA Eos , bir milyar jeton üzerinde eğitilen 175 milyar parametreye sahip GPT-3 modelini temel alan bir eğitim kıyaslamasını yalnızca 3,9 dakikada tamamladı.

Bu, testin altı aydan kısa bir süre önce tanıtıldığı sırada NVIDIA'nın kırdığı rekor olan 10,9 dakikaya göre neredeyse 3 kat artış anlamına geliyor. Tahminleme yoluyla, Eos artık bu LLM'yi yalnızca sekiz günde, 512 A100 GPU kullanan önceki son teknoloji sistemden 73 kat daha hızlı eğitebiliyordu. Stabil Difüzyon testinin tamamlanması 1.024 NVIDIA Hopper mimarili GPU'nun 2,5 dakikasını aldı.

Ama hepsi bu değil. NVIDIA'nın belirttiği gibi şirket, tüm MLPerf testlerini gerçekleştiren tek şirket oldu ve dokuz kıyaslamanın her birinde en hızlı performansı ve en büyük ölçeklendirmeyi gösterdi. Süper bilgisayarlarda yapay zeka destekli simülasyonlar için ayrı bir kıyaslama olan MLPerf HPC'de H100 GPU'lar, son HPC turunda NVIDIA A100 Tensor Core GPU'ların performansının iki katına kadar çıktı.

Yapay zeka modellerini eğitme seçenekleri

Şimdi bu sonuçları açmaya başlayalım. Dikkat edilmesi gereken ilk şey ölçeğin çeşitli boyutlarıdır. Eos ilk duyurulduğunda 4.608 adet H100 içeriyordu. Bugün 10.752'ye sahiptir. Ancak Eos ölçeğinden ve performansından yararlanan tek kişi NVIDIA değil.

Şirketin belirttiği gibi, son turda hem Eos hem de Microsoft Azure tarafından hızlandırıcılar, sistemler ve yazılımlardaki yeniliklerden oluşan tam kapsamlı bir platform kullanıldı. Azure tüm kategorilerde başvuruda bulunmadı ancak her ikisinin de gönderildiği GPT-3 karşılaştırmasında sonuçlar hemen hemen aynıydı. Azure'un örneği de ticari olarak mevcuttur.

Dahası, Eos'un ölçeklendirme verimliliği %80'in üzerindeydi. İdeal olarak, GPU sayısının iki katı, performansın iki katı olacaktır. Bu ölçekte bunun %80'ini elde etmek oldukça büyük bir başarı. NVIDIA bunu donanım, yazılım ve ağ birleşiminden oluşan yığınına bağladı.

Buradan çıkan sonuç, NVIDIA GPU'ların elde ettiği performansı ve ölçeklendirmeyi tanımlamak için kullanılan " Jensen Yasası "nın hala yürürlükte olduğudur. Ama belki de asıl soru bunu kimin ve neden umursaması gerektiğidir.

Bu tür bir ölçeklendirme, hiper ölçekleyiciler dışında kimsenin isteseler bile normalde halledebileceği bir şey değildir. NVIDIA H100 GPU'ların her birinin fiyatı yaklaşık 30.000 dolar olmasına rağmen tedarik sıkıntısı yaşanıyor. Yapay Zekanın Durumu 2023 raporunun belirttiği gibi, kuruluşlar stoklama yarışı içindedir. Ancak iyi haberler de var.

Öncelikle, NVIDIA çipleri oldukça uzun bir kullanım ömrü değerine sahiptir: piyasaya sürülmesinden popülerliğin zirvesine kadar 5 yıl. 2017 yılında piyasaya sürülen NVIDIA V100, hala yapay zeka araştırmalarında en yaygın kullanılan çiptir. Bu, 2020'de piyasaya sürülen A100'lerin, V100'ün dip noktasına ulaşmasının muhtemel olduğu 2026'da zirveye ulaşabileceğini gösteriyor.

Ayrıca, yeni bir Nesil Yapay Zeka modelini sıfırdan eğitmenin çoğu kuruluşun yapması gereken bir şey olup olmadığı da sorgulanabilir. Kuruluşların çoğunluğu muhtemelen uygulamalara güç sağlamak için yalnızca önceden eğitilmiş Nesil Yapay Zeka modellerini kullanacak veya bir API üzerinden ChatGPT gibi bir şeyi kullanmayı seçecektir. Bu seçeneklerin her ikisi de tam olarak sıfır GPU gerektirir.

İşin diğer tarafı ise elbette bu seçeneklerin her ikisinin de sıfır özerklik ve güvenlik sağlamasıdır. Ancak şirket içi Nesil Yapay Zeka geliştirmeyi seçen kuruluşlar için bile, bir şeyi sıfırdan eğitmek muhtemelen çoğu kişi için en mantıklı şey değildir. Kullanıma hazır bir açık kaynak Gen Yapay Zeka modelini alıp ince ayar veya RAG (Geri Alma Artırılmış Üretim) yoluyla özelleştirmek çok daha hızlı ve kolaydır ve yalnızca çok küçük bir işlem gerektirir.

NVIDIA rakipleri nasıl yetişebilir?

Her iki durumda da, buradaki uzun bakış açısı, NVIDIA'nın yaptığı yöntemin ölçeklendirilmesinin daha kısa sürede daha güçlü AI modellerini mümkün kılacağı yönündedir. Bu, daha güçlü GPT benzeri modeller, açık kaynaklı modeller veya türev uygulamalar anlamına gelse de, sonuçların yavaş yavaş azalmasını bekleyebiliriz.

Ancak burada dikkate alınması gereken başka bir dizi soru daha var. NVIDIA'nın hakimiyeti sektör için iyi bir şey mi? Sürebilir mi ve sürmeli mi? Rekabet ne durumda? Peki dünyanın geri kalanı neden umursasın ki?

Benim ve diğerlerinin de belirttiği gibi, NVIDIA'nın üstünlüğü yalnızca donanımına değil, aynı zamanda yığınının tamamına da dayanıyor. Dahası, analist Dylan Patel'in belirttiği gibi NVIDIA, tedarik zinciri yönetimi, satış stratejileri ve paketlemeyle ilgili olarak çok az kişinin taklit edebileceği bir dizi iş taktiğini de kullanıyor. Ancak bu, rekabetin durduğu anlamına da gelmiyor.

Süper bilgisayarlar ve ölçeklendirme söz konusu olduğunda NVIDIA'nın Eos'u kesinlikle şehirdeki tek oyun değil. Sparks'ın da belirttiği gibi, Intel'in 60.000 adet Ponte Vecchio GPU'sunu içeren Aurora'sı çevrimiçi olmak üzere. Ayrıca dünyada farklı üreticilere ait çeşitli çip ve mimarilere sahip başka birçok süper bilgisayar var ve bunların hepsi yüksek performanslı kayan nokta aritmetiği yapabiliyor.

NVIDIA, yapay zeka iş yüklerine odaklanan ilk şirket olması nedeniyle bir avantaja sahip ancak gelecek vaat eden rakiplerinin her birinin yetişmesi gereken bir yol haritası var. Yakın zamana kadar NVIDIA'nın yazılım katmanı olan CUDA'nın şirketin en büyük hendeği olduğunu düşünüyorduk.

Patel'in belirttiği gibi birçok makine öğrenimi çerçevesi gelip geçti, ancak çoğu büyük ölçüde NVIDIA'nın CUDA'sından yararlanmaya güvendi ve en iyi performansı NVIDIA GPU'larda gösterdi. Ancak PyTorch 2.0 ve OpenAI'nin Triton'unun gelişiyle birlikte, NVIDIA'nın bu alandaki hakim konumu, özellikle yazılım hendeği nedeniyle bozuluyor. Bu çerçeveler NVIDIA'nın rakiplerinin kendi yığınlarını oluşturmasını kolaylaştırıyor.

Elbette Patel, NVIDIA'nın rakiplerinin önünde kalma planını özetleyen farklı bir notta eklediği gibi, NVIDIA'nın elinde durmuyor. NVIDIA son derece başarılı olsa da aynı zamanda sektördeki en paranoyak firmalardan biri; CEO Jensen Huang Andy Grove'un ruhunu temsil ediyor. NVIDIA'nın ekibinin şu anda donanım mühendislerinden iki kat daha fazla yazılım mühendisi çalıştırdığını vurgulaması tesadüf değil.

Başarı rehaveti doğurur. Kayıtsızlık başarısızlığı doğurur. Sadece paranoyaklar hayatta kalır.
Andy Grove

Rekabet, ölçek, performans ve TCO

Patel, NVIDIA'nın bazı taktiklerini sorgulayacak kadar ileri gidiyor ki bu bizim hakkında hiçbir fikrimiz yok. Söyleyebileceğimiz şey, NVIDIA'nın acımasızlığı onları rehavete kaptırmasa da, tek bir satıcının çok uzun süre %80'in üzerinde pazar payına sahip olmasının pek sağlıklı olmadığıdır. Rekabetin hız kazandığını görmek muhtemelen herkes için iyi bir şey olacaktır.

Bu noktada hiper ölçekleyiciler, AMD ve Intel gibi yerleşik rakipler ve bir grup yeni girişim, 2024 ve sonrası için kendi özel yapay zeka çipleri üzerinde çalışıyor. NVIDIA'nın, yine arz sıkıntısı çeken H100'lerde %1000'lik bir marja sahip olduğu tahmin ediliyor. Herkesin eylemin bir parçası olmak ve/veya özerkliğini artırmak istemesine şaşmamak gerek. Tüketiciler için daha fazla rekabet, daha fazla seçenek ve özerkliğin yanı sıra daha iyi performans ve fiyatlar anlamına gelecektir .

Ancak şimdilik bir veya iki dipnotla da olsa NVIDIA hala tartışmasız lider. Örneğin, NVIDIA'nın MLPerf sonuçlarını Intel'in Gaudi'siyle doğrudan karşılaştırması istendiğinde, NVIDIA Hızlandırılmış Bilgi İşlem Grubu ürün pazarlama direktörü Dave Salvator iki şeye dikkat çekti. İlk olarak, Gaudi sunumları 10K ölçeğinin yakınında değildi. İkincisi, NVIDIA sonuçları normalleştirilmiş bazda yaklaşık 2 kat daha iyiydi. Ancak analist Karl Freund gibi diğerleri Gaudi2'nin güvenilir bir alternatif olduğunu düşünüyor .

Dipnot #1: MLPerf sektörde geniş çapta kabul gören bir referanstır. Ancak tüm kıyaslamalar gibi mükemmel değil. Sparks'ın belirttiği gibi MLPerf'te eksik olan önemli unsurlardan biri fiyatlandırmadır. Fiyatlandırmayı herhangi bir karşılaştırma ölçütüne dahil etmenin birçok nedenden ötürü zor olması anlaşılır olsa da, bu aynı zamanda sonuçların bir bağlama oturtulması gerektiği anlamına da gelir. Örneğin Patrick Kennedy'nin analizine göre Intel'in Gaudi2'si, NVIDIA'nın H100'ünden dolar başına 4 kat daha iyi performansa sahip .

Dipnot #2: Potansiyel alıcılar için önemli olan tek ölçü nadiren tek başına performanstır. Çoğu zaman en önemli şey performans/maliyet oranıdır: Belirli bir zaman diliminde belirli bir işlemi gerçekleştirmenin maliyeti ne kadardır. Bu ölçüye ulaşmak için yapay zeka çiplerinin toplam sahip olma maliyetinin (TCO) hesaba katılması gerekiyor. Bu, derin uzmanlık gerektiren karmaşık bir çalışmadır.

Yapay zeka çipleri için TCO'nun büyük bir kısmı çıkarımdan, yani üretimde eğitimli yapay zeka modellerinin kullanılmasından oluşuyor. Bir yapay zeka modelinin eğitimi genellikle maliyetli ve karmaşık bir çabadır. Çıkarım, kıyaslandığında daha basit olabilir, ancak genellikle bir modelin ömrünün ve işletme maliyetinin büyük kısmını oluşturur.

Eğitim ve çıkarım iş yükleri farklı özelliklere sahiptir. Bu, eğitimde iyi performans gösteren bir sistemin, çıkarımlarda da aynı derecede iyi performans göstermeyebileceği anlamına gelir. Örnek olarak Salvator'dan Eos'un çıkarım performansı hakkında yorum yapması istendiğinde katılımcıları gelecekteki brifinglere yönlendirdi. Bu arada insanlar çıkarım odaklı yeni sistemler kurarken , diğerleri mevcut olanlardan en iyi şekilde yararlanmaya çalışıyor .

Çözüm

NVIDIA, liderliğinin yakın gelecekte azalma belirtileri göstermediğini gösterdi. Ancak bu dünyanın geri kalanı için mutlaka iyi bir şey değil. Rekabet var ve bu noktada her ne kadar uzak görünse de, yetişme şansı da var. 2024'teki AI çipleri dikkat edilmesi gereken bir şey olacak. Her durumda, AI geliştirmeyi ve kullanmayı amaçlayan kuruluşlar için karşılaştırmalı değerlendirmelerin gerçek etki, kullanılabilirlik ve TCO'ya nasıl dönüştüğü doğrusal değildir.

Orchestrat All the Things Bültenine Katılın

Teknoloji, Veri, Yapay Zeka ve Medyanın birbirlerine nasıl akarak hayatlarımızı şekillendirdiğine dair hikayeler. Analizler, Denemeler, Röportajlar ve Haberler. Orta-uzun form, ayda 1-3 kez.