O que aprendemos sobre o futuro dos chips AI acompanhando os últimos anúncios da NVIDIA, conversando com especialistas do setor e analisando notícias e análises.
Explorar chips de IA tem sido um passatempo e também um tema popular nos artigos do Orchestrate all the Things . Em 2023, sentimos que ficamos um pouco para trás nisso... mas, novamente, isso importa? A NVIDIA ainda não reina suprema – avaliação de 1 trilhão , mais de 80% de participação de mercado, H100s vendendo como pão quente e quebrando todos os recordes e tudo mais? Bem, sim, mas... não tão rápido.
Depois de ter a chance de escolher o CPO de IA no cérebro de HPE Evan Sparks no episódio AI Chips de nossa série “What's New in AI” com O'Reilly , assista a algumas conferências de imprensa da NVIDIA e leia uma tonelada de notícias e análises para que você não precise fazer isso, temos uma visão mais sutil para compartilhar sobre os AI Chips em 2024. Aqui está o que está acontecendo e como isso provavelmente afetará a IA no futuro.
Vamos começar com as novidades. Ontem, a NVIDIA anunciou os resultados dos últimos envios do MLPerf . MLPerf é o padrão de fato em benchmarks de carga de trabalho de IA e, à medida que mais cargas de trabalho de IA surgem , o MLPerf continua adicionando a seu conjunto . Com a IA generativa decolando no ano passado, a MLPerf adicionou cargas de trabalho da Gen AI ao seu arsenal.
Tendo adicionado anteriormente um benchmark que usa uma parte do conjunto completo de dados GPT-3 para treinar um Large Language Model (LLM), a última adição ao MLPerf é um benchmark de treinamento baseado no modelo de texto para imagem de difusão estável. A NVIDIA superou ambos, além de mais alguns. A Intel e o Google também apresentam grandes ganhos em treinamento de IA .
NVIDIA Eos – um supercomputador de IA equipado com impressionantes 10.752 GPUs NVIDIA H100 Tensor Core e rede NVIDIA Quantum-2 InfiniBand – completou um benchmark de treinamento baseado em um modelo GPT-3 com 175 bilhões de parâmetros treinados em um bilhão de tokens em apenas 3,9 minutos.
Isso representa um ganho de quase 3x em relação aos 10,9 minutos, o recorde que a NVIDIA estabeleceu quando o teste foi lançado há menos de seis meses. Por extrapolação, o Eos agora poderia treinar esse LLM em apenas oito dias, 73x mais rápido do que um sistema de última geração anterior usando 512 GPUs A100. Quanto ao benchmark Stable Diffusion, 1.024 GPUs da arquitetura NVIDIA Hopper levaram 2,5 minutos para concluí-lo.
Mas isso não é tudo. Como observa a NVIDIA, a empresa foi a única a executar todos os testes MLPerf, demonstrando o desempenho mais rápido e a maior escalabilidade em cada um dos nove benchmarks. No MLPerf HPC, um benchmark separado para simulações assistidas por IA em supercomputadores, as GPUs H100 forneceram até o dobro do desempenho das GPUs NVIDIA A100 Tensor Core na última rodada de HPC .
Agora, vamos começar a descompactar esses resultados. A primeira coisa a notar são as várias dimensões da escala. Quando o Eos foi anunciado pela primeira vez , ele contava com 4.608 H100s. Hoje, possui 10.752. Mas a NVIDIA não é a única a aproveitar a escala e o desempenho do Eos.
Como observa a empresa, uma plataforma completa de inovações em aceleradores, sistemas e software foi usada pela Eos e pelo Microsoft Azure na última rodada. O Azure não se submeteu em todas as categorias, mas no benchmark GPT-3 onde ambos se submeteram, os resultados foram praticamente idênticos. E a instância do Azure também está disponível comercialmente.
Além do mais, a eficiência de escalonamento do Eos ficou acima de 80%. Idealmente, o dobro do número de GPUs resultaria no dobro do desempenho. Conseguir 80% disso, nesta escala, é uma grande façanha. A NVIDIA atribuiu isso à sua pilha – a combinação de hardware, software e rede.
Uma conclusão aqui é que a “ Lei de Jensen ”, o apelido usado para descrever o desempenho e a expansão que as GPUs NVIDIA alcançam, parece ainda estar em vigor. Mas talvez a verdadeira questão seja quem deveria se importar e por quê.
Esse tipo de escala não é algo que ninguém, exceto os hiperscaladores, normalmente conseguiria lidar, mesmo que quisessem. As GPUs NVIDIA H100 são escassas, apesar de custarem cerca de US$ 30 mil cada. Como observa o relatório O estado da IA em 2023 , as organizações estão em uma corrida para acumular estoques. Mas também há boas notícias.
Em primeiro lugar, os chips NVIDIA têm um valor de vida útil notavelmente longo: 5 anos desde o lançamento até o pico de popularidade. NVIDIA V100, lançado em 2017, ainda é o chip mais usado em pesquisas de IA. Isso sugere que os A100, lançados em 2020, podem atingir o pico em 2026, quando o V100 provavelmente atingirá seu ponto mais baixo.
Além disso, é questionável se treinar um novo modelo de IA do zero é algo que a maioria das organizações precisará fazer. A maioria das organizações provavelmente usará apenas modelos Gen AI pré-treinados, empacotados sob o capô para potencializar aplicativos, ou optará por usar algo como ChatGPT em vez de uma API. Ambas as opções requerem exatamente zero GPUs.
O outro lado, claro, é que ambas as opções também oferecem zero autonomia e segurança. Mas mesmo para organizações que optam por desenvolver IA internamente, treinar algo do zero provavelmente não é o que faz mais sentido para a maioria. Pegar um modelo Gen AI de código aberto pronto para uso e personalizá-lo por meio de ajuste fino ou RAG (Retrieval Augmented Generation) é muito mais rápido e fácil e requer apenas uma fração da computação.
De qualquer forma, a visão de longo prazo aqui é que a expansão da forma como a NVIDIA faz torna possíveis modelos de IA mais poderosos em um tempo mais curto. Podemos esperar que os resultados cheguem, quer isso signifique modelos mais poderosos do tipo GPT, modelos de código aberto ou aplicativos derivados.
Mas há outro conjunto de questões a considerar aqui. O domínio da NVIDIA é bom para a indústria? Pode e deve durar? O que a concorrência está fazendo? E por que o resto do mundo deveria se importar?
Como eu e outros observamos, o domínio da NVIDIA não se baseia apenas em seu hardware, mas em toda a sua pilha. Além disso, conforme observado pelo analista Dylan Patel , a NVIDIA também aproveita um conjunto de táticas de negócios em relação ao gerenciamento da cadeia de suprimentos, estratégias de vendas e pacotes que poucos são capazes de replicar. Mas isso também não significa que a concorrência esteja ociosa.
No que diz respeito aos supercomputadores e à expansão, o Eos da NVIDIA definitivamente não é o único jogo da cidade. Como Sparks mencionou, o Aurora da Intel com 60.000 GPUs Ponte Vecchio próprias está prestes a entrar online. Além disso, existem muitos outros supercomputadores no mundo com uma variedade de chips e arquiteturas de diferentes fabricantes, e todos eles são capazes de realizar aritmética de ponto flutuante de alto desempenho.
A NVIDIA tem uma vantagem porque foi a primeira a se concentrar em cargas de trabalho de IA, mas cada um de seus aspirantes a concorrentes tem um roteiro para acompanhar. Até recentemente, pensávamos que CUDA, a camada de software da NVIDIA, era o maior fosso da empresa.
Como observa Patel , muitas estruturas de aprendizado de máquina surgiram e desapareceram, mas a maioria dependeu fortemente do aproveitamento do CUDA da NVIDIA e teve melhor desempenho em GPUs NVIDIA. No entanto, com a chegada do PyTorch 2.0 e do Triton da OpenAI, a posição dominante da NVIDIA neste campo, principalmente devido ao seu fosso de software, está a ser perturbada. Essas estruturas tornam mais fácil para a concorrência da NVIDIA construir sua própria pilha.
É claro que, como Patel acrescenta em uma nota diferente descrevendo o plano da própria NVIDIA para se manter à frente do grupo , a NVIDIA não está parada. Embora a NVIDIA seja extremamente bem-sucedida, ela também é uma das empresas mais paranóicas do setor, com o CEO Jensen Huang personificando o espírito de Andy Grove. Não é por acaso que a NVIDIA destacou que sua equipe emprega atualmente duas vezes mais engenheiros de software do que engenheiros de hardware.
O sucesso gera complacência. Complacência gera fracasso. Somente os paranóicos sobrevivem.
Andy Grove
Patel chega a questionar algumas das táticas da NVIDIA, algo sobre o qual não temos opinião. O que podemos dizer é que, embora a implacabilidade da NVIDIA não os deixe ficar complacentes, ter um único fornecedor com mais de 80% de participação de mercado por muito tempo não é muito saudável. Provavelmente será bom para todos ver a concorrência recuperar o atraso.
Neste ponto, os hiperescaladores, os concorrentes existentes, como AMD e Intel, bem como um bando de iniciantes, estão todos trabalhando em seus próprios chips de IA personalizados para 2024 e além. Estima-se que a NVIDIA tenha uma margem de 1000% nos H100s , que também estão em falta. Não é à toa que todos desejam participar da ação e/ou aumentar sua autonomia. Para os consumidores, mais concorrência significará mais escolha e autonomia, bem como melhores desempenhos e preços .
Por enquanto, porém, a NVIDIA ainda é a líder indiscutível – embora com uma ou duas notas de rodapé. Quando solicitado a comparar diretamente os resultados do MLPerf da NVIDIA com os de Gaudi da Intel, por exemplo, o diretor de marketing de produto do Accelerated Computing Group da NVIDIA, Dave Salvator, apontou duas coisas. Primeiro, as submissões de Gaudi não chegaram nem perto da escala 10K. Em segundo lugar, os resultados da NVIDIA foram cerca de 2 vezes melhores em comparação com uma base normalizada. Outros, como o analista Karl Freund, porém, consideram Gaudi2 uma alternativa credível .
Nota de rodapé nº 1: MLPerf é uma referência amplamente aclamada na indústria. Como todos os benchmarks, entretanto, não é perfeito. Como observou Sparks, um elemento crucial que falta no MLPerf é o preço. Embora seja compreensível que incorporar preços em qualquer benchmark seja complicado por uma série de razões, isso também significa que os resultados precisam ser contextualizados. Por exemplo, de acordo com a análise de Patrick Kennedy, o Gaudi2 da Intel tem desempenho por dólar 4x melhor do que o H100 da NVIDIA .
Nota de rodapé nº 2: O desempenho por si só raramente é a única métrica importante para os compradores em potencial. Na maioria das vezes, o que mais importa é a relação desempenho/custo: quanto custa realizar uma determinada operação dentro de um determinado prazo. Para chegar a essa métrica, o custo total de propriedade (TCO) dos chips de IA deve ser levado em consideração. Este é um exercício complexo que requer conhecimentos profundos.
Uma grande parte do TCO dos chips de IA é a inferência, ou seja, o uso de modelos de IA treinados na produção. Treinar um modelo de IA normalmente é uma tarefa cara e complexa. A inferência pode ser mais simples em comparação, mas normalmente constitui a maior parte da vida útil e do custo operacional de um modelo.
As cargas de trabalho de treinamento e inferência têm características diferentes. Isto significa que um sistema que tem um bom desempenho no treinamento não necessariamente tem um desempenho igualmente bom na inferência. Caso em questão – quando Salvator foi solicitado a comentar sobre o desempenho de Eos em inferência, ele encaminhou os participantes para briefings futuros. Enquanto isso, as pessoas constroem novos sistemas focados na inferência , enquanto outras tentam aproveitar ao máximo os existentes .
A NVIDIA acaba de mostrar que sua liderança não dá sinais de diminuir no futuro imediato. No entanto, isso não é necessariamente bom para o resto do mundo. A competição existe e a oportunidade de recuperar o atraso também existe, por mais distante que possa parecer neste momento. Os chips de IA em 2024 serão algo para ficar de olho. Em qualquer caso, a forma como os destaques do benchmark se traduzem em impacto real, usabilidade e TCO para organizações que aspiram a desenvolver e utilizar IA não é linear.
Histórias sobre como tecnologia, dados, IA e mídia fluem uns para os outros moldando nossas vidas.Análises, ensaios, entrevistas e notícias. Formato médio a longo, 1-3 vezes por mês.
Também publicado aqui .