Com o desenvolvimento da inteligência artificial generativa e das suas aplicações práticas, a criação de servidores para inteligência artificial tornou-se crítica para diversas indústrias - desde a indústria automóvel até à medicina, bem como para instituições educacionais e governamentais.
Consideremos os componentes mais importantes que afetam a seleção de um servidor para inteligência artificial: a unidade central de processamento (CPU) e a unidade de processamento gráfico (GPU). A seleção de processadores e placas gráficas apropriados permitirá que você configure uma plataforma de alto desempenho e acelere significativamente os cálculos relacionados à inteligência artificial em um servidor dedicado ou virtual (VPS).
Alugue servidores GPU com implantação instantânea ou um servidor com umconfiguração personalizada com placas NVIDIA Tesla H100/H100 80Gb ou RTX A5000/A4000 de nível profissional.Servidores GPU com placas de jogo RTX4090 também estão disponíveis.
O processador é a principal “calculadora” que recebe comandos dos usuários e executa “ciclos de comando”, que produzirão os resultados desejados. Portanto, grande parte do que torna um servidor de IA tão poderoso é sua CPU.
Você pode esperar uma comparação entre os processadores AMD e Intel. Sim, esses dois líderes do setor estão na vanguarda da fabricação de processadores, com a linha Intel® Xeon® de 5ª geração (e já anunciada 6ª geração) e AMD EPYC™ 8004/9004 representando o auge dos processadores CISC baseados em x86.
Se você procura excelente desempenho combinado com um ecossistema maduro e comprovado, selecionar produtos top de linha desses fabricantes de chips seria a escolha certa. Se o orçamento for uma preocupação, considere versões mais antigas dos processadores Intel® Xeon® e AMD EPYC™.
Mesmo CPUs de desktop dos modelos mais avançados da AMD ou Nvidia seriam um bom ponto de partida para trabalhar com IA se sua carga de trabalho não exigir um grande número de núcleos e recursos multithreading. Na prática, quando se trata de modelos de linguagem, a escolha do acelerador gráfico ou da quantidade de RAM instalada no servidor terá um impacto maior do que a escolha entre os tipos de CPU.
Embora alguns modelos, como o 8x7B da Mixtral, possam produzir resultados comparáveis ao poder computacional dos núcleos tensores encontrados em placas de vídeo quando executados em uma CPU, eles também requerem 2 a 3 vezes mais RAM do que um pacote CPU + GPU. Por exemplo, um modelo que funciona com 16 GB de RAM e 24 GB de memória de vídeo GPU pode exigir até 64 GB de RAM quando executado apenas na CPU.
Além de AMD e Intel, existem outras opções disponíveis. Podem ser soluções baseadas na arquitetura ARM, como NVIDIA Grace™, que combina núcleos ARM com recursos patenteados da NVIDIA, ou Ampere Altra™.
A GPU desempenha hoje um papel cada vez mais importante nas operações de servidores de IA. Ele serve como um acelerador que ajuda a CPU a processar solicitações para redes neurais com muito mais rapidez e eficiência. A GPU pode dividir tarefas em segmentos menores e executá-las simultaneamente usando computação paralela ou núcleos especializados. Por exemplo, os núcleos tensores da NVIDIA fornecem desempenho muito superior em cálculos de ponto flutuante de 8 bits (FP8) com Transformer Engine, Tensor Float 32 (TF32) e FP16, mostrando excelentes resultados em computação de alto desempenho (HPC).
Isto é particularmente perceptível não durante a inferência (operação da rede neural), mas durante o treinamento, como por exemplo, para modelos com FP32, esse processo pode levar várias semanas ou até meses.
Para restringir seus critérios de pesquisa, considere as seguintes questões:
Durante o treinamento, o modelo de IA processa uma grande quantidade de dados com bilhões ou até trilhões de parâmetros. Ele ajusta os “pesos” de seus algoritmos até que possa gerar resultados corretos de forma consistente.
No modo de inferência, a IA depende da “memória” do seu treinamento para responder a novos dados de entrada no mundo real. Ambos os processos requerem recursos computacionais significativos, por isso GPUs e módulos de expansão são instalados para aceleração.
As unidades de processamento gráfico (GPUs) são projetadas especificamente para treinar modelos de aprendizagem profunda com núcleos e mecanismos especializados que podem otimizar esse processo. Por exemplo, o H100 da NVIDIA com 8 núcleos de GPU oferece mais de 32 petaflops de desempenho no aprendizado profundo do FP8. Cada H100 contém núcleos tensores de quarta geração usando um novo tipo de dados chamado FP8 e um “Transformer Engine” para otimização. Recentemente, a NVIDIA apresentou a próxima geração de suas GPUs, a B200, que será ainda mais poderosa.
Uma forte alternativa às soluções AMD é o AMD Instinct™ MI300X. Sua característica é uma grande capacidade de memória e alta largura de banda de dados, o que é importante para aplicações de IA generativa baseadas em inferência, como modelos de linguagem grande (LLM). A AMD afirma que suas GPUs são 30% mais eficientes que as soluções da NVIDIA, mas possuem software menos maduro.
Se você precisar sacrificar um pouco de desempenho para caber nas restrições orçamentárias ou se seu conjunto de dados para treinamento de IA não for muito grande, você pode considerar outras opções da AMD e NVIDIA. Para tarefas de inferência ou quando a operação contínua no modo 24 horas por dia, 7 dias por semana para treinamento não é necessária, soluções de "consumidor" baseadas em Nvidia RTX 4090 ou RTX 3090 podem ser adequadas.
Se você busca estabilidade em cálculos de longo prazo para treinamento de modelos, pode considerar as placas RTX A4000 ou A5000 da NVIDIA. Embora o H100 com barramento PCIe possa oferecer uma solução mais poderosa com desempenho de 60-80% dependendo das tarefas, o RTX A5000 é uma opção mais acessível e pode ser uma escolha ideal para determinadas tarefas (como trabalhar com modelos como 8x7B).
Para soluções de inferência mais exóticas, você pode considerar placas como AMD Alveo™ V70, NVIDIA A2/L4 Tensor Core e Qualcomm® Cloud AI 100. Em um futuro próximo, a AMD e a NVIDIA planejam superar o desempenho da GPU Gaudi 3 da Intel no mercado de treinamento de IA .
Considerando todos esses fatores e levando em consideração a otimização de software para HPC e IA, recomendamos servidores com processadores Intel Xeon ou AMD Epyc e GPUs da NVIDIA. Para tarefas de inferência de IA, você pode usar GPUs de RTX A4000/A5000 a RTX 3090, enquanto para treinamento e trabalho em redes neurais multimodais, é aconselhável alocar orçamentos para soluções de RTX 4090 a A100/H100.
Alugue servidores GPU com implantação instantânea ou um servidor com umconfiguração personalizada com placas NVIDIA Tesla H100/H100 80Gb ou RTX A5000/A4000 de nível profissional.Servidores GPU com placas de jogo RTX4090 também estão disponíveis.
Esta história foi distribuída pelo programa Business Blogging do HackerNoon. Saiba mais sobre o programa