С развитием генеративного искусственного интеллекта и его практического применения создание серверов искусственного интеллекта стало актуальным для различных отраслей — от автомобилестроения до медицины, а также для образовательных и государственных учреждений.
Рассмотрим наиболее важные компоненты, влияющие на выбор сервера искусственного интеллекта: центральный процессор (ЦП) и графический процессор (ГП). Выбор подходящих процессоров и видеокарт позволит вам настроить высокопроизводительную платформу и значительно ускорить вычисления, связанные с искусственным интеллектом, на выделенном или виртуальном (VPS) сервере.
Аренда GPU-серверов с мгновенным развертыванием или сервер спользовательская конфигурация с картами профессионального уровня NVIDIA Tesla H100/H100 80Gb или RTX A5000/A4000.GPU-серверы с игровыми картами RTX4090 также доступны.
Процессор является основным «калькулятором», который получает команды от пользователей и выполняет «командные циклы», которые дадут желаемые результаты. Таким образом, большая часть того, что делает сервер искусственного интеллекта таким мощным, — это его процессор.
Вы могли бы ожидать сравнения процессоров AMD и Intel. Да, эти два лидера отрасли находятся в авангарде производства процессоров: линейка Intel® Xeon® 5-го поколения (и уже анонсированное 6-е поколение) и AMD EPYC™ 8004/9004 представляют собой вершину CISC-процессоров на базе x86.
Если вы ищете отличную производительность в сочетании с зрелой и проверенной экосистемой, выбор лучших продуктов от этих производителей микросхем будет правильным выбором. Если вас беспокоит бюджет, рассмотрите более старые версии процессоров Intel® Xeon® и AMD EPYC™.
Даже процессоры для настольных ПК от AMD или более дорогих моделей Nvidia могут стать хорошей отправной точкой для работы с ИИ, если ваша рабочая нагрузка не требует большого количества ядер и возможностей многопоточности. На практике, когда дело доходит до языковых моделей, выбор графического ускорителя или объема установленной в сервере оперативной памяти будет иметь большее влияние, чем выбор между типами процессоров.
Хотя некоторые модели, такие как 8x7B от Mixtral, могут выдавать результаты, сравнимые с вычислительной мощностью тензорных ядер видеокарт при работе на CPU, они также требуют в 2-3 раза больше оперативной памяти, чем связка CPU + GPU. Например, модели с 16 ГБ ОЗУ и 24 ГБ видеопамяти графического процессора может потребоваться до 64 ГБ ОЗУ при работе исключительно на ЦП.
Помимо AMD и Intel, доступны и другие варианты. Это могут быть решения на базе ARM-архитектуры, например NVIDIA Grace™, сочетающая ядра ARM с запатентованными функциями NVIDIA, или Ampere Altra™.
Сегодня графический процессор играет все более важную роль в работе серверов искусственного интеллекта. Он служит ускорителем, который помогает процессору обрабатывать запросы к нейронным сетям намного быстрее и эффективнее. Графический процессор может разбивать задачи на более мелкие сегменты и выполнять их одновременно, используя параллельные вычисления или специализированные ядра. Например, тензорные ядра NVIDIA обеспечивают на порядки более высокую производительность в 8-битных вычислениях с плавающей запятой (FP8) с помощью Transformer Engine, Tensor Float 32 (TF32) и FP16, показывая отличные результаты в высокопроизводительных вычислениях (HPC).
Особенно это заметно не при выводе (работе нейронной сети), а при обучении, как например для моделей с FP32, этот процесс может занять несколько недель или даже месяцев.
Чтобы сузить критерии поиска, ответьте на следующие вопросы:
Во время обучения модель ИИ обрабатывает большой объем данных с миллиардами или даже триллионами параметров. Он корректирует «веса» своих алгоритмов до тех пор, пока не сможет последовательно генерировать правильные результаты.
В режиме вывода ИИ полагается на «память» своего обучения, чтобы реагировать на новые входные данные в реальном мире. Оба процесса требуют значительных вычислительных ресурсов, поэтому для ускорения устанавливаются графические процессоры и модули расширения.
Графические процессоры (GPU) созданы специально для обучения моделей глубокого обучения со специализированными ядрами и механизмами, позволяющими оптимизировать этот процесс. Например, NVIDIA H100 с 8 ядрами графического процессора обеспечивает производительность более 32 петафлопс при глубоком обучении FP8. Каждый H100 содержит тензорные ядра четвертого поколения, использующие новый тип данных под названием FP8 и «Transformer Engine» для оптимизации. Недавно NVIDIA представила следующее поколение своих графических процессоров — B200, которое будет еще более мощным.
Сильной альтернативой решениям AMD является AMD Instinct™ MI300X. Его особенностью является большой объем памяти и высокая пропускная способность данных, что важно для приложений генеративного искусственного интеллекта на основе логических выводов, таких как большие языковые модели (LLM). AMD утверждает, что их графические процессоры на 30% более эффективны, чем решения NVIDIA, но имеют менее зрелое программное обеспечение.
Если вам нужно немного пожертвовать производительностью, чтобы уложиться в бюджетные ограничения, или если ваш набор данных для обучения ИИ не слишком велик, вы можете рассмотреть другие варианты от AMD и NVIDIA. Для задач вывода или когда не требуется непрерывная работа в режиме 24/7 для обучения, могут подойти «потребительские» решения на базе Nvidia RTX 4090 или RTX 3090.
Если вам нужна стабильность в долгосрочных вычислениях для обучения модели, вы можете рассмотреть карты NVIDIA RTX A4000 или A5000. Хотя H100 с шиной PCIe может предложить более мощное решение с производительностью 60-80% в зависимости от задач, RTX A5000 является более доступным вариантом и может стать оптимальным выбором для определенных задач (например, работы с моделями типа 8x7B).
В качестве более экзотических решений для вывода вы можете рассмотреть такие карты, как AMD Alveo™ V70, NVIDIA A2/L4 Tensor Core и Qualcomm® Cloud AI 100. В ближайшем будущем AMD и NVIDIA планируют превзойти графический процессор Intel Gaudi 3 на рынке обучения искусственному интеллекту. .
Учитывая все эти факторы и принимая во внимание оптимизацию программного обеспечения для HPC и AI, мы рекомендуем серверы с процессорами Intel Xeon или AMD Epyc и графическими процессорами NVIDIA. Для задач AI-инференса можно использовать графические процессоры от RTX A4000/A5000 до RTX 3090, а для обучения и работы с мультимодальными нейронными сетями целесообразно выделить бюджеты на решения от RTX 4090 до A100/H100.
Аренда GPU-серверов с мгновенным развертыванием или сервер спользовательская конфигурация с картами профессионального уровня NVIDIA Tesla H100/H100 80Gb или RTX A5000/A4000.GPU-серверы с игровыми картами RTX4090 также доступны.
Эта история была распространена в рамках программы бизнес-блогов HackerNoon. Узнать больше о программе