Что мы узнали о будущем AI-чипов, отслеживая последние анонсы NVIDIA, общаясь с отраслевыми экспертами, просматривая новости и анализы.
Изучение чипов искусственного интеллекта было не только времяпрепровождением, но и популярной темой в статьях Orchestrate all the Things . В 2023 году мы чувствовали, что несколько отстали в этом плане… но опять же, имеет ли это значение? Разве NVIDIA по-прежнему безраздельно властвует – оценка в 1 триллион , доля рынка более 80%, H100 продаются как горячий хлеб, бьют все рекорды и все такое? Ну да, но... не так быстро.
Получив возможность выбрать CPO ИИ в HPE, мозг Эвана Спаркса в эпизоде AI Chips нашей серии «Что нового в ИИ» с О'Рейли , посидеть на паре пресс-конференций NVIDIA и просмотреть массу новостей и Чтобы вам не пришлось этого делать, у нас есть более детальная информация о чипах ИИ в 2024 году. Вот что происходит и как это может повлиять на развитие ИИ в будущем.
Начнем с новостей. Вчера NVIDIA объявила свои результаты по последним материалам MLPerf . MLPerf является фактическим стандартом в тестах рабочих нагрузок ИИ, и по мере появления новых рабочих нагрузок ИИ MLPerf продолжает добавлять к нему пакет . С появлением в прошлом году генеративного искусственного интеллекта компания MLPerf добавила в свой арсенал рабочие нагрузки Gen AI.
Ранее в MLPerf был добавлен тест, который использует часть полного набора данных GPT-3 для обучения модели большого языка (LLM), а последним дополнением к MLPerf является тест обучения, основанный на модели преобразования текста в изображение Stable Diffusion. NVIDIA справилась с обоими этими задачами, а также с некоторыми другими. Intel и Google также могут похвастаться большими успехами в обучении искусственному интеллекту .
NVIDIA Eos — суперкомпьютер искусственного интеллекта, оснащенный колоссальными 10 752 графическими процессорами NVIDIA H100 Tensor Core и сетью NVIDIA Quantum-2 InfiniBand , — завершил обучающий тест на основе модели GPT-3 со 175 миллиардами параметров, обученных на одном миллиарде токенов, всего за 3,9 минуты.
Это почти в 3 раза больше по сравнению с 10,9 минутами, рекордом, установленным NVIDIA, когда тест был представлен менее шести месяцев назад. По экстраполяции Eos теперь может обучить этот LLM всего за восемь дней, что в 73 раза быстрее, чем предыдущая современная система, использующая 512 графических процессоров A100. Что касается теста Stable Diffusion, то на его выполнение 1024 графическим процессорам NVIDIA Hopper потребовалось 2,5 минуты.
Но это не все. Как отмечает NVIDIA, компания была единственной, кто провел все тесты MLPerf, продемонстрировав самую высокую производительность и наибольшее масштабирование в каждом из девяти тестов. В MLPerf HPC, отдельном тесте для моделирования с помощью искусственного интеллекта на суперкомпьютерах, графические процессоры H100 показали вдвое большую производительность, чем графические процессоры NVIDIA A100 с тензорными ядрами в последнем раунде HPC .
Теперь давайте начнем распаковывать эти результаты. Первое, на что следует обратить внимание, — это различные размеры масштаба. Когда Eos был впервые анонсирован , в нем было 4608 H100. Сегодня его насчитывает 10 752. Но NVIDIA не единственная, кто использует масштаб и производительность Eos.
Как отмечает компания, полнофункциональную платформу инноваций в ускорителях, системах и программном обеспечении использовали в последнем раунде как Eos, так и Microsoft Azure. Azure не представила результаты во всех категориях, но в тесте GPT-3, где были представлены обе категории, результаты были практически идентичными. Экземпляр Azure также коммерчески доступен.
Более того, эффективность масштабирования Eos была выше 80%. В идеале удвоение количества графических процессоров приведет к удвоению производительности. Получить 80% от этого в таком масштабе — настоящий подвиг. NVIDIA объяснила это своим стеком — сочетанием аппаратного, программного обеспечения и сети.
Одним из выводов здесь является то, что « Закон Дженсена », прозвище, используемое для описания производительности и масштабируемости, которых достигают графические процессоры NVIDIA, похоже, все еще действует. Но, возможно, реальный вопрос в том, кого это должно волновать и почему.
С таким масштабированием обычно не может справиться никто, кроме гиперскейлеров, даже если бы они этого захотели. Графические процессоры NVIDIA H100 находятся в дефиците, несмотря на то, что каждый из них стоит около 30 тысяч долларов. Как отмечается в докладе «Состояние ИИ в 2023 году» , организации находятся в гонке по накоплению запасов. Но есть и хорошие новости.
Во-первых, чипы NVIDIA имеют удивительно длительный срок службы: 5 лет от запуска до пика популярности. NVIDIA V100, выпущенный в 2017 году, по-прежнему является наиболее часто используемым чипом в исследованиях искусственного интеллекта. Это говорит о том, что A100, выпущенные в 2020 году, могут достичь своего пика в 2026 году, когда V100, скорее всего, достигнет своего дна.
Кроме того, сомнительно, что большинству организаций потребуется обучение новой модели искусственного интеллекта с нуля. Большинство организаций, вероятно, либо будут использовать только предварительно обученные модели Gen AI, упакованные под капотом для работы приложений, либо предпочтут использовать что-то вроде ChatGPT поверх API. Оба этих варианта требуют ровно нуля графических процессоров.
Обратной стороной, конечно, является то, что оба этих варианта также не обеспечивают нулевую автономность и безопасность. Но даже для организаций, решивших развивать собственный искусственный интеллект поколения, обучение чему-то с нуля, вероятно, не является наиболее целесообразным для большинства. Взять готовую модель Gen AI с открытым исходным кодом и настроить ее с помощью точной настройки или RAG (Retrival Augmented Generation) — это намного быстрее и проще и требует лишь небольшой части вычислительных ресурсов.
В любом случае, долгосрочная перспектива заключается в том, что расширение масштабов, как это делает NVIDIA, делает возможным создание более мощных моделей ИИ за более короткое время. Мы можем ожидать, что результаты будут постепенно расти, будь то более мощные модели, подобные GPT, модели с открытым исходным кодом или производные приложения.
Но здесь необходимо рассмотреть еще один набор вопросов. Полезно ли доминирование NVIDIA для отрасли? Может ли и должно ли это продолжаться? Чем занимается конкуренция? И почему остальной мир должен волноваться?
Как я и другие отмечали, доминирование NVIDIA основано не только на ее оборудовании, но и на всем ее стеке. Более того, как отмечает аналитик Дилан Патель , NVIDIA также использует ряд бизнес-тактик в отношении управления цепочками поставок, стратегий продаж и комплектации, которые немногие другие способны повторить. Но это не значит, что конкуренция простаивает.
Что касается суперкомпьютеров и масштабирования, NVIDIA Eos определенно не единственная игра в городе. Как упомянул Спаркс, Intel Aurora , имеющая 60 000 собственных графических процессоров Ponte Vecchio, скоро выйдет в сеть. Кроме того, в мире существует множество других суперкомпьютеров, оснащенных различными микросхемами и архитектурами от разных производителей, и все они способны выполнять высокопроизводительные арифметические операции с плавающей запятой.
У NVIDIA есть преимущество, поскольку она первой сосредоточилась на рабочих нагрузках искусственного интеллекта, но у каждого из ее амбициозных конкурентов есть план действий, который нужно догнать. До недавнего времени мы думали, что CUDA, программный уровень NVIDIA, является самым большим рвом компании.
Как отмечает Патель , многие платформы машинного обучения приходили и уходили, но большинство из них в значительной степени полагались на использование NVIDIA CUDA и лучше всего работали на графических процессорах NVIDIA. Однако с появлением PyTorch 2.0 и Triton от OpenAI доминирующее положение NVIDIA в этой области, главным образом из-за ее программного рва, разрушается. Эти платформы облегчают конкурентам NVIDIA создание собственного стека.
Конечно, как добавляет Патель в другой заметке, описывающей собственный план NVIDIA оставаться впереди всех , NVIDIA не сидит сложа руки. Хотя NVIDIA чрезвычайно успешна, она также является одной из самых параноидальных фирм в отрасли, а ее генеральный директор Дженсен Хуанг олицетворяет дух Энди Гроува. NVIDIA не случайно подчеркнула, что в ее команде сейчас работает вдвое больше инженеров-программистов, чем инженеров по аппаратному обеспечению.
Успех порождает самоуспокоенность. Самоуспокоенность порождает неудачу. Выживают только параноики.
Энди Гроув
Патель доходит до того, что подвергает сомнению некоторые тактики NVIDIA, по поводу которых у нас нет мнения. Что мы можем сказать, так это то, что даже несмотря на то, что неустанность NVIDIA не позволяет им успокаиваться, держать долю рынка в руках одного поставщика в течение очень долгого времени не очень здорово. Вероятно, всем будет полезно увидеть, как конкуренция догоняет их.
На данный момент гиперскейлеры, действующие конкуренты, такие как AMD и Intel, а также группа новичков работают над своими собственными чипами искусственного интеллекта для 2024 года и далее. По оценкам, NVIDIA имеет 1000-процентную маржу по H100 , которых также не хватает. Неудивительно, что каждый хочет участвовать в делах и/или развивать свою автономию. Для потребителей усиление конкуренции будет означать больший выбор и автономность, а также лучшие характеристики и цены .
Однако на данный момент NVIDIA по-прежнему является бесспорным лидером – хотя и с парочкой сносок. Когда его попросили напрямую сравнить результаты NVIDIA MLPerf с результатами Intel Gaudi, например, директор по маркетингу продуктов группы ускоренных вычислений NVIDIA Дэйв Сальватор указал на две вещи. Во-первых, работы Гауди были далеки от масштаба 10 тысяч. Во-вторых, результаты NVIDIA были примерно в 2 раза лучше по сравнению с нормализованными показателями. Однако другие, такие как аналитик Карл Фройнд, считают Гауди2 заслуживающей доверия альтернативой .
Сноска №1: MLPerf — широко признанный эталон в отрасли. Однако, как и все тесты, он не идеален. Как отметил Спаркс, в MLPerf отсутствует один важный элемент — это цена. Хотя понятно, что включить цены в любой тест сложно по ряду причин, это также означает, что результаты необходимо помещать в контекст. Например, согласно анализу Патрика Кеннеди, Intel Gaudi2 имеет в 4 раза лучшую производительность на доллар, чем NVIDIA H100 .
Сноска 2. Производительность сама по себе редко является единственным показателем, имеющим значение для потенциальных покупателей. Чаще всего важнее всего соотношение производительности и стоимости: сколько стоит выполнение определенной операции в течение определенного периода времени. Чтобы получить этот показатель, необходимо учитывать общую стоимость владения (TCO) для чипов искусственного интеллекта. Это сложная задача, требующая глубокого опыта.
Большую часть совокупной стоимости владения чипами искусственного интеллекта составляет логический вывод, то есть использование обученных моделей искусственного интеллекта в производстве. Обучение модели ИИ обычно является дорогостоящим и сложным занятием. Вывод может быть проще по сравнению с этим, но обычно он составляет большую часть срока службы и эксплуатационных затрат модели.
Рабочие нагрузки обучения и вывода имеют разные характеристики. Это означает, что система, которая хорошо справляется с обучением, не обязательно так же хорошо справляется с выводами. Показательный пример: когда Сальватора попросили прокомментировать работу Эос по выводам, он направил участников на будущие брифинги. Тем временем люди строят новые системы, ориентированные на умозаключения , в то время как другие пытаются максимально использовать существующие .
NVIDIA только что продемонстрировала, что ее лидерство не собирается ослабевать в ближайшем будущем. Однако это не обязательно хорошо для остального мира. Конкуренция существует, и шанс догнать ее тоже есть, каким бы далеким он ни казался на данный момент. Чипы искусственного интеллекта в 2024 году будут предметом пристального внимания. В любом случае, то, как результаты тестов отражаются на фактическом влиянии, удобстве использования и совокупной стоимости владения для организаций, стремящихся разрабатывать и использовать ИИ, не является линейным.
Истории о том, как технологии, данные, искусственный интеллект и средства массовой информации перетекают друг в друга, формируя нашу жизнь. Анализ, эссе, интервью и новости. Средне-длинная форма, 1-3 раза в месяц.
Также опубликовано здесь .