Современное предприятие определяет себя через свои данные. Для этого требуется инфраструктура данных для ИИ/МО, а также инфраструктура данных, которая является основой для современного Datalake, способного поддерживать бизнес-аналитику, аналитику данных и науку о данных. Это верно, если они отстают, начинают или используют ИИ для углубленного понимания. В обозримом будущем именно так будут восприниматься предприятия. Существует несколько измерений или этапов более крупной проблемы того, как ИИ выходит на рынок на предприятии. К ним относятся прием данных, преобразование, обучение, вывод, производство и архивирование, причем данные совместно используются на каждом этапе. По мере масштабирования этих рабочих нагрузок сложность базовой инфраструктуры данных ИИ возрастает. Это создает потребность в высокопроизводительной инфраструктуре при минимизации совокупной стоимости владения (TCO).
MinIO создала комплексный проект инфраструктуры данных для поддержки exascale AI и других крупномасштабных рабочих нагрузок озера данных. Он называется MinIO DataPod. Единица измерения, которую он использует, составляет 100 ПиБ. Почему? Потому что реальность такова, что это распространено сегодня на предприятии. Вот несколько кратких примеров:
Североамериканский производитель автомобилей, имеющий почти эксабайт видеоматериалов об автомобилях
Немецкий производитель автомобилей с более чем 50 ПБ автомобильной телеметрии
Биотехнологическая фирма с более чем 50 ПБ биологических, химических и пациентоориентированных данных
Компания по кибербезопасности с более чем 500 ПБ лог-файлов
Компания потокового мультимедиа с более чем 200 ПБ видео
Оборонный подрядчик, имеющий более 80 ПБ геопространственных, журнальных и телеметрических данных с самолетов
Даже если они не достигли 100 ПБ сегодня, они достигнут этого в течение нескольких кварталов. Средняя фирма растет на 42% в год, фирмы, ориентированные на данные, растут вдвое быстрее, если не больше.
Эталонная архитектура MinIO Datapod может быть сложена различными способами для достижения практически любого масштаба - на самом деле у нас есть клиенты, которые построили на основе этого чертежа - вплоть до эксабайта и с несколькими поставщиками оборудования. MinIO DataPod предлагает сквозную архитектуру, которая позволяет администраторам инфраструктуры развертывать экономически эффективные решения для различных рабочих нагрузок ИИ и МО. Вот обоснование нашей архитектуры.
Рабочие нагрузки ИИ, особенно генеративный ИИ, по своей сути требуют графических процессоров для вычислений. Это впечатляющие устройства с невероятной пропускной способностью, полосой пропускания памяти и возможностями параллельной обработки. Чтобы идти в ногу с графическими процессорами, которые становятся все быстрее и быстрее, требуется высокоскоростное хранилище. Это особенно актуально, когда данные для обучения не помещаются в память, а циклы обучения должны делать больше вызовов к хранилищу. Более того, предприятиям требуется не только производительность, им также нужна безопасность, репликация и отказоустойчивость.
Требования к корпоративному хранилищу требуют, чтобы архитектура полностью разделяла хранилище и вычисления. Это позволяет масштабировать хранилище независимо от вычислений, и, учитывая, что рост хранилища обычно на один или несколько порядков больше роста вычислений, этот подход обеспечивает наилучшую экономичность за счет превосходного использования емкости.
Сетевая инфраструктура стандартизировала каналы связи с пропускной способностью 100 гигабит в секунду (Гбит/с) для развертывания рабочих нагрузок ИИ. Современные накопители NVMe обеспечивают пропускную способность в среднем 7 ГБ/с, что делает пропускную способность сети между серверами хранения и вычислительными серверами GPU узким местом для производительности выполнения конвейера ИИ.
Решение этой проблемы с помощью сложных сетевых решений, таких как Infiniband (IB), имеет реальные ограничения. Мы рекомендуем предприятиям использовать существующие стандартные решения на базе Ethernet (например, HTTP через TCP), которые работают из коробки для доставки данных с высокой пропускной способностью для графических процессоров по следующим причинам:
Не совпадение, что инфраструктура данных ИИ в публичных облаках полностью построена на основе хранилищ объектов. Не совпадение и то, что каждая крупная базовая модель обучалась на хранилище объектов. Это следствие того, что POSIX слишком болтлив, чтобы работать с масштабом данных, требуемым ИИ, — несмотря на то, что хор устаревших файловых систем будет утверждать.
Та же архитектура, которая обеспечивает ИИ в публичном облаке, должна применяться к частному облаку и, очевидно, гибридному облаку. Объектные хранилища отлично справляются с обработкой различных форматов данных и больших объемов неструктурированных данных и могут легко масштабироваться для размещения растущих данных без ущерба для производительности. Их возможности плоского пространства имен и метаданных обеспечивают эффективное управление данными и их обработку, что имеет решающее значение для задач ИИ, требующих быстрого доступа к большим наборам данных.
По мере развития высокоскоростных графических процессоров и стандартизации пропускной способности сети на уровне 200/400/800 Гбит/с и выше современные хранилища объектов станут единственным решением, соответствующим соглашениям об уровне обслуживания (SLA) по производительности и масштабу рабочих нагрузок ИИ.
Мы знаем, что GPU — звезда шоу, и что они являются аппаратным обеспечением. Но даже Nvidia скажет вам, что секретный соус — это CUDA. Однако, если выйти за рамки чипа, то мир инфраструктуры все больше становится программно-определяемым. Нигде это не так верно, как в отношении систем хранения данных. Программно-определяемые решения для хранения данных необходимы для масштабируемости, гибкости и интеграции с облаком, превосходя традиционные модели на основе устройств по следующим причинам:
Совместимость с облаком : программно-определяемое хранилище согласуется с облачными операциями, в отличие от устройств, которые не могут работать в нескольких облаках.
Контейнеризация : устройства невозможно контейнеризировать, что приводит к потере преимуществ облачных вычислений и препятствует оркестровке Kubernetes.
Гибкость оборудования : программно-определяемое хранилище поддерживает широкий спектр оборудования, от периферийного до центрального, подстраиваясь под различные ИТ-среды.
Адаптивная производительность : программно-определяемое хранилище обеспечивает непревзойденную гибкость, эффективно управляя различными объемами и потребностями в производительности на разных чипсетах.
В масштабе экзабайта решающее значение имеют простота и облачная операционная модель. Объектное хранилище, как программно-определяемое решение, должно без проблем работать на стандартном оборудовании (COTS) и любой вычислительной платформе, будь то «голое железо», виртуальные машины или контейнеры.
Изготовленные на заказ аппаратные устройства для хранения объектов часто компенсируют плохо спроектированное программное обеспечение дорогостоящим оборудованием и сложными решениями, что приводит к высокой совокупной стоимости владения (TCO).
Корпоративные клиенты, использующие MinIO для инициатив ИИ, создают инфраструктуру данных масштаба экзабайта как повторяющиеся единицы по 100PiB. Это помогает администраторам инфраструктуры упростить процесс развертывания, обслуживания и масштабирования, поскольку данные ИИ растут экспоненциально в течение определенного периода времени. Ниже приведена спецификация материалов (BOM) для построения инфраструктуры данных масштаба 100PiB.
Компонент | Количество |
---|---|
Общее количество стоек | 30 |
Общее количество серверов хранения | 330 |
Общее количество серверов хранения на стойку | 11 |
Общее количество коммутаторов TOR | 60 |
Общее количество переключателей Spine | 10 |
Размер полосы кода стирания | 10 |
Четность кода стирания | 4 |
Компонент | Описание | Количество |
---|---|---|
Корпус стойки | Стойка слотов 42U/45U | 1 |
Сервер хранения | Форм-фактор 2U | 11 |
Коммутаторы Top Of Rack | Коммутатор уровня 2 | 2 |
Переключатель управления | Комбинированный слой 2 и слой 3 | 1 |
Сетевые кабели | Кабели АОС | 30-40 |
Власть | Двойной блок питания с RPDU | 17кВт - 20кВт |
Компонент | Спецификация |
---|---|
Сервер | 2U, одинарная розетка |
Процессор | 64 ядра, 128 * линий PCIe 4.0 |
Память | 256 ГБ |
Сеть | Двойной порт, 200gbe NIC |
Отсеки для дисков | 24 2,5-дюймовых накопителя U.2 NVMe с возможностью горячей замены |
Диски | 30 ТБ * 24 NVMe |
Власть | Резервные блоки питания мощностью 1600 Вт |
Общая сырая мощность | 720 ТБ |
Dell : PowerEdge R7615 стоечный сервер
HPE : HPE ProLiant DL345 Gen11
Supermicro : Сервер A+ 2114S-WN24RT
Компонент | Спецификация | |
---|---|---|
Коммутатор верхней части стойки (TOR) | 32 * 100GbE QSFP 28 портов | |
Переключатель позвоночника | 64 * 100GbE QSFP 28 портов | |
Кабель | 100G QSFP 28 AOC | |
Власть | 500 Вт на переключатель | |
MinIO проверила эту архитектуру с несколькими клиентами и ожидает, что другие увидят следующую среднюю цену за терабайт в месяц. Это средняя розничная цена, а фактическая цена может варьироваться в зависимости от конфигурации и отношений с поставщиком оборудования.
Шкала | Цена на оборудование для хранения данных **(за ТБ/месяц)** | Цена на программное обеспечение MinIO ** (за ТБ в месяц)** |
---|---|---|
100ПиБ | 1,50$ | 3,54$ |
Готовые аппаратные решения для ИИ от конкретного поставщика приведут к высокой совокупной стоимости владения и не масштабируются с точки зрения экономики единицы для крупных инициатив ИИ по обработке данных в масштабе эксабайт.
Настройка инфраструктуры данных в масштабе экзабайта при одновременном достижении целей TCO для всех рабочих нагрузок AI/ML может быть сложной и трудновыполнимой. Проект инфраструктуры DataPOD от MinIO упрощает и упрощает для администраторов инфраструктуры настройку необходимого готового оборудования с помощью масштабируемого, производительного и экономически эффективного хранилища объектов предприятия MinIO, совместимого с S3, что приводит к сокращению общего времени выхода на рынок и ускорению получения прибыли от инициатив ИИ в организациях в рамках корпоративной среды.