paint-brush
Принципы, которые следует учитывать при создании современного озера данных для вашей инфраструктуры искусственного интеллектак@minio
12,626 чтения
12,626 чтения

Принципы, которые следует учитывать при создании современного озера данных для вашей инфраструктуры искусственного интеллекта

к MinIO5m2024/02/06
Read on Terminal Reader
Read this story w/o Javascript

Слишком долго; Читать

Игра с искусственным интеллектом — это масштабная производительность, и для этого требуется правильный фундамент. Вот как следует проявить разумность при создании современного озера данных и заложить правильную основу.

People Mentioned

Mention Thumbnail
featured image - Принципы, которые следует учитывать при создании современного озера данных для вашей инфраструктуры искусственного интеллекта
MinIO HackerNoon profile picture
0-item


На фоне стремления к внедрению ИИ существует важнейшая и часто упускаемая из виду истина: успех любой инициативы в области ИИ неразрывно связан с качеством, надежностью и производительностью базовой инфраструктуры данных. Если у вас нет подходящего фундамента, вы ограничены в том, что вы можете построить и, следовательно, в том, чего вы можете достичь.


Ваша инфраструктура данных — это основа, на которой строится вся ваша инфраструктура искусственного интеллекта. Здесь данные собираются, хранятся, обрабатываются и преобразуются. Модели обучения, использующие контролируемое, неконтролируемое обучение и обучение с подкреплением, требуют решений для хранения данных, способных обрабатывать структурированные данные, например хранилища данных. С другой стороны, если вы обучаете модели большого языка (LLM), вам необходимо управлять неструктурированными данными — документами в их необработанном и обработанном виде.


Современное озеро данных, или Lakehouse, является основой для обоих этих разных вариантов ИИ. Современное Datalake наполовину представляет собой хранилище данных, наполовину озеро данных и использует объектное хранилище для всего. Совсем недавно мы стали свидетелями роста популярности форматов открытых столов. Форматы открытых таблиц (OTF), такие как Apache Iceberg, Apache Hudi и Delta Lake, упрощают использование объектного хранилища в хранилище данных.


Озеро данных


В оставшейся части статьи будет рассмотрено, как использовать характеристики Modern Datalake, которые отличают его от традиционных решений, таких как проприетарные хранилища данных и устройства. Чтобы создать основу для инфраструктуры искусственного интеллекта, вам необходимо следующее:


  • Дезагрегирование вычислений и систем хранения данных
  • Масштабировать (не увеличивать)
  • Программно определяемый
  • Облачный родной
  • Товарное оборудование


Если мы согласимся с вышеизложенным, то возникнет ряд лучших практик, сосредоточенных на двух областях эффективности. В случае его внедрения современный Datalake будет одновременно быстрым и масштабируемым. Эти лучшие практики включают в себя:


  • Оптимизация цены и производительности привода
  • Подключите высокоскоростную сеть

Дезагрегирование вычислительных ресурсов и систем хранения данных

Дезагрегирование вычислений и хранилища в вашей инфраструктуре данных означает, что для вычислений и хранения используются отдельные ресурсы. Это контрастирует с традиционными решениями для хранения данных, в которых все упаковано в один сервер или, что еще хуже, в устройство. Однако современные озера данных выводят дезагрегацию на другой уровень. Если бы у озера данных и хранилища данных были совершенно разные требования к хранилищу, мы могли бы использовать два отдельных экземпляра хранилища объектов, как показано ниже.


Минио Даталейк


Кроме того, если хранилищу данных необходимо поддерживать рабочие нагрузки, требующие конфликтующих конфигураций, вы можете использовать более одного механизма обработки. Это показано ниже.


Поддержка рабочих нагрузок


Компонуемая инфраструктура позволяет независимо масштабировать вычислительные ресурсы и ресурсы хранения. Это означает, что вы можете выделить больше ресурсов той части вашей инфраструктуры, которая в них нуждается больше всего, вместо того, чтобы одновременно обновлять вычислительные ресурсы и хранилище. Это приводит к экономичному масштабированию, поскольку вы инвестируете только в необходимые ресурсы.

Масштабирование не вверх

Рабочие нагрузки ИИ требуют большого объема данных, часто распределяются между несколькими процессорами или графическими процессорами, используют большие вычислительные мощности для обучения и требуют вывода в реальном времени. Масштабирование, а не увеличение, помогает оптимизировать производительность и обеспечить работу высокоскоростных сетей.


Масштабирование и масштабирование — это два разных подхода к увеличению емкости и производительности вашей инфраструктуры данных. Однако масштабирование оказывается более жизнеспособным подходом по мере развития платформ кластеризации, таких как Kubernetes, и все большего количества решений, стремящихся быть облачными. Масштабирование в дезагрегированной инфраструктуре обеспечивает:


Высокая доступность и отказоустойчивость . Если один узел занят, другой узел может принять новый запрос, сокращая время ожидания и увеличивая пропускную способность. В случае сбоя одного узла рабочая нагрузка может быть перенесена на другие узлы, что сокращает время простоя и обеспечивает непрерывность работы.


Производительность и гибкость . Масштабирование может повысить производительность за счет распределения рабочих нагрузок между несколькими узлами или серверами для обработки больших объемов данных и большего количества одновременных запросов. Масштабирование также является более гибким, поскольку вы можете добавлять или удалять узлы по мере необходимости, что упрощает адаптацию к меняющимся рабочим нагрузкам или сезонным изменениям.


Эксплуатационная эффективность и эффективность использования ресурсов . Обслуживание и обновления упрощаются при горизонтальном масштабировании. Вместо того, чтобы отключать критически важную систему для обновления, вы можете выполнять обслуживание отдельных узлов хранения или вычислительных узлов, не нарушая работу всей инфраструктуры.

Cloud Native + программно-определяемый

Последним компонентом использования Modern Datalake для создания прочной основы для искусственного интеллекта является использование облачного программно-определяемого подхода.


Контейнеры, такие как Docker, и инструменты оркестрации контейнеров, такие как Kubernetes, делают возможным создание облачных архитектур. Все компоненты Modern Datalake работают в контейнерах, работающих в Kubernetes. Таким образом, Modern Datalake является облачным.


«Программно-определяемый» относится к подходу, при котором программное обеспечение контролирует и управляет конфигурацией, функциональностью и поведением аппаратных компонентов, часто в контексте компьютерных систем и сетей. Это строительный блок инфраструктуры как движение кода, в котором упор делается на умное программное обеспечение и быстрое оборудование. Программно-определяемое хранилище абстрагирует ресурсы хранения и управляет ими с помощью программного обеспечения, упрощая распределение и управление емкостью хранилища между различными устройствами и носителями.

Создан для скорости: NVMe и 100GbE

Чтобы в полной мере воспользоваться преимуществами стандартного аппаратного обеспечения и программно-определяемой архитектуры, вам нужны еще два ключевых компонента. Первый — накопители NVMe. Современные, ориентированные на производительность рабочие нагрузки, случайный характер операций чтения/записи, рост количества мелких объектов и снижение цен на твердотельные накопители — все это благоприятствует Ориентированная на NVMe архитектура . Посчитайте, аванс может быть выше, а совокупная стоимость владения будет ниже.


Второй компонент — сеть 100GbE. В программно-определяемом мире сеть оказывается узким местом во многих конфигурациях даже при 100GbE. Вот некоторые из этих сценариев:


Интенсивность обработки данных . Рабочие нагрузки ИИ часто обрабатывают огромные наборы данных, такие как изображения, видео, текст на естественном языке и данные датчиков. Высокоскоростные сети могут быстро передавать эти большие наборы данных между устройствами хранения и обработки, уменьшая узкие места при передаче данных.


Распределенные вычисления . Многие задачи ИИ включают распределенные вычисления на нескольких процессорах или графических процессорах. Высокоскоростные сети обеспечивают эффективную связь и обмен данными между этими устройствами, обеспечивая эффективную параллельную работу вычислительных кластеров.


Обучение моделей . Обучение моделей глубокого обучения, особенно LLM, таких как трансформаторы или сверточные нейронные сети, требует большого количества данных и вычислительной мощности. Высокоскоростная сеть обеспечивает более быструю загрузку данных и синхронизацию между распределенными графическими процессорами, что может значительно ускорить время обучения.


Вывод в реальном времени . Сети с низкой задержкой и высокой пропускной способностью необходимы для быстро реагирующих приложений, включающих искусственный интеллект. Высокоскоростная сеть обеспечивает минимальную задержку между запросом пользователя и ответом модели.

Основные понятия

Придерживаясь следующих принципов: разделение вычислительных ресурсов и систем хранения, масштабирование, а не повышение, простое, быстрое оборудование и интеллектуальное облачное программное обеспечение, предприятие может построить современное озеро данных, которое имеет правильную основу для удовлетворения этих требований и продвижения ваших инициатив в области искусственного интеллекта. вперед.


Нельзя построить здание на плохом фундаменте, спросите у древних египтян. Игра с искусственным интеллектом — это масштабная производительность, и для этого требуется правильный фундамент. Экономить на фундаменте — значит накапливать технический долг, который через несколько минут разрушит вашу башню Дженга. Стройте с умом, закладывайте фундамент.