На фоне стремления к внедрению ИИ существует важнейшая и часто упускаемая из виду истина: успех любой инициативы в области ИИ неразрывно связан с качеством, надежностью и производительностью базовой инфраструктуры данных. Если у вас нет подходящего фундамента, вы ограничены в том, что вы можете построить и, следовательно, в том, чего вы можете достичь.  Ваша инфраструктура данных — это основа, на которой строится вся ваша инфраструктура искусственного интеллекта. Здесь данные собираются, хранятся, обрабатываются и преобразуются. Модели обучения, использующие контролируемое, неконтролируемое обучение и обучение с подкреплением, требуют решений для хранения данных, способных обрабатывать структурированные данные, например хранилища данных. С другой стороны, если вы обучаете модели большого языка (LLM), вам необходимо управлять неструктурированными данными — документами в их необработанном и обработанном виде.  Современное озеро данных, или Lakehouse, является основой для обоих этих разных вариантов ИИ. Современное Datalake наполовину представляет собой хранилище данных, наполовину озеро данных и использует объектное хранилище для всего. Совсем недавно мы стали свидетелями роста популярности форматов открытых столов. Форматы открытых таблиц (OTF), такие как Apache Iceberg, Apache Hudi и Delta Lake, упрощают использование объектного хранилища в хранилище данных.   В оставшейся части статьи будет рассмотрено, как использовать характеристики Modern Datalake, которые отличают его от традиционных решений, таких как проприетарные хранилища данных и устройства. Чтобы создать основу для инфраструктуры искусственного интеллекта, вам необходимо следующее:  Дезагрегирование вычислений и систем хранения данных  Масштабировать (не увеличивать)  Программно определяемый  Облачный родной  Товарное оборудование  Если мы согласимся с вышеизложенным, то возникнет ряд лучших практик, сосредоточенных на двух областях эффективности. В случае его внедрения современный Datalake будет одновременно быстрым и масштабируемым. Эти лучшие практики включают в себя:  Оптимизация цены и производительности привода  Подключите высокоскоростную сеть  Дезагрегирование вычислительных ресурсов и систем хранения данных  Дезагрегирование вычислений и хранилища в вашей инфраструктуре данных означает, что для вычислений и хранения используются отдельные ресурсы. Это контрастирует с традиционными решениями для хранения данных, в которых все упаковано в один сервер или, что еще хуже, в устройство. Однако современные озера данных выводят дезагрегацию на другой уровень. Если бы у озера данных и хранилища данных были совершенно разные требования к хранилищу, мы могли бы использовать два отдельных экземпляра хранилища объектов, как показано ниже.   Кроме того, если хранилищу данных необходимо поддерживать рабочие нагрузки, требующие конфликтующих конфигураций, вы можете использовать более одного механизма обработки. Это показано ниже.   Компонуемая инфраструктура позволяет независимо масштабировать вычислительные ресурсы и ресурсы хранения. Это означает, что вы можете выделить больше ресурсов той части вашей инфраструктуры, которая в них нуждается больше всего, вместо того, чтобы одновременно обновлять вычислительные ресурсы и хранилище. Это приводит к экономичному масштабированию, поскольку вы инвестируете только в необходимые ресурсы.  Масштабирование не вверх  Рабочие нагрузки ИИ требуют большого объема данных, часто распределяются между несколькими процессорами или графическими процессорами, используют большие вычислительные мощности для обучения и требуют вывода в реальном времени. Масштабирование, а не увеличение, помогает оптимизировать производительность и обеспечить работу высокоскоростных сетей.  Масштабирование и масштабирование — это два разных подхода к увеличению емкости и производительности вашей инфраструктуры данных. Однако масштабирование оказывается более жизнеспособным подходом по мере развития платформ кластеризации, таких как Kubernetes, и все большего количества решений, стремящихся быть облачными. Масштабирование в дезагрегированной инфраструктуре обеспечивает:    . Если один узел занят, другой узел может принять новый запрос, сокращая время ожидания и увеличивая пропускную способность. В случае сбоя одного узла рабочая нагрузка может быть перенесена на другие узлы, что сокращает время простоя и обеспечивает непрерывность работы. Высокая доступность и отказоустойчивость    . Масштабирование может повысить производительность за счет распределения рабочих нагрузок между несколькими узлами или серверами для обработки больших объемов данных и большего количества одновременных запросов. Масштабирование также является более гибким, поскольку вы можете добавлять или удалять узлы по мере необходимости, что упрощает адаптацию к меняющимся рабочим нагрузкам или сезонным изменениям. Производительность и гибкость    . Обслуживание и обновления упрощаются при горизонтальном масштабировании. Вместо того, чтобы отключать критически важную систему для обновления, вы можете выполнять обслуживание отдельных узлов хранения или вычислительных узлов, не нарушая работу всей инфраструктуры. Эксплуатационная эффективность и эффективность использования ресурсов  Cloud Native + программно-определяемый  Последним компонентом использования Modern Datalake для создания прочной основы для искусственного интеллекта является использование облачного программно-определяемого подхода.  Контейнеры, такие как Docker, и инструменты оркестрации контейнеров, такие как Kubernetes, делают возможным создание облачных архитектур. Все компоненты Modern Datalake работают в контейнерах, работающих в Kubernetes. Таким образом, Modern Datalake является облачным.  «Программно-определяемый» относится к подходу, при котором программное обеспечение контролирует и управляет конфигурацией, функциональностью и поведением аппаратных компонентов, часто в контексте компьютерных систем и сетей. Это строительный блок инфраструктуры как движение кода, в котором упор делается на умное программное обеспечение и быстрое оборудование. Программно-определяемое хранилище абстрагирует ресурсы хранения и управляет ими с помощью программного обеспечения, упрощая распределение и управление емкостью хранилища между различными устройствами и носителями.  Создан для скорости: NVMe и 100GbE  Чтобы в полной мере воспользоваться преимуществами стандартного аппаратного обеспечения и программно-определяемой архитектуры, вам нужны еще два ключевых компонента. Первый — накопители NVMe. Современные, ориентированные на производительность рабочие нагрузки, случайный характер операций чтения/записи, рост количества мелких объектов и снижение цен на твердотельные накопители — все это благоприятствует  . Посчитайте, аванс может быть выше, а совокупная стоимость владения будет ниже.   Ориентированная на NVMe архитектура  Второй компонент — сеть 100GbE. В программно-определяемом мире сеть оказывается узким местом во многих конфигурациях даже при 100GbE. Вот некоторые из этих сценариев:    . Рабочие нагрузки ИИ часто обрабатывают огромные наборы данных, такие как изображения, видео, текст на естественном языке и данные датчиков. Высокоскоростные сети могут быстро передавать эти большие наборы данных между устройствами хранения и обработки, уменьшая узкие места при передаче данных. Интенсивность обработки данных    . Многие задачи ИИ включают распределенные вычисления на нескольких процессорах или графических процессорах. Высокоскоростные сети обеспечивают эффективную связь и обмен данными между этими устройствами, обеспечивая эффективную параллельную работу вычислительных кластеров. Распределенные вычисления    . Обучение моделей глубокого обучения, особенно LLM, таких как трансформаторы или сверточные нейронные сети, требует большого количества данных и вычислительной мощности. Высокоскоростная сеть обеспечивает более быструю загрузку данных и синхронизацию между распределенными графическими процессорами, что может значительно ускорить время обучения. Обучение моделей    . Сети с низкой задержкой и высокой пропускной способностью необходимы для быстро реагирующих приложений, включающих искусственный интеллект. Высокоскоростная сеть обеспечивает минимальную задержку между запросом пользователя и ответом модели. Вывод в реальном времени  Основные понятия  Придерживаясь следующих принципов: разделение вычислительных ресурсов и систем хранения, масштабирование, а не повышение, простое, быстрое оборудование и интеллектуальное облачное программное обеспечение, предприятие может построить современное озеро данных, которое имеет правильную основу для удовлетворения этих требований и продвижения ваших инициатив в области искусственного интеллекта. вперед.  Нельзя построить здание на плохом фундаменте, спросите у древних египтян. Игра с искусственным интеллектом — это масштабная производительность, и для этого требуется правильный фундамент. Экономить на фундаменте — значит накапливать технический долг, который через несколько минут разрушит вашу башню Дженга. Стройте с умом, закладывайте фундамент.

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

Developers do. Download MinIO and see for yourself. 

MinIO

Этот звук создан на языке оригинала истории!

Принципы, которые следует учитывать при создании современного озера данных для вашей инфраструктуры искусственного интеллекта

About Author

КОММЕНТАРИИ

БИРКИ

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В

Related Stories

Плавание по водам: разработка RAG-приложений промышленного уровня с использованием озер данных

Создание криптопродуктов, ориентированных на пользователя: важность отзывов клиентов

Как улучшить ваш рабочий процесс в 10 раз: 17 основных приложений

От форумов до лент новостей: как алгоритмы социальных сетей формируют цифровое взаимодействие

Плавание по водам: разработка RAG-приложений промышленного уровня с использованием озер данных

Создание криптопродуктов, ориентированных на пользователя: важность отзывов клиентов

Как улучшить ваш рабочий процесс в 10 раз: 17 основных приложений

От форумов до лент новостей: как алгоритмы социальных сетей формируют цифровое взаимодействие

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps