Современный ландшафт данных требует нового поколения инфраструктуры – такой, которая легко интегрирует структурированные и неструктурированные данные, легко масштабируется и обеспечивает эффективные рабочие нагрузки AI/ML. Это где  приходите, предоставляя центральный узел для всех ваших потребностей в данных. Однако создание и управление эффективным озером данных может оказаться сложной задачей.   современные озера данных  В этом сообщении блога подробно рассматриваются три мощных инструмента, которые могут оптимизировать ваш текущий подход:  ,  и МинИО. Приведенные ниже шаги покажут вам, как эти сервисы легко объединяются для создания надежной облачной архитектуры озера данных, специально оптимизированной для рабочих нагрузок AI/ML.   Апач Айсберг   Табличный,  Что такое табличный?  Tabular — это платформа данных, созданная первоначальными создателями Apache Iceberg. Он предназначен для предоставления независимой универсальной платформы хранения данных, которая подключается к любому вычислительному уровню, устраняя привязку к поставщику данных. Эта функция имеет решающее значение для современного стека данных, она позволяет пользователям выбирать лучшие в своем классе инструменты вычислений и хранения, не принуждая их использовать устаревший или несоответствующий набор инструментов конкретного поставщика.  В  MinIO и Iceberg и может быть улучшена с помощью Tabular. Tabular можно использовать для управления и запроса данных Iceberg, хранящихся в MinIO, что позволяет хранить структурированные данные и управлять ими масштабируемым, высокопроизводительным и облачным способом. Эти собственные компоненты Kubernetes работают вместе плавно, с минимальными трениями и опираются на возможности друг друга для работы в масштабе.   архитектура  Почему S3FileIO вместо file-io Hadoop?  Эта реализация использует S3FileIO компании Iceberg. S3FileIO считается лучше, чем file-io Hadoop по нескольким причинам. Некоторые из них мы уже обсуждали  :   в другом месте    : S3FileIO от Iceberg предназначен для работы с облачным хранилищем. Оптимизирован для облачного хранилища    Iceberg использует  распределять файлы по нескольким префиксам в корзине MinIO, что помогает минимизировать регулирование и максимизировать пропускную способность для операций ввода-вывода, связанных с S3. Улучшенная пропускная способность и минимизированное регулирование:   ObjectStoreLocationProvider    Айсберг был  чтобы в полной мере использовать строгую согласованность, исключив избыточные проверки согласованности, которые могут повлиять на производительность. Строгое соответствие:   обновлено    S3FileIO компании Iceberg реализует  Алгоритм, который загружает части файлов данных параллельно, как только каждая часть будет готова, сокращая использование локального диска и увеличивая скорость загрузки. Прогрессивная многочастная загрузка:   прогрессивная многочастная загрузка    Iceberg позволяет  для S3 API записывает данные для обеспечения целостности загружаемых объектов, что можно включить, установив соответствующее свойство каталога. Проверка контрольной суммы:   проверки контрольной суммы    Iceberg поддерживает добавление  к объектам во время операций записи и удаления с помощью S3 API, что может быть полезно для отслеживания и управления затратами. Пользовательские теги:   пользовательские теги    Интерфейс FileIO в Iceberg не требует таких строгих гарантий, как файловая система, совместимая с Hadoop, что позволяет ему  в противном случае это может привести к снижению производительности. Предотвращение негативного кэширования.   избегать негативного кэширования  Напротив, файловая система S3A Hadoop, которая использовалась до S3FileIO, не обеспечивает такой же уровень оптимизации для облачного хранилища. Все это для того, чтобы сказать: не обременяйте свою перспективную инфраструктуру озера данных атрибутами прошлого.  Предварительные условия  Прежде чем начать, убедитесь, что ваша система соответствует следующим требованиям:   Докер   Докер Составление  Если вы начинаете с нуля, вы можете установить оба, используя  установщик для вашей конкретной платформы. Зачастую это проще, чем загружать Docker и Docker Compose по отдельности. Убедитесь, что Docker установлен, выполнив следующую команду:   Докер Рабочий стол   docker-compose --version  Начиная  Чтобы начать, клонируйте или скопируйте файл YAML в Tabular.  . Для этого урока вам просто понадобится YAML. Не стесняйтесь изучить остальную часть репозитория позже.   Git-репозиторий  Разрушение этого  Предоставленный файл YAML представляет собой файл конфигурации Docker Compose. Он определяет набор сервисов и их конфигурации для многоконтейнерного приложения Docker. В данном случае есть два сервиса: Spark-Iceberg и MinIO. Давайте разберем каждый раздел:   1. Сервис «Искра-Айсберг»:   spark-iceberg: image: tabulario/spark-iceberg container_name: spark-iceberg build: spark/ networks: iceberg_net: depends_on: - rest - minio volumes: - ./warehouse:/home/iceberg/warehouse - ./notebooks:/home/iceberg/notebooks/notebooks environment: - AWS_ACCESS_KEY_ID=admin - AWS_SECRET_ACCESS_KEY=password - AWS_REGION=us-east-1 ports: - 8888:8888 - 8080:8080 - 10000:10000 - 10001:10001 rest: image: tabulario/iceberg-rest container_name: iceberg-rest networks: iceberg_net: ports: - 8181:8181 environment: - AWS_ACCESS_KEY_ID=admin - AWS_SECRET_ACCESS_KEY=password - AWS_REGION=us-east-1 - CATALOG_WAREHOUSE=s3://warehouse/ - CATALOG_IO__IMPL=org.apache.iceberg.aws.s3.S3FileIO - CATALOG_S3_ENDPOINT=http://minio:9000    указывает образ Docker, который будет использоваться для службы spark-iceberg. В данном случае используется изображение tabulario/spark-iceberg:latest. image:    указывает, что служба искры-айсберга зависит от остальных служб и служб minio. depend_on:    присваивает контейнеру определенное имя (искра-айсберг). имя_контейнера:    устанавливает переменные среды для контейнера, включая учетные данные Spark и AWS. среда:    монтирует локальные каталоги (./warehouse и ./notebooks) как тома внутри контейнера. тома:    сопоставляет порты контейнера с портами хоста для доступа к пользовательскому интерфейсу Spark и другим службам. порты:   2. Минио Сервис:   minio: image: minio/minio container_name: minio environment: - MINIO_ROOT_USER=admin - MINIO_ROOT_PASSWORD=password - MINIO_DOMAIN=minio networks: iceberg_net: aliases: - warehouse.minio ports: - 9001:9001 - 9000:9000 command: ["server", "/data", "--console-address", ":9001"]    указывает образ Docker для службы MinIO. image:    присваивает контейнеру определенное имя (MinIO). имя_контейнера:    устанавливает переменные среды для настройки MinIO, включая учетные данные пользователя root. среда:    сопоставляет порты контейнера с портами хоста для доступа к пользовательскому интерфейсу MinIO. порты:    указывает команду для запуска сервера MinIO с определенными параметрами. команда:  Еще одним аспектом сервиса MinIO является  , инструмент командной строки MinIO.   MC  mc: depends_on: - minio image: minio/mc container_name: mc networks: iceberg_net: environment: - AWS_ACCESS_KEY_ID=admin - AWS_SECRET_ACCESS_KEY=password - AWS_REGION=us-east-1 entrypoint: > /bin/sh -c " until (/usr/bin/mc config host add minio http://minio:9000 admin password) do echo '...waiting...' && sleep 1; done; /usr/bin/mc rm -r --force minio/warehouse; /usr/bin/mc mb minio/warehouse; /usr/bin/mc policy set public minio/warehouse; tail -f /dev/null "    указывает, что служба mc зависит от службы MinIO. depend_on:    указывает образ Docker для службы mc. image:    присваивает контейнеру определенное имя (mc). имя_контейнера:    устанавливает переменные среды для настройки клиента MinIO. среда:    определяет команду точки входа для контейнера, включая шаги настройки для клиента MinIO. точка входа:  /usr/bin/mc rm -r --force minio/warehouse; /usr/bin/mc mb minio/warehouse; /usr/bin/mc policy set public minio/warehouse; tail -f /dev/null "  Эта последовательность команд по существу выполняет следующие задачи:  Удаляет существующий каталог хранилища и его содержимое с сервера MinIO.  Создает новую корзину с именем склад.  Устанавливает общедоступную политику доступа к сегменту хранилища.  Этот файл Docker Compose управляет многоконтейнерной средой со службами для Spark, PostgreSQL, MinIO. Он устанавливает зависимости, переменные среды и команды, необходимые для совместной работы служб. Службы работают в тандеме для создания среды разработки для обработки данных с использованием Spark и Iceberg с MinIO в качестве серверной части объектного хранилища.  Запуск  В окне терминала перейдите в каталог tabular-spark-setup в репозитории и выполните следующую команду:   docker-compose up  Войдите в MinIO по адресу   с учетными данными   чтобы убедиться, что сегмент хранилища создан.  http://127.0.0.1:9001 admin:password  Как только все контейнеры будут запущены, вы сможете получить доступ к серверу Jupyter Notebook, перейдя по адресу    http://localhost:8888  Запустите один из примеров блокнотов и вернитесь в MinIO по адресу   , чтобы увидеть, что ваше хранилище заполнено данными.  http://127.0.0.1:9001  Создание современного озера данных  Это руководство по созданию современного озера данных с помощью Iceberg, Tabular и MinIO — это только начало. Это мощное трио открывает двери в мир возможностей. С помощью этих инструментов вы можете легко интегрировать и анализировать все свои данные, как структурированные, так и неструктурированные, чтобы выявить скрытые закономерности и принимать решения на основе данных, которые способствуют инновациям. Используйте эффективность и гибкость этой архитектуры в производстве, чтобы ускорить ваши инициативы в области искусственного интеллекта и машинного обучения и раскрыть истинный потенциал ваших моделей машинного обучения, ускоряя ваш путь к революционным открытиям. Свяжитесь с нами по адресу  или на нашем  канал, если у вас возникнут вопросы во время сборки.   привет@min.io   Слабый

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

This writer has a vested interest be it monetary, business, or otherwise, with 1 or more of the products or companies mentioned within.

Developers do. Download MinIO and see for yourself. 

MinIO

Этот звук создан на языке оригинала истории!

Создание эффективных современных архитектур данных с помощью Iceberg, Tabular и MinIO

About Author

КОММЕНТАРИИ

БИРКИ

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В

Related Stories

От форумов до лент новостей: как алгоритмы социальных сетей формируют цифровое взаимодействие

Создание криптопродуктов, ориентированных на пользователя: важность отзывов клиентов

Краткое введение в теорию мозга Больцмана

Нажмите, чтобы заработать: Telegram может привлечь следующие 10 миллиардов пользователей криптовалюты до Соланы

От форумов до лент новостей: как алгоритмы социальных сетей формируют цифровое взаимодействие

Создание криптопродуктов, ориентированных на пользователя: важность отзывов клиентов

Краткое введение в теорию мозга Больцмана

Нажмите, чтобы заработать: Telegram может привлечь следующие 10 миллиардов пользователей криптовалюты до Соланы

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps