(anteriormente Presto) é um mecanismo de consulta SQL - não um banco de dados SQL. Trino evitou o componente de armazenamento do banco de dados SQL para se concentrar em apenas uma coisa: consultas SQL ultrarrápidas. Trino é apenas um mecanismo de consulta e não armazena dados. Em vez disso, o Trino interage com vários bancos de dados ou diretamente no armazenamento de objetos. Trino analisa e analisa a consulta SQL que você passa, cria e otimiza um plano de execução de consulta que inclui as fontes de dados e, em seguida, agenda nós de trabalho que são capazes de consultar de forma inteligente os bancos de dados subjacentes aos quais se conectam. Trino  MinIO é frequentemente usado para armazenar dados de cargas de trabalho de IA/ML, Datalakes e lakehouses, sejam Dremio, Hive, Hudi, StarRocks ou qualquer uma das outras dezenas de excelentes soluções de ferramentas de AI/ML. O MinIO é mais eficiente quando usado como camada de armazenamento primária, o que diminui o custo total de propriedade dos dados armazenados, além de você obter os benefícios adicionais de gravar dados no MinIO que é  ,  e protegido por  . Além disso, salvar dados no armazenamento de objetos MinIO os disponibiliza para outros aplicativos de análise e aprendizado de máquina nativos da nuvem.   imutável   versionado   codificação de apagamento  Neste tutorial, implantaremos um sistema coeso que permite consultas SQL distribuídas em grandes conjuntos de dados armazenados no Minio, com Trino aproveitando metadados do Hive Metastore e esquemas de tabela do Redis.  Componentes  Aqui estão os diferentes componentes e o que eles fazem em nosso processo de configuração que veremos a seguir.    Minio pode ser usado para armazenar grandes conjuntos de dados, como os normalmente analisados pelo Trino. Minio:    : Hive Metastore é um serviço que armazena metadados para tabelas Hive (como esquema de tabela). Trino pode usar o Hive Metastore para determinar o esquema das tabelas ao consultar conjuntos de dados. Hive Metastore    Este é o back-end do banco de dados para o Hive Metastore. É onde os metadados são realmente armazenados. PostgreSQL para Hive Metastore:    nesta configuração, Redis para armazenar esquemas de tabela para Trino. Redis:    Trino (anteriormente conhecido como Presto) é um mecanismo de consulta SQL distribuído e de alto desempenho. Ele permite consultar dados em várias fontes de dados, como bancos de dados SQL, bancos de dados NoSQL e até mesmo armazenamento de objetos como o Minio. Trino:  Pré-requisitos  Antes de começar, certifique-se de ter as ferramentas necessárias instaladas para gerenciar seu cluster Kubernetes:    : a principal ferramenta de linha de comando para gerenciar clusters Kubernetes. Você pode usá-lo para inspecionar, manipular e administrar recursos de cluster. kubectl    : Um gerenciador de pacotes para Kubernetes. Helm permite implantar, atualizar e gerenciar aplicativos em seu cluster usando gráficos predefinidos. helm  Clonagem de repositório  Para acessar os recursos necessários para implantar o Trino no Kubernetes, clone o repositório GitHub específico e navegue até o diretório apropriado:   git clone https://github.com/minio/blog-assets.git cd blog-assets/trino-on-kubernetes  Criação de namespace Kubernetes  Namespaces no Kubernetes fornecem ambientes isolados para aplicativos. Crie um novo namespace para o Trino encapsular sua implantação:   kubectl create namespace trino --dry-run=client -o yaml | kubectl apply -f -  Segredo de definição da tabela Redis  O Redis armazenará esquemas de tabela usados pelo Trino. Proteja esses esquemas com um segredo do Kubernetes. O comando a seguir cria um segredo genérico, obtendo dados de um arquivo JSON:   kubectl create secret generic redis-table-definition --from-file=redis/test.json -n trino || true  Adicionar repositórios Helm  Os repositórios Helm fornecem gráficos pré-empacotados que simplificam a implantação de aplicativos. Adicione os repositórios Bitnami e Trino à configuração do Helm:   helm repo add bitnami https://charts.bitnami.com/bitnami || true helm repo add trino https://trinodb.github.io/charts/ || true  Implante MinIO para armazenamento de dados  Inicializar MinIO  Prepare MinIO dentro do namespace Trino.   kubectl minio init -n trino  Criar locatário MinIO  Configure uma arquitetura multilocatário para armazenamento de dados. O exemplo abaixo cria um locatário denominado “tenant-1” com quatro servidores, quatro volumes de armazenamento e capacidade de 4 GiB:   kubectl minio tenant create tenant-1 --servers 4 --volumes 4 --capacity 4Gi -n trino  Configurar o metastore do Hive  Trino utiliza Hive Metastore para armazenar metadados de tabelas. Implante o PostgreSQL para gerenciar os metadados e configure o Hive Metastore:  Instale o PostgreSQL   helm upgrade --install hive-metastore-postgresql bitnami/postgresql -n trino -f hive-metastore-postgresql/values.yaml  Implantar metastore do Hive  Use um gráfico Helm pré-configurado para implantar o Hive Metastore no namespace Trino:   helm upgrade --install my-hive-metastore -n trino -f hive-metastore/values.yaml ./charts/hive-metastore  Implantando MinIO e Trino com Kubernetes  Trino e MinIO criam uma combinação poderosa para consultas SQL distribuídas em grandes conjuntos de dados. Siga estas etapas para implementar e configurar o sistema.  Implantar Redis para armazenar esquemas de tabela  Redis é um armazenamento de dados na memória de alta velocidade usado para armazenar esquemas de tabela Trino para melhorar o desempenho da consulta. Implante-o no namespace Trino usando um gráfico Helm:   helm upgrade --install my-redis bitnami/redis -n trino -f redis/values.yaml  Implantar Trino  Implante o Trino como o mecanismo de consulta SQL distribuído que se conectará ao MinIO e outras fontes de dados:   helm upgrade --install my-trino trino/trino --version 0.7.0 --namespace trino -f trino/values.yaml  Verifique a implantação  Confirme se todos os componentes estão funcionando corretamente listando os pods no namespace Trino:   kubectl get pods -n trino  Revisão e ajustes de segurança  Revise e ajuste as configurações de segurança conforme necessário. Para desabilitar a validação de certificado SSL para conexões S3, atualize a seção advancedCatalogs do arquivovalues.yaml com a seguinte propriedade:   hive.s3.ssl.enabled=false  Teste  Encaminhamento de porta para serviço de locatário MinIO  Encaminhamento de porta para o serviço MinIO do locatário, permitindo acesso local:   kubectl port-forward svc/minio -n trino 9443:443  Crie um alias e um bucket para Trino    Estabeleça um alias para o locatário usando as credenciais da implantação do MinIO: 1. Criar Alias:   mc alias set my-minio https://localhost:9443/ minio_access_key minio_secret_key --insecure    Crie um novo bucket que Trino usará 2. Criar Bucket:   mc mb my-minio/tiny --insecure  Acesse a UI do Trino via Port Forward    recupere o nome do pod coordenador Trino: 1. Obter nome do pod:   export POD_NAME=$(kubectl get pods --namespace trino -l "app=trino,release=my-trino,component=coordinator" -o jsonpath="{.items[0].metadata.name}")    Encaminha a porta local 8080 para o pod coordenador: 2. Port Forward:   kubectl port-forward $POD_NAME 8080:8080    Use a UI do Trino em seu navegador visitando http://127.0.0.1:8080.  3. Acesse a UI:  Consultar Trino via CLI  Acesse o pod do coordenador Trino e comece a consultar pela linha de comando:   kubectl exec -it deploy/my-trino-coordinator -n trino -- trino   SHOW CATALOGS;   SHOW SCHEMAS IN minio;  Schema -------------------- default information_schema   CREATE SCHEMA minio.tiny WITH (location = 's3a://tiny/');   CREATE TABLE minio.tiny.customer WITH ( format = 'ORC', external_location = 's3a://tiny/customer/' ) AS SELECT * FROM tpch.tiny.customer;   SELECT * FROM minio.tiny.customer LIMIT 50;   SHOW SCHEMAS IN minio;  Schema -------------------- default information_schema tiny (3 rows)  Confirme os dados no intervalo MinIO  Depois de criar o bucket, confirme se os dados estão armazenados no MinIO listando o conteúdo com a ferramenta de linha de comando mc. Use o seguinte comando:   mc ls my-minio/tiny --insecure  É simples assim!  Pensamentos finais  Ao solucionar problemas de configuração, especialmente aqueles relacionados à segurança, revise minuciosamente os arquivos values.yaml de cada componente para garantir as configurações adequadas.  Trino se destaca pela capacidade de otimizar consultas em diversas camadas de dados, sejam bancos de dados especializados ou armazenamento de objetos. Seu objetivo é minimizar a transferência de dados, empurrando consultas para recuperar apenas os dados essenciais necessários. Isso permite que o Trino junte conjuntos de dados de diferentes fontes, execute processamento adicional ou retorne resultados precisos com eficiência.  MinIO combina excepcionalmente bem com Trino devido à sua escalabilidade e desempenho líderes do setor. Com a capacidade de lidar com cargas de trabalho significativas em IA/ML e análises, o MinIO oferece suporte sem esforço a consultas Trino e muito mais. Em benchmarks recentes, o MinIO alcançou impressionantes 325 GiB/s (349 GB/s) para operações GET e 165 GiB/s (177 GB/s) para operações PUT em apenas 32 nós. Esse desempenho notável garante que os dados armazenados no MinIO permaneçam prontamente acessíveis, tornando o MinIO uma escolha confiável e de alto desempenho para o Trino sem se tornar um gargalo.  Se você tiver alguma dúvida sobre MinIO e Trino, entre em contato conosco pelo telefone  !   Folga

The code in this story is for educational purposes. The readers are solely responsible for whatever they build with it.

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

Como implantar MinIO e Trino com Kubernetes

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

Guia do arquiteto para construir arquitetura de referência para um Datalake de IA/ML

Modelo Bitcoin UTXO, alimentando um ecossistema único

O guia completo para uma migração bem-sucedida para a nuvem: estratégias e práticas recomendadas

Toque para ganhar: Telegram pode integrar os próximos 10 bilhões de usuários criptográficos antes de Solana

Guia do arquiteto para construir arquitetura de referência para um Datalake de IA/ML

Modelo Bitcoin UTXO, alimentando um ecossistema único

O guia completo para uma migração bem-sucedida para a nuvem: estratégias e práticas recomendadas

Toque para ganhar: Telegram pode integrar os próximos 10 bilhões de usuários criptográficos antes de Solana

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps