MinIO는 AI/ML 워크로드, Datalakes의 데이터를 Dremio, Hive, Hudi, StarRocks 또는 기타 12개 이상의 훌륭한 AI/ML 도구 솔루션 등 레이크 하우스에 저장하는 데 자주 사용됩니다. MinIO는 기본 스토리지 계층으로 사용될 때 더 효율적이므로 저장된 데이터의 총 소유 비용이 줄어들고 MinIO에 데이터를 쓰는 추가적인 이점도 얻을 수 있습니다.
이 튜토리얼에서는 Hive Metastore의 메타데이터와 Redis의 테이블 스키마를 활용하는 Trino를 사용하여 Minio에 저장된 대규모 데이터 세트에 분산 SQL 쿼리를 허용하는 응집력 있는 시스템을 배포합니다.
다음은 다양한 구성요소와 설정 프로세스에서 해당 구성요소가 수행하는 작업에 대해 설명합니다.
시작하기 전에 Kubernetes 클러스터 관리에 필요한 도구가 설치되어 있는지 확인하세요.
Kubernetes에 Trino를 배포하는 데 필요한 리소스에 액세스하려면 특정 GitHub 저장소를 복제하고 적절한 디렉터리로 이동하세요.
git clone https://github.com/minio/blog-assets.git cd blog-assets/trino-on-kubernetes
Kubernetes의 네임스페이스는 애플리케이션을 위한 격리된 환경을 제공합니다. 배포를 캡슐화하기 위해 Trino의 새 네임스페이스를 만듭니다.
kubectl create namespace trino --dry-run=client -o yaml | kubectl apply -f -
Redis는 Trino에서 사용하는 테이블 스키마를 저장합니다. Kubernetes Secret으로 이러한 스키마를 보호하세요. 다음 명령은 JSON 파일에서 데이터를 소싱하여 일반 비밀을 생성합니다.
kubectl create secret generic redis-table-definition --from-file=redis/test.json -n trino || true
Helm 저장소는 애플리케이션 배포를 단순화하는 사전 패키지된 차트를 제공합니다. Helm 구성에 Bitnami 및 Trino 저장소를 추가합니다.
helm repo add bitnami https://charts.bitnami.com/bitnami || true helm repo add trino https://trinodb.github.io/charts/ || true
Trino 네임스페이스 내에서 MinIO를 준비합니다.
kubectl minio init -n trino
데이터 스토리지를 위한 다중 테넌트 아키텍처를 설정합니다. 아래 예에서는 4개의 서버, 4개의 스토리지 볼륨, 4GiB 용량을 갖춘 "tenant-1"이라는 테넌트를 생성합니다.
kubectl minio tenant create tenant-1 --servers 4 --volumes 4 --capacity 4Gi -n trino
Trino는 Hive Metastore를 활용하여 테이블 메타데이터를 저장합니다. PostgreSQL을 배포하여 메타데이터를 관리한 다음 Hive Metastore를 설정합니다.
helm upgrade --install hive-metastore-postgresql bitnami/postgresql -n trino -f hive-metastore-postgresql/values.yaml
사전 구성된 Helm 차트를 사용하여 Trino 네임스페이스 내에 Hive Metastore를 배포합니다.
helm upgrade --install my-hive-metastore -n trino -f hive-metastore/values.yaml ./charts/hive-metastore
Trino와 MinIO는 대규모 데이터 세트에 걸쳐 분산 SQL 쿼리를 위한 강력한 조합을 만듭니다. 시스템을 배포하고 구성하려면 다음 단계를 따르세요.
Redis는 향상된 쿼리 성능을 위해 Trino 테이블 스키마를 보관하는 데 사용되는 고속 인 메모리 데이터 저장소입니다. Helm 차트를 사용하여 Trino 네임스페이스에 배포합니다.
helm upgrade --install my-redis bitnami/redis -n trino -f redis/values.yaml
MinIO 및 기타 데이터 소스에 연결할 분산 SQL 쿼리 엔진으로 Trino를 배포합니다.
helm upgrade --install my-trino trino/trino --version 0.7.0 --namespace trino -f trino/values.yaml
Trino 네임스페이스에 Pod를 나열하여 모든 구성 요소가 올바르게 실행되고 있는지 확인합니다.
kubectl get pods -n trino
보안 검토 및 조정
필요에 따라 보안 설정을 검토하고 조정합니다. S3 연결에 대한 SSL 인증서 유효성 검사를 비활성화하려면 다음 속성을 사용하여 value.yaml 파일의 extraCatalogs 섹션을 업데이트하세요.
hive.s3.ssl.enabled=false
테넌트의 MinIO 서비스로 포트를 전달하여 로컬 액세스를 활성화합니다.
kubectl port-forward svc/minio -n trino 9443:443
1. 별칭 생성: MinIO 배포의 자격 증명을 사용하여 테넌트의 별칭을 설정합니다.
mc alias set my-minio https://localhost:9443/ minio_access_key minio_secret_key --insecure
2. 버킷 생성: Trino가 사용할 새 버킷을 생성합니다.
mc mb my-minio/tiny --insecure
1. 포드 이름 얻기: Trino 코디네이터 포드의 이름을 검색합니다.
export POD_NAME=$(kubectl get pods --namespace trino -l "app=trino,release=my-trino,component=coordinator" -o jsonpath="{.items[0].metadata.name}")
2. 포트 전달: 로컬 포트 8080을 코디네이터 포드로 전달합니다.
kubectl port-forward $POD_NAME 8080:8080
3. UI 접속: http://127.0.0.1:8080을 방문하여 브라우저에서 Trino UI를 사용하세요.
Trino 코디네이터 포드에 액세스하고 명령줄을 통해 쿼리를 시작하세요.
kubectl exec -it deploy/my-trino-coordinator -n trino -- trino
SHOW CATALOGS;
SHOW SCHEMAS IN minio;
Schema -------------------- default information_schema
CREATE SCHEMA minio.tiny WITH (location = 's3a://tiny/');
CREATE TABLE minio.tiny.customer WITH ( format = 'ORC', external_location = 's3a://tiny/customer/' ) AS SELECT * FROM tpch.tiny.customer;
SELECT * FROM minio.tiny.customer LIMIT 50;
SHOW SCHEMAS IN minio;
Schema -------------------- default information_schema tiny (3 rows)
버킷을 생성한 후 mc 명령줄 도구를 사용하여 콘텐츠를 나열하여 데이터가 MinIO에 저장되어 있는지 확인합니다. 다음 명령을 사용하십시오.
mc ls my-minio/tiny --insecure
그것은 그렇게 간단합니다!
구성 문제, 특히 보안 관련 문제를 해결할 때 각 구성 요소에 대한 value.yaml 파일을 철저하게 검토하여 적절한 설정을 확인하세요.
Trino는 전문 데이터베이스든 객체 스토리지든 다양한 데이터 계층에서 쿼리를 최적화하는 능력이 뛰어납니다. 필요한 필수 데이터만 검색하기 위해 쿼리를 푸시다운하여 데이터 전송을 최소화하는 것을 목표로 합니다. 이를 통해 Trino는 다양한 소스의 데이터 세트를 결합하고 추가 처리를 수행하거나 정확한 결과를 효율적으로 반환할 수 있습니다.
MinIO는 업계 최고의 확장성과 성능으로 인해 Trino와 매우 잘 어울립니다. AI/ML 및 분석 전반에 걸쳐 상당한 워크로드를 처리할 수 있는 능력을 갖춘 MinIO는 Trino 쿼리 이상을 쉽게 지원합니다. 최근 벤치마크에서 MinIO는 단 32개 노드에서 GET 작업의 경우 325GiB/s(349GB/s), PUT 작업의 경우 165GiB/s(177GB/s)를 달성했습니다. 이러한 뛰어난 성능을 통해 MinIO에 저장된 데이터에 쉽게 액세스할 수 있으므로 MinIO는 병목 현상 없이 Trino를 위한 안정적이고 성능이 뛰어난 선택이 됩니다.
MinIO와 Trino에 대해 궁금한 점이 있으면 다음 주소로 문의해 주세요.