paint-brush
오픈 테이블 형식의 상호 운용성 추세가 엔터프라이즈 데이터 아키텍처에 미치는 영향~에 의해@minio
989 판독값
989 판독값

오픈 테이블 형식의 상호 운용성 추세가 엔터프라이즈 데이터 아키텍처에 미치는 영향

~에 의해 MinIO6m2024/02/16
Read on Terminal Reader

너무 오래; 읽다

개방형 테이블 형식, 최신 데이터 스택, 클라우드 운영 모델의 융합은 데이터 관리의 혁신 시대를 의미합니다.
featured image - 오픈 테이블 형식의 상호 운용성 추세가 엔터프라이즈 데이터 아키텍처에 미치는 영향
MinIO HackerNoon profile picture


올 여름 Databricks와 Apache Iceberg는 모두 오픈 테이블 형식에 대한 향상된 기능을 출시했습니다. 데이터브릭스 발표 델타 레이크 3.0 Delta Table, Iceberg, Apache Hudi 등 가장 널리 사용되는 모든 오픈 테이블 형식에서 데이터를 읽고 쓸 수 있습니다. Delta Universal Format(UniForm)을 사용하면 개방형 테이블 형식이 상호 운용 가능하므로 특정 형식으로 추가 데이터 복사본을 생성하고 저장할 필요가 없습니다. 다음과 같은 기존 쿼리 엔진을 사용하는 데이터 팀 덕DB , 드레미오 , Iceberg 또는 Hudi 파일을 쿼리하는 다른 파일은 변환 없이 직접 Delta 테이블을 읽을 수 있습니다.


비슷한 시기에 Iceberg는 다음을 포함하여 쿼리 엔진 및 플랫폼에 대한 수많은 새로운 지원을 발표했습니다. 눈송이 , AWS 아테나 , 아파치 도리스 그리고 스타록스. Databricks와 Iceberg의 이러한 발표를 통해 상호 운용성은 데이터 이동성과 함께 결합되었습니다. 개방형 테이블 형식은 퍼블릭 클라우드, 프라이빗 클라우드, 클라우드 등 어디에서나 원하는 도구를 사용하여 데이터에 액세스, 제어, 공유 및 작업할 수 있어야 한다는 개념을 장려합니다. -edge 또는 bare-metal에서.

공개 테이블 형식 이해

이러한 발표를 맥락에 맞게 살펴보겠습니다. 개방형 테이블 형식을 사용하면 데이터 레이크 환경의 유연성을 유지하면서 과거에는 기존 데이터 웨어하우스나 데이터베이스를 통해서만 달성할 수 있었던 성능 및 규정 준수 표준을 데이터 레이크에서 달성할 수 있습니다.


세 가지 주요 공개 테이블 형식이 있습니다.


빙산 원래 Netflix는 데이터 레이크 내에서 상당한 양의 데이터를 처리하기 위해 특별히 설계했습니다. 이 오픈 테이블 형식은 시간 여행, 동적 스키마 진화, 파티션 진화와 같은 독특한 기능을 자랑합니다. 이러한 기능은 동일한 데이터 세트에서 쿼리 엔진을 통한 동시 및 보안 작업을 가능하게 하여 혁신적으로 만듭니다.


델타 레이크 MinIO와 같은 객체 스토리지의 데이터 레이크를 지원하는 Lakehouse 아키텍처의 오픈 소스 스토리지 프레임워크입니다. 이는 ACID 트랜잭션, 확장 가능한 메타데이터 처리 및 Apache Spark에 대한 통합 처리를 보장하여 안정성과 확장성을 제공합니다. Delta Lake는 심각한 병목 현상을 일으키는 비원자적 업데이트 및 메타데이터 작업으로 인해 특히 과도한 동시성 환경에서 복잡한 Spark 워크로드의 성능 및 정확성 문제를 처리할 수 있습니다.


후디 Hadoop 생태계에 뿌리를 두고 있으며 Hudi의 주요 목적은 스트리밍 데이터를 수집하는 동안 대기 시간을 줄여 테이블, 트랜잭션, 업데이트/삭제, 고급 인덱스, 클라우드 기반 객체 스토리지를 포함한 다양한 스토리지 구현과의 호환성 등의 기능을 제공하는 것입니다. MinIO처럼요.


다양한 형식 중에서 선택하는 방법에 대해 많은 글이 작성되었으며 일부는 다음과 같이 주장합니다. 80% 기능적 동등성 세 가지 기본 오픈 테이블 형식 중 하나입니다. 이러한 구별의 혼합은 이러한 개방형 테이블 형식이 만들어지고 계속 번창하는 상호 운용성 환경을 고려할 때 의미가 있습니다. 이러한 형식의 제작자는 공급업체 종속 및 운영 제어에 대한 기존 개념보다 기능을 우선시했습니다.

최신 데이터 스택의 일부인 개방형 테이블 형식

최근 발표 이전에도 개방형 테이블 형식은 이미 최신 데이터 레이크 설계의 필수 요소가 되었습니다. 그리고 상호적으로 데이터 레이크는 최신 데이터 스택의 필수 요소였습니다. 최근 조사 ~에 의해 드레미오 응답자의 70%가 분석의 절반 이상이 3년 이내에 데이터 레이크에 있거나 있을 것이라고 답했습니다. 이러한 광범위한 채택은 조직이 데이터를 구성하고 관리하는 방식의 패러다임 전환을 의미하며 상호 운용성, 유연성 및 성능에 중점을 두고 있습니다.


클라우드 네이티브 데이터 레이크와 개방형 테이블 형식과 같은 해당 구성 요소 및 기술이 최신 데이터 스택의 중심 무대가 된 것은 놀라운 일이 아닙니다. 이는 노후화된 시스템에 '클라우드 기술'이라는 문구를 적용하려는 조직에 도매로 판매되는 기존의 모놀리식 레거시 하드웨어 및 소프트웨어와는 극명한 대조를 이룹니다. 클라우드 네이티브가 된다는 것은 API를 추가하는 것 이상입니다. 최신 데이터 스택은 다양한 데이터 처리 측면에 맞춰진 모듈식의 전문화된 도구 앙상블입니다. 적응성을 위해 구축되었으며 클라우드에서 태어나 고성능 표준을 준수합니다. 최신 데이터 스택을 조직에 매력적인 선택으로 만드는 기능입니다. 스택의 모듈성은 다양한 옵션을 제공하므로 조직은 특정 요구 사항에 맞는 맞춤형 데이터 인프라를 구축하고 지속적으로 진화하는 데이터 환경에서 민첩성을 키울 수 있습니다.


이렇게 지속적으로 발전하는 옵션 범위에도 불구하고 스택의 구성 요소를 관통하는 정의적인 특성이 있습니다.


  • 클라우드 네이티브: 최신 데이터 스택은 다양한 클라우드 환경에서 원활하게 확장되도록 설계되어 공급업체 종속을 방지하기 위해 여러 클라우드와의 호환성을 보장합니다.


  • 최적화된 성능: 효율성을 위해 설계된 스택에는 소프트웨어 우선 접근 방식과 성능을 위한 설계를 채택하는 구성 요소가 통합되어 있습니다.


  • RESTful API 호환성: 스택은 구성 요소 간에 표준화된 통신 프레임워크를 설정합니다. 이는 상호 운용성을 촉진하고 마이크로서비스 생성을 지원합니다.


  • 분리된 스토리지 및 컴퓨팅: 스택을 사용하면 컴퓨팅 리소스와 스토리지 용량을 독립적으로 확장할 수 있습니다. 이 접근 방식은 각 측면을 특정 요구 사항에 따라 확장할 수 있도록 하여 비용 효율성을 최적화하고 전반적인 성능을 향상시킵니다.


  • 개방성에 대한 헌신: 개방형 테이블 형식 지원을 넘어 최신 데이터 스택은 오픈 소스 솔루션 형태의 개방성을 수용합니다. 이러한 약속은 독점 사일로를 제거하고 공급업체 종속을 완화하여 협업, 혁신을 촉진하고 데이터 접근성을 향상시킵니다. 개방성에 대한 헌신은 다양한 플랫폼과 도구 전반에 걸쳐 스택의 적응성을 강화하여 포괄성을 보장합니다.

비즈니스 표준으로서의 데이터 이동성과 상호 운용성


데이터 이동성과 상호 운용성을 진정으로 수용한다는 것은 데이터가 어디에 있든 생성하고 액세스할 수 있다는 것을 의미합니다. 이러한 접근 방식은 유연성을 촉진하여 조직이 공급업체 종속이나 데이터 사일로의 제약을 받지 않고 다양한 도구의 기능을 활용할 수 있도록 해줍니다. 목표는 데이터에 대한 보편적인 액세스를 활성화하여 조직 내에서 보다 민첩하고 적응 가능한 데이터 생태계를 촉진하는 것입니다.


운영 모델로서의 클라우드가 특정 위치가 아닌 클라우드 네이티브 기술의 원칙을 기반으로 구축되었다는 점을 이해하는 것은 데이터 이동성을 달성하는 데 중요합니다. 일부 조직 고심하다 이러한 노력을 통해 엄청난 비용을 들여 클라우드로 진입하려고 시도합니다. 현실은 클라우드 도입이 일반 기업에게는 다음과 같은 기회를 제공한다는 것입니다. 수익성을 20~30% 향상 , 실질적인 효과와 진정한 비용 절감은 프라이빗 인프라에 클라우드 운영 모델을 수용하는 데서 비롯됩니다.


많은 기존 조직이 이 철학을 적극적으로 채택하여 클라우드에서 워크로드를 송환하고 상당한 비용 절감을 달성하고 있습니다. 엑스닷컴 , 37Signals 및 주요 기업 보안 회사 평균 60% 절약 클라우드 종료에서. 클라우드 운영 모델은 모순되는 것처럼 보이는 아이디어의 공존을 허용합니다. 기업은 클라우드로 마이그레이션 하고 워크로드를 송환함으로써 이익을 얻을 수 있습니다. 핵심 결정 요인은 조직이 인프라, 개발 및 기술 효율성에 접근하는 방식을 근본적으로 변화시키는 클라우드 운영 모델의 채택입니다. 이 모델은 퍼블릭 클라우드에서든 그 이상에서든 유연성, 효율성 및 장기적인 성공을 위해 최적화되며 최신 데이터 스택의 개념과 정확히 일치하여 데이터 이동성과 개방형 테이블 형식과의 상호 운용성을 지원합니다.

결론

Databricks, Apache Iceberg 및 Hudi의 최근 공개 테이블 형식 발전은 데이터 관리의 중추적인 순간을 의미합니다. Delta Lake 3.0의 보편적인 호환성과 Apache Iceberg에 대한 확장된 지원은 데이터 인프라 회사와 현장 구현업체 모두가 원활한 데이터 이동성과 상호 운용성에 대한 의지를 보여줍니다.


이러한 개발은 개방형 테이블 형식이 성능 및 규정 준수 표준을 달성하는 데 중심적인 역할을 하는 최신 데이터 스택의 고유한 모듈성과 일치합니다. 이러한 변화는 고립되지 않고 클라우드 운영 모델과 교차합니다. 퍼블릭 클라우드의 매력을 넘어서 프라이빗 인프라에 클라우드 운영 모델을 수용하면 실질적인 효과와 비용 절감 효과가 나타납니다.


개방형 테이블 형식, 최신 데이터 스택, 클라우드 운영 모델의 융합은 데이터 관리의 혁신 시대를 의미합니다. 이 접근 방식은 퍼블릭이든 프라이빗이든 온프레미스 온-에지 등 다양한 환경 전반에 걸쳐 적응성을 보장합니다. 데이터 레이크 아키텍처의 복잡성을 탐색하는 경우 MinIO 팀이 도움을 드릴 준비가 되어 있습니다. [email protected] 또는 우리의 이메일에 참여하세요 느슨하게 데이터 여정을 시작하면서 공동 토론을 위한 채널입니다.