paint-brush
O que a tendência de interoperabilidade em formatos de tabelas abertas significa para arquiteturas de dados empresariaispor@minio
989 leituras
989 leituras

O que a tendência de interoperabilidade em formatos de tabelas abertas significa para arquiteturas de dados empresariais

por MinIO6m2024/02/16
Read on Terminal Reader

Muito longo; Para ler

A confluência de formatos de tabelas abertas, a pilha de dados moderna e o modelo operacional em nuvem significam uma era transformadora no gerenciamento de dados.
featured image - O que a tendência de interoperabilidade em formatos de tabelas abertas significa para arquiteturas de dados empresariais
MinIO HackerNoon profile picture


Neste verão, tanto o Databricks quanto o Apache Iceberg lançaram melhorias em seus formatos de tabela aberta. Blocos de dados anunciados Lago Delta 3.0 pode ler e gravar dados em todos os formatos de tabelas abertas mais populares: Delta Table, Iceberg e Apache Hudi. O Delta Universal Format (UniForm) faz com que os formatos de tabelas abertas se tornem interoperáveis, evitando a necessidade de criar e armazenar cópias extras de dados neste ou naquele formato. Equipes de dados que usam mecanismos de consulta existentes, como PatoDB , Drêmio e outros para consultar arquivos Iceberg ou Hudi podem ler tabelas Delta diretamente, sem conversão.


Na mesma época, a Iceberg anunciou uma série de novos suportes para mecanismos de consulta e plataformas, incluindo Floco de neve , AWS Atenas , Apache Doris e StarRocks. Com esses anúncios da Databricks e da Iceberg, a interoperabilidade juntou-se à portabilidade de dados. Formatos de tabelas abertas por design promovem o conceito de que você deve ser capaz de acessar, controlar, compartilhar e operar seus dados com qualquer ferramenta que desejar, onde quiser, seja nas nuvens públicas, nas nuvens privadas, em -edge ou em metal descoberto.

Compreendendo os formatos de tabela aberta

Vamos colocar esses anúncios em contexto. Os formatos de tabelas abertas permitem que os data lakes atinjam padrões de desempenho e conformidade que no passado só poderiam ser alcançados por data warehouses ou bancos de dados tradicionais, preservando ao mesmo tempo a flexibilidade de um ambiente de data lake.


Existem três formatos principais de mesa aberta:


Iceberg foi originalmente projetado pela Netflix especificamente para lidar com volumes substanciais de dados em data lakes. Este formato de tabela aberta possui recursos distintos, como viagem no tempo, evolução dinâmica de esquema e evolução de partição. Esses recursos o tornam revolucionário, permitindo operações simultâneas e seguras por mecanismos de consulta no mesmo conjunto de dados.


Lago Delta é uma estrutura de armazenamento de código aberto na arquitetura Lakehouse que capacita data lakes em armazenamento de objetos como MinIO. Ele garante transações ACID, manipulação escalonável de metadados e processamento unificado para Apache Spark, oferecendo confiabilidade e escalabilidade. Delta Lake pode lidar com os desafios de desempenho e correção de cargas de trabalho complexas do Spark, especialmente sob forte concorrência, com atualizações não atômicas e operações de metadados causando gargalos significativos.


Hudi está enraizado no ecossistema Hadoop, e o objetivo principal do Hudi é diminuir a latência durante a ingestão de dados de streaming, oferecendo recursos como tabelas, transações, upserts/exclusões, índices avançados e compatibilidade com várias implementações de armazenamento, incluindo armazenamento de objetos nativos da nuvem como MinIO.


Muito tem sido escrito sobre a escolha entre diferentes formatos, com alguns afirmando até 80% de equivalência funcional entre os três formatos principais de Open Table. Esta combinação de distinções faz sentido dado o ambiente de interoperabilidade em que estes formatos de mesa aberta foram criados e continuam a prosperar. Os criadores desses formatos priorizaram a capacidade em detrimento das noções tradicionais de dependência de fornecedor e controle operacional.

Formatos de tabela abertos como parte da pilha de dados moderna

Mesmo antes desses anúncios recentes, os formatos de tabelas abertas já haviam se tornado parte integrante do design moderno de data lakes. E, reciprocamente, os data lakes têm sido parte integrante da pilha de dados moderna. Um recente enquete por Drêmio descobriram que 70% dos entrevistados disseram que mais da metade de suas análises estão ou estariam em um data lake dentro de três anos. Esta adoção generalizada significa uma mudança de paradigma na forma como as organizações estruturam e gerem os seus dados, colocando uma forte ênfase na interoperabilidade, flexibilidade e desempenho.


Não é nenhuma surpresa que os data lakes nativos da nuvem e seus componentes e tecnologias, como formatos de tabelas abertas, tenham se tornado o centro das atenções na pilha de dados moderna. Isto contrasta fortemente com o hardware e software tradicionais e monolíticos vendidos no atacado para organizações que desejam colocar a expressão “tecnologia de nuvem” em seus sistemas antigos. Tornar-se nativo da nuvem é mais do que adicionar uma API: a pilha de dados moderna é um conjunto modular e especializado de ferramentas adaptadas para diversas facetas de manipulação de dados. Ele foi desenvolvido para ser adaptável, nascido na nuvem e mantido em padrões de alto desempenho. Recursos que tornam a pilha de dados moderna uma escolha atraente para as organizações. A modularidade da pilha oferece uma gama de opções, permitindo que as organizações criem uma infraestrutura de dados sob medida que se alinhe às suas necessidades específicas, promovendo agilidade no cenário de dados em constante evolução.


Apesar dessa gama de opções em constante evolução, existem características definidoras que permeiam os componentes da pilha:


  • Nativo da nuvem: a pilha de dados moderna foi projetada para escalar perfeitamente em diversos ambientes de nuvem, garantindo compatibilidade com diversas nuvens para evitar a dependência de fornecedores.


  • Desempenho otimizado: Projetada para eficiência, a pilha incorpora componentes que adotam uma abordagem que prioriza o software e são projetados para desempenho.


  • Compatibilidade da API RESTful: A pilha estabelece uma estrutura de comunicação padronizada entre seus componentes. Isso promove a interoperabilidade e apoia a criação de microsserviços.


  • Armazenamento e computação desagregados: a pilha permite escalonamento independente de recursos computacionais e capacidade de armazenamento. Essa abordagem otimiza a eficiência de custos e melhora o desempenho geral, permitindo que cada aspecto seja dimensionado de acordo com necessidades específicas.


  • Compromisso com a abertura: além de oferecer suporte a formatos de tabelas abertas, a pilha de dados moderna abrange a abertura na forma de soluções de código aberto. Esse compromisso elimina silos proprietários e mitiga a dependência de fornecedores, promovendo a colaboração, a inovação e melhor acessibilidade aos dados. A dedicação à abertura reforça a adaptabilidade da pilha em diversas plataformas e ferramentas, garantindo a inclusão.

Portabilidade e interoperabilidade de dados como padrão de negócios


Adotar verdadeiramente a portabilidade e a interoperabilidade de dados significa ser capaz de criar e acessar dados onde quer que estejam. Essa abordagem facilita a flexibilidade, permitindo que as organizações aproveitem os recursos de diversas ferramentas sem serem limitadas pela dependência de um fornecedor ou por silos de dados. O objetivo é possibilitar o acesso universal aos dados, promovendo um ecossistema de dados mais ágil e adaptável dentro das organizações.


Compreender que a nuvem como modelo operacional é construída com base em princípios de tecnologia nativa da nuvem, e não em um local específico, é fundamental para alcançar a portabilidade de dados. Algumas organizações luta nesta empreitada e tentam comprar sua entrada na nuvem a um custo tremendo. A realidade é que, embora a adoção da nuvem represente uma oportunidade para a empresa média aumentar a lucratividade em 20 a 30 por cento , o impacto real e a verdadeira economia de custos advêm da adoção do modelo operacional em nuvem na infraestrutura privada.


Muitas organizações estabelecidas estão adotando ativamente essa filosofia, optando por repatriar cargas de trabalho da nuvem e obtendo economias substanciais de custos, com empresas como X.com , 37Signals e uma grande empresa de segurança empresarial economizando em média 60% das saídas da nuvem. O modelo operacional da nuvem permite a coexistência de ideias aparentemente contraditórias: as empresas podem beneficiar da migração para a nuvem e da repatriação de cargas de trabalho. O principal determinante é a adoção do modelo operacional em nuvem, transformando fundamentalmente a forma como as organizações abordam a infraestrutura, o desenvolvimento e a eficiência técnica. Este modelo otimiza a flexibilidade, a eficiência e o sucesso a longo prazo – seja na nuvem pública ou fora dela – e se encaixa precisamente no conceito da pilha de dados moderna, permitindo a portabilidade e a interoperabilidade dos dados com formatos de tabela abertos.

Conclusão

Avanços recentes em formatos de tabelas abertas da Databricks, Apache Iceberg e Hudi significam um momento crucial no gerenciamento de dados. A compatibilidade universal do Delta Lake 3.0 e o suporte expandido para Apache Iceberg demonstram o compromisso das empresas de infraestrutura de dados e dos implementadores locais com a portabilidade e interoperabilidade de dados contínuas.


Esses desenvolvimentos estão alinhados com a modularidade inerente da pilha de dados moderna, onde os formatos de tabelas abertas desempenham um papel central na obtenção de padrões de desempenho e conformidade. Esta mudança não é isolada, mas cruza-se com o modelo operacional da nuvem. Além do fascínio das nuvens públicas, surgem impactos reais e economias de custos ao adotar o modelo operacional de nuvem em infraestrutura privada.


A confluência de formatos de tabelas abertas, a pilha de dados moderna e o modelo operacional em nuvem significam uma era transformadora no gerenciamento de dados. Essa abordagem garante adaptabilidade em vários ambientes, sejam eles públicos ou privados, no local ou no limite. Para aqueles que navegam pelas complexidades da arquitetura de data lake, nossa equipe no MinIO está pronta para ajudar. Junte-se a nós em [email protected] ou em nosso Folga canal para discussões colaborativas enquanto você embarca em sua jornada de dados.