Neste verão, tanto o Databricks quanto o Apache Iceberg lançaram melhorias em seus formatos de tabela aberta. Blocos de dados anunciados
Na mesma época, a Iceberg anunciou uma série de novos suportes para mecanismos de consulta e plataformas, incluindo
Vamos colocar esses anúncios em contexto. Os formatos de tabelas abertas permitem que os data lakes atinjam padrões de desempenho e conformidade que no passado só poderiam ser alcançados por data warehouses ou bancos de dados tradicionais, preservando ao mesmo tempo a flexibilidade de um ambiente de data lake.
Existem três formatos principais de mesa aberta:
Muito tem sido escrito sobre a escolha entre diferentes formatos, com alguns afirmando até
Mesmo antes desses anúncios recentes, os formatos de tabelas abertas já haviam se tornado parte integrante do design moderno de data lakes. E, reciprocamente, os data lakes têm sido parte integrante da pilha de dados moderna. Um recente
Não é nenhuma surpresa que os data lakes nativos da nuvem e seus componentes e tecnologias, como formatos de tabelas abertas, tenham se tornado o centro das atenções na pilha de dados moderna. Isto contrasta fortemente com o hardware e software tradicionais e monolíticos vendidos no atacado para organizações que desejam colocar a expressão “tecnologia de nuvem” em seus sistemas antigos. Tornar-se nativo da nuvem é mais do que adicionar uma API: a pilha de dados moderna é um conjunto modular e especializado de ferramentas adaptadas para diversas facetas de manipulação de dados. Ele foi desenvolvido para ser adaptável, nascido na nuvem e mantido em padrões de alto desempenho. Recursos que tornam a pilha de dados moderna uma escolha atraente para as organizações. A modularidade da pilha oferece uma gama de opções, permitindo que as organizações criem uma infraestrutura de dados sob medida que se alinhe às suas necessidades específicas, promovendo agilidade no cenário de dados em constante evolução.
Apesar dessa gama de opções em constante evolução, existem características definidoras que permeiam os componentes da pilha:
Nativo da nuvem: a pilha de dados moderna foi projetada para escalar perfeitamente em diversos ambientes de nuvem, garantindo compatibilidade com diversas nuvens para evitar a dependência de fornecedores.
Desempenho otimizado: Projetada para eficiência, a pilha incorpora componentes que adotam uma abordagem que prioriza o software e são projetados para desempenho.
Compatibilidade da API RESTful: A pilha estabelece uma estrutura de comunicação padronizada entre seus componentes. Isso promove a interoperabilidade e apoia a criação de microsserviços.
Armazenamento e computação desagregados: a pilha permite escalonamento independente de recursos computacionais e capacidade de armazenamento. Essa abordagem otimiza a eficiência de custos e melhora o desempenho geral, permitindo que cada aspecto seja dimensionado de acordo com necessidades específicas.
Compromisso com a abertura: além de oferecer suporte a formatos de tabelas abertas, a pilha de dados moderna abrange a abertura na forma de soluções de código aberto. Esse compromisso elimina silos proprietários e mitiga a dependência de fornecedores, promovendo a colaboração, a inovação e melhor acessibilidade aos dados. A dedicação à abertura reforça a adaptabilidade da pilha em diversas plataformas e ferramentas, garantindo a inclusão.
Adotar verdadeiramente a portabilidade e a interoperabilidade de dados significa ser capaz de criar e acessar dados onde quer que estejam. Essa abordagem facilita a flexibilidade, permitindo que as organizações aproveitem os recursos de diversas ferramentas sem serem limitadas pela dependência de um fornecedor ou por silos de dados. O objetivo é possibilitar o acesso universal aos dados, promovendo um ecossistema de dados mais ágil e adaptável dentro das organizações.
Compreender que a nuvem como modelo operacional é construída com base em princípios de tecnologia nativa da nuvem, e não em um local específico, é fundamental para alcançar a portabilidade de dados. Algumas organizações
Muitas organizações estabelecidas estão adotando ativamente essa filosofia, optando por repatriar cargas de trabalho da nuvem e obtendo economias substanciais de custos, com empresas como
Avanços recentes em formatos de tabelas abertas da Databricks, Apache Iceberg e Hudi significam um momento crucial no gerenciamento de dados. A compatibilidade universal do Delta Lake 3.0 e o suporte expandido para Apache Iceberg demonstram o compromisso das empresas de infraestrutura de dados e dos implementadores locais com a portabilidade e interoperabilidade de dados contínuas.
Esses desenvolvimentos estão alinhados com a modularidade inerente da pilha de dados moderna, onde os formatos de tabelas abertas desempenham um papel central na obtenção de padrões de desempenho e conformidade. Esta mudança não é isolada, mas cruza-se com o modelo operacional da nuvem. Além do fascínio das nuvens públicas, surgem impactos reais e economias de custos ao adotar o modelo operacional de nuvem em infraestrutura privada.
A confluência de formatos de tabelas abertas, a pilha de dados moderna e o modelo operacional em nuvem significam uma era transformadora no gerenciamento de dados. Essa abordagem garante adaptabilidade em vários ambientes, sejam eles públicos ou privados, no local ou no limite. Para aqueles que navegam pelas complexidades da arquitetura de data lake, nossa equipe no MinIO está pronta para ajudar. Junte-se a nós em [email protected] ou em nosso