Este verano, tanto Databricks como Apache Iceberg implementaron mejoras en sus formatos de tabla abierta. Se anunciaron los ladrillos de datos
Casi al mismo tiempo, Iceberg anunció una serie de nuevos soportes para plataformas y motores de consulta, incluidos
Pongamos estos anuncios en contexto. Los formatos de tabla abierta permiten que los lagos de datos alcancen estándares de rendimiento y cumplimiento que en el pasado solo podían lograrse mediante bases de datos o almacenes de datos tradicionales, preservando al mismo tiempo la flexibilidad de un entorno de lago de datos.
Hay tres formatos principales de mesa abierta:
Se ha escrito mucho sobre la elección entre diferentes formatos, y algunos afirman que hasta
Incluso antes de estos anuncios recientes, los formatos de tablas abiertas ya se habían convertido en parte integral del diseño moderno de lagos de datos. Y, recíprocamente, los lagos de datos han sido parte integral de la pila de datos moderna. Un reciente
En realidad, no sorprende que los lagos de datos nativos de la nube y sus componentes y tecnologías, como los formatos de tablas abiertas, se hayan convertido en el centro de atención de la pila de datos moderna. Esto contrasta marcadamente con el hardware y software heredado, monolítico y tradicional, que se vende al por mayor a organizaciones que esperan incluir la frase "tecnología de nube" en sus sistemas obsoletos. Convertirse en nativo de la nube es más que agregar una API: la pila de datos moderna es un conjunto modular y especializado de herramientas diseñadas para diversas facetas del manejo de datos. Está diseñado para la adaptabilidad, nace en la nube y cumple con estándares de alto rendimiento. Características que hacen que la pila de datos moderna sea una opción atractiva para las organizaciones. La modularidad de la pila proporciona una variedad de opciones, lo que permite a las organizaciones crear una infraestructura de datos personalizada que se alinee con sus necesidades específicas, fomentando la agilidad en el panorama de datos en continua evolución.
A pesar de esta gama de opciones en continua evolución, existen características definitorias que se entrelazan en los componentes de la pila:
Nativo de la nube: la pila de datos moderna está diseñada para escalar sin problemas a través de diversos entornos de nube, lo que garantiza la compatibilidad con múltiples nubes para evitar la dependencia de un proveedor.
Rendimiento optimizado: Diseñado para la eficiencia, la pila incorpora componentes que adoptan un enfoque de software primero y un diseño para el rendimiento.
Compatibilidad API RESTful: la pila establece un marco de comunicación estandarizado entre sus componentes. Esto promueve la interoperabilidad y apoya la creación de microservicios.
Almacenamiento y computación desagregados: la pila permite el escalado independiente de los recursos computacionales y la capacidad de almacenamiento. Este enfoque optimiza la rentabilidad y mejora el rendimiento general al permitir que cada aspecto escale según las necesidades específicas.
Compromiso con la apertura: más allá de admitir formatos de tablas abiertas, la pila de datos moderna adopta la apertura en forma de soluciones de código abierto. Este compromiso elimina los silos de propiedad y mitiga la dependencia de los proveedores, fomentando la colaboración, la innovación y una mejor accesibilidad a los datos. La dedicación a la apertura refuerza la adaptabilidad de la pila a través de diversas plataformas y herramientas, garantizando la inclusión.
Adoptar verdaderamente la portabilidad y la interoperabilidad de los datos significa poder crear y acceder a datos dondequiera que estén. Este enfoque facilita la flexibilidad, permitiendo a las organizaciones aprovechar las capacidades de diversas herramientas sin verse limitadas por la dependencia de proveedores o silos de datos. El objetivo es permitir el acceso universal a los datos, promoviendo un ecosistema de datos más ágil y adaptable dentro de las organizaciones.
Comprender que la nube como modelo operativo se basa en principios de tecnología nativa de la nube y no en una ubicación específica es fundamental para lograr la portabilidad de los datos. Algunas organizaciones
Muchas organizaciones establecidas están adoptando activamente esta filosofía, optando por repatriar cargas de trabajo desde la nube y logrando ahorros sustanciales de costos, con empresas como
Los avances recientes en formatos de tablas abiertas por parte de Databricks, Apache Iceberg y Hudi significan un momento crucial en la gestión de datos. La compatibilidad universal de Delta Lake 3.0 y el soporte ampliado para Apache Iceberg muestran el compromiso tanto de las empresas de infraestructura de datos como de los implementadores sobre el terreno con la portabilidad e interoperabilidad de datos sin problemas.
Estos desarrollos se alinean con la modularidad inherente de la pila de datos moderna, donde los formatos de tablas abiertas desempeñan un papel central para lograr estándares de rendimiento y cumplimiento. Este cambio no es aislado sino que se cruza con el modelo operativo de la nube. Más allá del atractivo de las nubes públicas, el impacto real y el ahorro de costos surgen al adoptar el modelo operativo de la nube en infraestructura privada.
La confluencia de formatos de tablas abiertas, la pila de datos moderna y el modelo operativo de la nube significa una era transformadora en la gestión de datos. Este enfoque garantiza la adaptabilidad en diversos entornos, ya sean públicos o privados, en las instalaciones y en el borde. Para aquellos que navegan por las complejidades de la arquitectura del lago de datos, nuestro equipo en MinIO está listo para ayudarlo. Únase a nosotros en [email protected] o en nuestro