paint-brush
Qué significa la tendencia de interoperabilidad en los formatos de tablas abiertas para las arquitecturas de datos empresarialespor@minio
903 lecturas
903 lecturas

Qué significa la tendencia de interoperabilidad en los formatos de tablas abiertas para las arquitecturas de datos empresariales

por MinIO6m2024/02/16
Read on Terminal Reader

Demasiado Largo; Para Leer

La confluencia de formatos de tablas abiertas, la pila de datos moderna y el modelo operativo de la nube significa una era transformadora en la gestión de datos.
featured image - Qué significa la tendencia de interoperabilidad en los formatos de tablas abiertas para las arquitecturas de datos empresariales
MinIO HackerNoon profile picture


Este verano, tanto Databricks como Apache Iceberg implementaron mejoras en sus formatos de tabla abierta. Se anunciaron los ladrillos de datos Lago Delta 3.0 Puede leer y escribir datos en todos los formatos de tablas abiertas más populares: Delta Table, Iceberg y Apache Hudi. Delta Universal Format (UniForm) hace que los formatos de tablas abiertas se vuelvan interoperables, evitando la necesidad de crear y almacenar copias adicionales de datos en tal o cual formato. Equipos de datos que utilizan motores de consulta existentes como PatoDB , Dremio y otros que consultan archivos Iceberg o Hudi pueden leer tablas Delta directamente sin conversión.


Casi al mismo tiempo, Iceberg anunció una serie de nuevos soportes para plataformas y motores de consulta, incluidos Copo de nieve , AWS Atenas , apache doris y StarRocks. Con estos anuncios de Databricks e Iceberg, la interoperabilidad se unió a la portabilidad de datos. Los formatos de tablas abiertas por diseño promueven el concepto de que usted debería poder acceder, controlar, compartir y operar con sus datos con cualquier herramienta que desee, donde quiera que desee, ya sea en las nubes públicas, en sus nubes privadas, en -borde o sobre metal desnudo.

Comprensión de los formatos de tablas abiertas

Pongamos estos anuncios en contexto. Los formatos de tabla abierta permiten que los lagos de datos alcancen estándares de rendimiento y cumplimiento que en el pasado solo podían lograrse mediante bases de datos o almacenes de datos tradicionales, preservando al mismo tiempo la flexibilidad de un entorno de lago de datos.


Hay tres formatos principales de mesa abierta:


Iceberg Fue diseñado originalmente por Netflix específicamente para manejar volúmenes de datos sustanciales dentro de lagos de datos. Este formato de tabla abierta cuenta con características distintivas como viaje en el tiempo, evolución dinámica del esquema y evolución de la partición. Estas capacidades lo hacen revolucionario, ya que permite operaciones simultáneas y seguras mediante motores de consulta en el mismo conjunto de datos.


lago delta es un marco de almacenamiento de código abierto en la arquitectura Lakehouse que potencia los lagos de datos en el almacenamiento de objetos como MinIO. Garantiza transacciones ACID, manejo de metadatos escalable y procesamiento unificado para Apache Spark, ofreciendo confiabilidad y escalabilidad. Delta Lake puede manejar los desafíos de rendimiento y corrección de cargas de trabajo complejas de Spark, especialmente en situaciones de gran concurrencia, con actualizaciones no atómicas y operaciones de metadatos que causan importantes cuellos de botella.


Hudí está arraigado en el ecosistema Hadoop, y el propósito principal de Hudi es disminuir la latencia durante la ingestión de datos de transmisión, ofreciendo características como tablas, transacciones, upserts/deletes, índices avanzados y compatibilidad con varias implementaciones de almacenamiento, incluido el almacenamiento de objetos nativo de la nube. como MinIO.


Se ha escrito mucho sobre la elección entre diferentes formatos, y algunos afirman que hasta 80% equivalencia funcional entre los tres formatos principales de Open Table. Esta combinación de distinciones tiene sentido dado el entorno de interoperabilidad en el que se crearon y continúan prosperando estos formatos de mesa abierta. Los creadores de estos formatos priorizaron la capacidad sobre las nociones tradicionales de dependencia del proveedor y control operativo.

Abrir formatos de tabla como parte de la pila de datos moderna

Incluso antes de estos anuncios recientes, los formatos de tablas abiertas ya se habían convertido en parte integral del diseño moderno de lagos de datos. Y, recíprocamente, los lagos de datos han sido parte integral de la pila de datos moderna. Un reciente encuesta por Dremio descubrió que el 70% de los encuestados dijeron que más de la mitad de sus análisis están o estarían en un lago de datos dentro de tres años. Esta adopción generalizada significa un cambio de paradigma en la forma en que las organizaciones estructuran y gestionan sus datos, poniendo un fuerte énfasis en la interoperabilidad, la flexibilidad y el rendimiento.


En realidad, no sorprende que los lagos de datos nativos de la nube y sus componentes y tecnologías, como los formatos de tablas abiertas, se hayan convertido en el centro de atención de la pila de datos moderna. Esto contrasta marcadamente con el hardware y software heredado, monolítico y tradicional, que se vende al por mayor a organizaciones que esperan incluir la frase "tecnología de nube" en sus sistemas obsoletos. Convertirse en nativo de la nube es más que agregar una API: la pila de datos moderna es un conjunto modular y especializado de herramientas diseñadas para diversas facetas del manejo de datos. Está diseñado para la adaptabilidad, nace en la nube y cumple con estándares de alto rendimiento. Características que hacen que la pila de datos moderna sea una opción atractiva para las organizaciones. La modularidad de la pila proporciona una variedad de opciones, lo que permite a las organizaciones crear una infraestructura de datos personalizada que se alinee con sus necesidades específicas, fomentando la agilidad en el panorama de datos en continua evolución.


A pesar de esta gama de opciones en continua evolución, existen características definitorias que se entrelazan en los componentes de la pila:


  • Nativo de la nube: la pila de datos moderna está diseñada para escalar sin problemas a través de diversos entornos de nube, lo que garantiza la compatibilidad con múltiples nubes para evitar la dependencia de un proveedor.


  • Rendimiento optimizado: Diseñado para la eficiencia, la pila incorpora componentes que adoptan un enfoque de software primero y un diseño para el rendimiento.


  • Compatibilidad API RESTful: la pila establece un marco de comunicación estandarizado entre sus componentes. Esto promueve la interoperabilidad y apoya la creación de microservicios.


  • Almacenamiento y computación desagregados: la pila permite el escalado independiente de los recursos computacionales y la capacidad de almacenamiento. Este enfoque optimiza la rentabilidad y mejora el rendimiento general al permitir que cada aspecto escale según las necesidades específicas.


  • Compromiso con la apertura: más allá de admitir formatos de tablas abiertas, la pila de datos moderna adopta la apertura en forma de soluciones de código abierto. Este compromiso elimina los silos de propiedad y mitiga la dependencia de los proveedores, fomentando la colaboración, la innovación y una mejor accesibilidad a los datos. La dedicación a la apertura refuerza la adaptabilidad de la pila a través de diversas plataformas y herramientas, garantizando la inclusión.

Portabilidad e interoperabilidad de datos como estándar empresarial


Adoptar verdaderamente la portabilidad y la interoperabilidad de los datos significa poder crear y acceder a datos dondequiera que estén. Este enfoque facilita la flexibilidad, permitiendo a las organizaciones aprovechar las capacidades de diversas herramientas sin verse limitadas por la dependencia de proveedores o silos de datos. El objetivo es permitir el acceso universal a los datos, promoviendo un ecosistema de datos más ágil y adaptable dentro de las organizaciones.


Comprender que la nube como modelo operativo se basa en principios de tecnología nativa de la nube y no en una ubicación específica es fundamental para lograr la portabilidad de los datos. Algunas organizaciones lucha en este esfuerzo e intentar comprar su camino hacia la nube a un costo tremendo. La realidad es que, si bien la adopción de la nube presenta una oportunidad para que la empresa promedio aumentar la rentabilidad entre un 20 y un 30 por ciento , el impacto real y el verdadero ahorro de costos provienen de adoptar el modelo operativo de nube en infraestructura privada.


Muchas organizaciones establecidas están adoptando activamente esta filosofía, optando por repatriar cargas de trabajo desde la nube y logrando ahorros sustanciales de costos, con empresas como X.com , 37Signals y una importante empresa de seguridad empresarial ahorrando un promedio del 60% desde las salidas de las nubes. El modelo operativo de la nube permite la coexistencia de ideas aparentemente contradictorias: las empresas pueden beneficiarse de la migración a la nube y la repatriación de cargas de trabajo. El determinante clave es la adopción del modelo operativo de la nube, transformando fundamentalmente la forma en que las organizaciones abordan la infraestructura, el desarrollo y la eficiencia técnica. Este modelo optimiza la flexibilidad, la eficiencia y el éxito a largo plazo, ya sea en la nube pública o más allá, y encaja precisamente con el concepto de pila de datos moderna, permitiendo la portabilidad de datos y la interoperabilidad con formatos de tablas abiertas.

Conclusión

Los avances recientes en formatos de tablas abiertas por parte de Databricks, Apache Iceberg y Hudi significan un momento crucial en la gestión de datos. La compatibilidad universal de Delta Lake 3.0 y el soporte ampliado para Apache Iceberg muestran el compromiso tanto de las empresas de infraestructura de datos como de los implementadores sobre el terreno con la portabilidad e interoperabilidad de datos sin problemas.


Estos desarrollos se alinean con la modularidad inherente de la pila de datos moderna, donde los formatos de tablas abiertas desempeñan un papel central para lograr estándares de rendimiento y cumplimiento. Este cambio no es aislado sino que se cruza con el modelo operativo de la nube. Más allá del atractivo de las nubes públicas, el impacto real y el ahorro de costos surgen al adoptar el modelo operativo de la nube en infraestructura privada.


La confluencia de formatos de tablas abiertas, la pila de datos moderna y el modelo operativo de la nube significa una era transformadora en la gestión de datos. Este enfoque garantiza la adaptabilidad en diversos entornos, ya sean públicos o privados, en las instalaciones y en el borde. Para aquellos que navegan por las complejidades de la arquitectura del lago de datos, nuestro equipo en MinIO está listo para ayudarlo. Únase a nosotros en [email protected] o en nuestro Flojo canal para debates colaborativos a medida que se embarca en su viaje de datos.