Introduction Introducción En mi última parte de esta serie, le pregunté: Y eso llevó a una conversación con Philip Moore, otro alumno que ha fundado GizmoData, donde está trabajando en algunos proyectos bastante fascinantes. Uno es GizmoEdge, que podría escribir en el futuro, y el otro es GizmoSQL, el tema de este artículo. ¿Qué hace? ¿Por qué es interesante? ¿Por qué lo querrías? ¿Qué es el Heck dbc? Voltron Datos ¿Qué es el Heck dbc? Voltron Datos Background El fondo Primero, GizmoSQL es un motor de base de datos SQL de código abierto y un servidor alimentado por y ¿Qué es DuckDB? , y ha avanzado significativamente desde entonces. Es un motor de base de datos analítica de código abierto, en proceso diseñado para cargas de trabajo OLAP, ejecutando consultas SQL complejas directamente dentro de las aplicaciones sin requerir un servidor separado. Construido con un formato de almacenamiento de columnas y ejecución vectorizada, ofrece alto rendimiento para grandes conjuntos de datos en análisis de datos, pipelines ETL y análisis incorporado. DuckDB Aplicaciones de Apache Arrow Flight SQL Primero “Lo que es el Heck...” artículo DuckDB Aplicaciones de Apache Arrow Flight SQL Primero “Lo que es el Heck...” artículo Apache Arrow Flight SQL es un protocolo estratificado en Arrow Flight RPC que permite a los clientes ejecutar consultas SQL estándar contra servidores de bases de datos remotas, con resultados transmitidos de vuelta en el eficiente formato de columna de Arrow en memoria. proporciona transferencia de datos de alto rendimiento y baja latencia para cargas de trabajo analíticas, facilitando la integración sin problemas con los ecosistemas de Arrow como Pandas, Polars, DuckDB y las plataformas de datos que soportan el protocolo. Apache Arrow Flight SQL es parte del ecosistema Apache Arrow, que en sí misma es una plataforma de análisis en memoria que proporciona un formato de memoria de columna estandarizado. Elimina la serialización y la deserialización al mover datos entre sistemas y lenguajes de programación, permitiendo lecturas de copia cero y compartir datos de manera eficiente. Eso es todo, algunas tecnologías bastante cool y potencialmente confusas para sumergirse, y eso es lo que hace que GizmoSQL sea interesante: obtener ese poder y reducir la complejidad. What is GizmoSQL? ¿Qué es GizmoSQL? Quebrado a sus bases, GizmoSQL es un pequeño servidor que ejecuta DuckDB, con el protocolo SQL Arrow Flight envuelto alrededor de él para que puedas ejecutar DuckDB remotamente. ¿Por qué quieres hacerlo? DuckDB es un motor fantástico; puedes ejecutarlo en tu portátil y manejar miles de millones de líneas, por ejemplo. Ahora imagínate que se ejecuta en una VM en un servicio en la nube donde puedes asignar números locos de núcleos y RAM, y ahora estás hablando de billones de líneas. Con todo ese fondo, es hora de cavar con capturas de pantalla abundantes. Digging in Digerir en Hay una Disponible con el conjunto de datos TPC-H precargado y un par de docenas de consultas preescritas para que puedas probar. En nuestra primera captura de pantalla, esta es la vista predeterminada cuando entras por primera vez, y solo puedes ejecutar la consulta. Una característica pequeña aquí es tu historial de consultas, que incluye el tiempo de ejecución. Puedes ver que ya he hecho algunas cosas, pero también tenga en cuenta que simplemente hacer clic en una consulta en el historial la cargará de nuevo en la ventana SQL, sin necesidad de copiar/pasar. free demo free demo La tabla de clientes aquí tiene 1,5 millones de líneas, y escribí una consulta para contar todos los registros donde c_nationkey es 15. Vamos a intentar Query 22, Oportunidad de ventas global: Puedes ver que se ejecutó en menos de un segundo, con un montón de procesamiento en curso, lo que es bastante impresionante. Esto terminó en unos segundos, lo que es tan loco. He estado haciendo cosas como esta desde principios de los años 80, y me da la impresión de cómo ha evolucionado la tecnología de bases de datos. Habíamos tenido que jugar un montón de trucos para hacer que las cosas se ejecutaran rápidamente, pero las ejecuciones que tomaron horas no eran raras. tuve un proceso de fin de año que tomó 10 días para ejecutarse. escribí algunas intercepciones del sistema operativo para optimizarlo y lo redujo a 4 horas, e incluso esa cantidad de tiempo en el mundo de hoy parece loco largo. Summary Resumen Lo que GizmoData ha hecho aquí es combinar alguna tecnología, hacer alguna innovación sobre ella, y hacer un producto estúpidamente simple que le da una velocidad increíble y facilidad de uso. Sí, lo es, pero también es diferente en cómo se integra Arrow Flight SQL. ¿se ajusta esto a tu pila? Eso depende de ti decidir, por supuesto, pero hay una buena selección de integraciones y adaptadores que abren las cosas para ti. Maternidad Maternidad Esto es inteligente, y me gustan las cosas inteligentes.Si todavía estuviera en el sector privado, estaría usando este tipo de cosa todo el tiempo.No quiero cheerlead demasiado cuando me encuentro con la nueva tecnología, pero cuando encuentro algo que hubiera hecho mi vida mucho más fácil, puedo chupar un poco. ¿Quieres leer más en mi “¿Qué es el Heck?” serie? una lista útil está abajo: ¿Qué es el DuckDB? ¿Qué es el Heck Malloy? ¿Qué es el Heck PRQL? ¿Qué es GlareDB? ¿Qué es el Heck SeaTunnel? ¿Qué es LanceDB? ¿Qué es el SDF? ¿Qué es el Heck Paimon? ¿Qué es el Heck Proton? ¿Qué es el PuppyGraph? ¿Qué es GPTScript? ¿Qué es WarpStream? ¿Qué es DeltaStream? ¿Qué es OpenMetadata? ¿Qué es el Heck dbc? ¿Qué es el DuckDB? ¿Qué es el Heck Malloy? ¿Qué es el Heck PRQL? ¿Qué es GlareDB? ¿Qué es el Heck SeaTunnel? ¿Qué es LanceDB? ¿Qué es el SDF? ¿Qué es el Heck Paimon? ¿Qué es el Heck Proton? ¿Qué es el PuppyGraph? ¿Qué es GPTScript? ¿Qué es WarpStream? ¿Qué es DeltaStream? ¿Qué es OpenMetadata? ¿Qué es el Heck dbc?