paint-brush
Uso de tablas externas para almacenar y consultar datos en MinIO con SQL Server 2022por@minio
8,347 lecturas
8,347 lecturas

Uso de tablas externas para almacenar y consultar datos en MinIO con SQL Server 2022

por MinIONaN2023/07/24
Read on Terminal Reader
Read this story w/o Javascript

Demasiado Largo; Para Leer

Con Microsoft SQL Server 2022, el almacenamiento de objetos se convierte en un ciudadano de primera clase a través de una técnica llamada tablas externas. Hay dos partes. Primero, un conector S3. En segundo lugar, mejoras en el marco de virtualización de datos de Polybase. Con esta adición, las empresas ahora pueden consultar almacenes de objetos masivos con SQL Server 2022, dondequiera que existan esos almacenes de objetos. La nueva función aborda dos desafíos clave de los clientes: formas de acceder a los datos donde están y no tener que aprender nuevos idiomas. Con MinIO, los datos pueden estar en cualquier lugar: infraestructura de nube pública, nubes privadas, distribuciones de Kubernetes, perímetro.
featured image - Uso de tablas externas para almacenar y consultar datos en MinIO con SQL Server 2022
MinIO HackerNoon profile picture
0-item

Los datos son una cosa, la percepción es otra. Hay una variedad de formas de extraer información de la información, y esa variedad viene con compensaciones. Si piensa en esto como una pirámide, tiene AI en la parte superior, ML justo debajo, análisis avanzado debajo y SQL como base. Esta es una imagen simplificada pero representativa de la analítica en la empresa.



El desafío es que el talento de AI/ML es realmente difícil de conseguir. Esto no es necesariamente una noticia, pero se cristalizó en conversaciones con colegas que son responsables de ejecutar análisis para algunas de las compañías más grandes de Fortune 500. Si bien AI y ML prometen proporcionar algunos de los conocimientos más profundos sobre los datos, configurar y aprovechar estas canalizaciones de ML requiere capacidades de ciencia de datos altamente sofisticadas. En muchos casos, estos son proyectos de largo alcance que tardan meses, si no años, en completarse, y pueden requerir volver a capacitar al personal existente para aprender estos nuevos paradigmas de ciencia de datos.


Por otro lado, las habilidades de SQL están en todas partes en la organización y son la lengua franca de los datos. Así es como el mundo le habla a las bases de datos. Es por eso que el 95% de Fortune 500 ejecuta SQL Server de Microsoft. Puede que no haya una tecnología de datos más omnipresente en la empresa.


Con Microsoft SQL Server 2022 , el almacenamiento de objetos se convierte en un ciudadano de primera clase a través de una técnica llamada tablas externas. Hay dos partes. Primero, un conector S3. En segundo lugar, mejoras en el marco de virtualización de datos de Polybase.


Con esta adición, las empresas ahora pueden consultar almacenes de objetos masivos con SQL Server 2022, dondequiera que existan esos almacenes de objetos. La nueva función aborda dos desafíos clave de los clientes: formas de acceder a los datos donde están y no tener que aprender nuevos idiomas.


Con MinIO, los datos pueden estar en cualquier lugar: infraestructura de nube pública, nubes privadas, distribuciones de Kubernetes, perímetro.


Profundicemos un poco más.

Acceda a datos en cualquier lugar con la combinación de Minio y Microsoft SQL Server 2022

Microsoft SQL Server 2022 tiene dos características clave que los usuarios de MinIO pueden aprovechar.

En primer lugar, permite a los administradores de bases de datos realizar copias de seguridad y restaurar datos en cualquier entorno de nube mediante la API de S3. En segundo lugar, SQL Server 2022 amplía la función de tablas externas que se introdujo inicialmente en SQL Server 2016.


Las tablas externas permiten al usuario ejecutar consultas en datos que no están almacenados directamente en SQL Server. Eso libera al usuario para tener la flexibilidad de la arquitectura para ejecutar SQL Server donde quiera y almacenar sus datos donde y como quiera, al tiempo que conserva la capacidad de consultar esos datos sin moverlos. La nueva funcionalidad de tablas externas ahora le permite llegar a todos los formatos de archivo compatibles más el almacenamiento orientado a objetos Parquet y S3.


Esto ampliará drásticamente la cantidad de datos que puede consultar el servidor SQL.


Por ejemplo, EnterpriseCo podría estar ejecutando SQL Server en Azure. Anteriormente, movían datos al servidor Azure/SQL para realizar sus consultas. Ahora, EnterpriseCo puede acceder a esos datos en las instalaciones, sin tener que mover los datos a ninguna parte. Esto significa que esas consultas pueden ejecutarse en conjuntos de datos de tamaño PB.


Las opciones arquitectónicas se vuelven casi infinitas. Ejecute SQL Server localmente y acceda a los datos en la nube. Ejecute SQL Server localmente y acceda a los datos en la nube privada. Ejecute SQL Server en la nube y acceda a los datos en el perímetro. Cree un sistema de análisis tolerante a fallas con replicación activa-activa de múltiples nubes usando MinIO y SQL Server. Las consideraciones principales son el rendimiento y están determinadas por las ubicaciones relativas de SQL Server y los datos.


El truco está en optimizar las implementaciones. Todos los almacenes de objetos se beneficiarán de la función de tabla externa, pero MinIO se beneficia de manera desproporcionada. La razón es simple: en un mundo donde los datos empresariales se distribuyen en varias nubes, la coherencia es importante. MinIO puede servir como almacén de datos en la nube pública, la nube privada y el perímetro. Como la capa de datos coherente, la seguridad, la gestión de acceso, la resiliencia y la gestión del ciclo de vida también son coherentes. El rendimiento puede ser consistente o puede ser escalonado según las necesidades del negocio, mientras todo lo demás permanece igual.


El mecanismo para hacer esto en SQL Server 2022 es a través de una función de virtualización de datos conocida como Polybase.


Polybase permite a un usuario consultar datos utilizando Transact-SQL directamente no solo desde SQL Server, sino también desde la mayoría de las otras instalaciones de bases de datos (como Oracle, Teradata, MongoDB, etc.) y ahora las API de S3. MinIO proporciona la capacidad única de acceder a todos los entornos de nube hiperescaladores. La combinación de los dos (SQL Server 2022 y MinIO) permite que una empresa acceda a los datos y obtenga información de los silos de datos que, hasta ahora, estaban segmentados y eran difíciles de combinar.


Una característica clave de PolyBase es la capacidad de permitir que los datos permanezcan en su ubicación y formato originales. Los datos externos se pueden consultar en su lugar como cualquier otra tabla en SQL Server. Este escenario minimiza la necesidad de movimiento de datos y replicación de datos. Uno de los mayores problemas que presenta la replicación de datos es la reconciliación, las empresas desperdician miles de horas de trabajo y computan la reconciliación de datos todas las noches.


SQL Server 2022 permite la replicación continua de datos hacia y desde la nube, lo que permite capacidades de recuperación ante desastres. La combinación con MinIO permite que los datos rápidos residan en motores de datos rápidos basados en NVMe y los nivele en cualquier cantidad de niveles más lentos. Estos componentes se ejecutan en paralelo para permitirle leer, escribir y procesar big data mediante bibliotecas Transact-SQL o Spark, lo que le permite combinar y analizar fácilmente sus datos relacionales de alto valor con big data no relacional de gran volumen.


Además, SQL Server 2022 se integra con Active Directory e incluye control de acceso basado en roles para satisfacer las necesidades de seguridad y cumplimiento de una empresa.

Por qué esto es importante

La importancia de la adición de tablas externas no se puede exagerar.


En primer lugar, es una prueba más de que el almacenamiento de objetos se ha convertido en el almacenamiento principal en lo que respecta a la infraestructura de datos. A la gente de SAN/NAS no le gusta este mensaje, pero con cada semana que pasa, otra base de datos importante o componente de datos activa el almacenamiento de objetos de una manera ciudadana de primera clase. No hay muchos reticentes y aquellos que resisten se ven bastante especializados en estos días.


En segundo lugar, esto permite que las consultas SQL se ejecuten en conjuntos de datos mucho más grandes que nunca antes. A su vez, eso genera la posibilidad de generar más valor a partir de los datos existentes y nuevo valor a partir de los datos de cola larga u “oscuros”. Los repositorios SAN/NAS generalmente chocan con una pared en unos pocos PB. ¿Imagínese ejecutar una consulta contra 10 o 100 de PB? Eso está sobre la mesa en este momento.


En tercer lugar, esto consolida aún más la historia de desagregación de segunda generación que hemos estado viendo durante un par de años. La primera generación es la separación de almacenamiento y computación. La segunda generación, paralela, es la capa de aplicación de análisis (SQL o Splunk o Vertica) que desagrega la función de consulta de la función de almacenamiento. Esto está francamente en todas partes y es lo mejor para los jugadores de consultas, los jugadores de almacenamiento y los clientes. Significa que los clientes crearán las mejores pilas personalizadas para las necesidades específicas de su caso de uso. Hará hincapié en el rendimiento, la resiliencia, la seguridad, la nube nativa y la escalabilidad en el lado del almacenamiento, lo que a su vez exigirá que la solución esté definida por software.


Cuarto, esto satisface a los clientes donde están en términos de múltiples nubes. Los clientes no quieren ejecutar SQL Server 2022 en un solo lugar, quieren ejecutarlo dondequiera que residan sus datos. La adición de tablas externas (y MinIO como socio) satisface esa necesidad. En las instalaciones Controlar. Azur. Controlar. Cualquier otra nube pública y distribución de Kubernetes. Controlar.


Este es un momento decisivo para SQL Server y para MinIO. Vamos a ser la tienda de objetos de referencia por todas las razones descritas anteriormente y eso ampliará nuestra ya profunda penetración en las cuentas F500.

Ejemplos de casos de uso de clientes

No podemos entrar en demasiados detalles en esta etapa, pero tenemos varios clientes que han estado esperando ansiosamente la Ventana de Acceso Anticipado para comenzar a construir hacia la fecha de GA de noviembre.


Por ejemplo, uno de los bancos Fortune100 con los que trabajamos almacena grandes cantidades de datos de comportamiento del cliente en clústeres de almacenamiento S3. Con el fin de ejecutar consultas SQL simples para generar inteligencia básica a partir de estos datos, han utilizado técnicas en el pasado para ingerir partes de estos datos en ciertas bases de datos y luego ejecutar consultas contra ellos. Este cliente se está registrando en el programa de acceso anticipado de Microsoft para que pueda ejecutar consultas en sus datos sin necesidad de replicarlos en nuevas instancias de base de datos. Esto les ahorrará una cantidad significativa de tiempo y el dolor de cabeza de la reconciliación de datos con el que la mayoría de los bancos deben lidiar. Además, si este banco decide emplear técnicas de aprendizaje automático para generar conocimientos más sofisticados a partir de estos datos, tendrá la capacidad de aprovechar las plataformas MLOps que se pueden escalar fácilmente en los clústeres de Kubernetes junto con su implementación original.


En otro ejemplo, tenemos un gran cliente minorista que necesita traer información de sistemas de puntos de venta distribuidos a un almacén de datos centralizado que utiliza MinIO como plataforma de almacenamiento de objetos para toda la actividad nocturna. Los archivos pueden estar en formato parquet o csv y se transfieren a cubos. En el pasado, los equipos de análisis empresarial necesitaban importar estos datos a sus entornos de SQL Server para ejecutar análisis por lotes en estos datos. Sin embargo, con la introducción de SQL Server 2022, los clientes como este tendrán la capacidad de ejecutar análisis directamente contra los datos que se encuentran en los depósitos S3 en MinIO. Esto no solo les ahorrará tiempo, sino que también les ahorrará los gastos asociados con la replicación y reconciliación de datos. Igual de importante, el minorista (cualquier empresa para el caso) podrá aprovechar las canalizaciones de AI/ML para obtener información más profunda directamente de estos datos. En el caso de Microsoft, el minorista ha brindado integración con Azure Synapse para impulsar canalizaciones profundas de ML. Otros métodos para impulsar este nivel de conocimientos pueden aprovechar TensorFlow, Kubeflow y Pytorch, todos los cuales tienen una integración de primera clase con MinIO.

Que esperar

Con el anuncio de hoy, la ventana de acceso anticipado está abierta. Hay algunas cosas que no están presentes en esta versión (recuperación de desastres, por ejemplo), pero estarán listas en breve.


La expectativa es un lanzamiento general en noviembre, pero alentamos a todos nuestros clientes empresariales a que comiencen ahora. Ayudará con el dimensionamiento para cumplir con los requisitos de la carga de trabajo específica. Algunos clientes serán grandes, otros lo mantendrán en cientos de TB. La clave es que correctamente configurados, ambos irán rápido.

Que sigue

Vamos a realizar un seminario web con Hugo Queiroz en DevOps.com el 12 de julio. Esto brindará una descripción general de la propuesta de valor conjunta y la oportunidad de participar y ver exactamente cómo configurar SQL Server 2022 para gritar a escala con externos. mesas. La inscripción estará abierta en breve.


Mientras tanto, no dude en comunicarse con [email protected] o únase a nosotros en nuestro canal de Slack para cualquier pregunta que pueda tener.


También publicado aquí .