1,202 lecturas

Apache Cassandra: la base de datos que ayuda a Uber y Apple a eliminar el riesgo de sus proyectos de IA

por DataStax4m2023/08/07

Demasiado Largo; Para Leer

Los usuarios a gran escala de Cassandra, como Uber y Apple, ejemplifican cómo este sistema de base de datos puede reducir efectivamente el riesgo en proyectos de IA/ML.

featured image - Apache Cassandra: la base de datos que ayuda a Uber y Apple a eliminar el riesgo de sus proyectos de IA

El reciente tsunami de inteligencia artificial ha creado mucha presión para moverse rápido solo para mantenerse al día. Algunos pueden estar inclinados a sacrificar la estabilidad y la calidad para ponerse en marcha rápidamente con las herramientas más avanzadas. Felizmente, no tiene por qué ser así.

En el mundo de la IA y el aprendizaje automático (AI/ML), la elección de una base de datos puede afectar significativamente el éxito de su proyecto. Uno de los factores clave a considerar es el riesgo asociado con la escalabilidad y confiabilidad del sistema de base de datos. Apache Cassandra, una base de datos distribuida altamente escalable y de alto rendimiento, ha demostrado ser líder en la industria en este sentido. Ofrece funciones que reducen significativamente el riesgo asociado con los proyectos de IA/ML, lo que la convierte en la opción preferida de muchas organizaciones.

Los usuarios a gran escala de Cassandra, como Uber y Apple , ejemplifican cómo este sistema de base de datos puede reducir efectivamente el riesgo en proyectos de IA/ML. Uber utiliza Cassandra para el procesamiento de datos en tiempo real y para la retención la tienda de características directamente en Cassandra para predicciones. La capacidad de comenzar poco a poco y escalar según sea necesario, junto con una alta confiabilidad, permite a Uber administrar grandes cantidades de datos sin el riesgo de fallas en el sistema o degradación del rendimiento. Muchos sistemas más nuevos creados para cargas de trabajo de IA están tratando de generar escalabilidad en torno a una función en particular, pero los usuarios que hacen IA a escala han estado usando Cassandra durante años.

Escalabilidad y rendimiento

Las aplicaciones de AI/ML a menudo manejan grandes cantidades de datos y requieren un procesamiento de alta velocidad. Planificar para cuando se necesita capacidad es una tarea difícil. ¿El mejor plan? Solo evítalo. En su lugar, opte por una base de datos que pueda escalar rápidamente cuando la necesite y que nunca lo deje con capacidad sobreaprovisionada.

La capacidad central de Cassandra para escalar horizontalmente todavía la distingue de muchas otras bases de datos. A medida que crecen sus datos, puede agregar más nodos al clúster de Cassandra para manejar el aumento del tráfico y los datos. Es así de simple. Esta característica es particularmente crucial para las aplicaciones de IA/ML, que se ocupan de conjuntos de datos cada vez más grandes.

Uber es un hiperescalador y cada nuevo producto que presenta sigue aumentando sus requisitos de escala. Como uno de los mayores usuarios de Cassandra, aprovecha esta escalabilidad para manejar sus necesidades de datos en constante aumento y cambio. El alto rendimiento de escritura y lectura de Cassandra lo convierte en una excelente opción para el procesamiento de datos en tiempo real requerido en sus aplicaciones de IA y ML.

Procesamiento en tiempo real

El procesamiento de datos en tiempo real es un requisito fundamental para cualquier aplicación moderna. Los milisegundos cuentan cuando los usuarios buscan la mejor experiencia. Las aplicaciones de AI/ML a menudo necesitan analizar y responder a los datos a medida que llegan, ya sea para recomendaciones en tiempo real, análisis predictivos o modelos de precios dinámicos. Cassandra, con su alto rendimiento de escritura y lectura, es ideal para tales requisitos de procesamiento en tiempo real. La arquitectura de Cassandra le permite manejar grandes volúmenes de datos en muchos servidores básicos, lo que brinda alta disponibilidad sin ningún punto único de falla. Esto significa que los datos se pueden escribir y leer desde la base de datos casi al instante, lo que la convierte en una excelente opción para aplicaciones que requieren respuestas en tiempo real.

Uber Eats es un ejemplo práctico. La aplicación necesita procesar datos en tiempo real para brindarle recomendaciones de alimentos y tiempos de entrega estimados. Este procesamiento en tiempo real es posible gracias al alto rendimiento de Cassandra. No solo eso, la replicación predeterminada hace que las fallas de la infraestructura sean transparentes para los usuarios finales, lo que los mantiene contentos y usando la aplicación. La afluencia constante de datos cambiantes y los ciclos salvajes de uso es donde brilla Cassandra. Las organizaciones que utilizan Cassandra pasan más tiempo preocupándose por las funciones correctas de la aplicación y mucho menos por la base de datos que las respalda.

Volviéndose global con datos

Con Cassandra, los datos se replican automáticamente en varios nodos y estas réplicas proporcionan redundancia. Si un nodo falla, aún se puede acceder a los datos desde las réplicas. Esta característica garantiza que sus aplicaciones AI/ML permanezcan en funcionamiento, incluso ante fallas de hardware o problemas de red.

Pero la arquitectura distribuida de Cassandra no solo contribuye a su alta tolerancia a fallas, sino que también lo ayuda a mantenerse cerca de sus usuarios. Algunos usuarios casi dan por sentado su replicación de datos global predeterminada.

Compañías como Apple y Netflix han hablado sobre sus arquitecturas activo-activo que abarcan múltiples geografías alrededor del mundo durante tanto tiempo que ni siquiera es inusual. Además de la tolerancia a fallas, el aspecto centrado en el usuario de esta asombrosa capacidad es la ubicación de los datos. Si tiene usuarios en América del Norte, Asia y Europa, la centralización de datos en una ubicación generará latencias angustiosas para algunos subconjuntos de sus usuarios. La solución es simplemente replicar los datos en cada ubicación y brindarles a todos una ventana de latencia breve para los datos.

Eliminando el riesgo de su proyecto

Elegir la pila de tecnología adecuada es una parte importante de la eliminación de riesgos de cualquier proyecto. Con Cassandra, puede comenzar poco a poco y ampliar según sea necesario, proporcionando una solución rentable para su proyecto. Cassandra ha demostrado su confiabilidad a lo largo del tiempo, con algunas empresas ejecutando sus clústeres Cassandra durante más de 10 años sin apagarlos. Nueva tecnología con funciones desarrolladas específicamente para la IA se está agregando, pero algunas de las cargas de trabajo de AI/ML más pesadas se han administrado de manera silenciosa y consistente con Cassandra durante bastante tiempo. Dicho esto, se está convirtiendo en una opción aún más relevante para las cargas de trabajo de AI/ML en la actualidad.

La escalabilidad, el rendimiento, las capacidades de procesamiento en tiempo real y la longevidad de Cassandra la han convertido en una excelente opción para las aplicaciones de IA/ML. A medida que las aplicaciones de IA continúan evolucionando y se vuelven cada vez más integrales para las operaciones comerciales, la necesidad de bases de datos sólidas, confiables y eficientes como Cassandra solo crecerá. Al elegir Cassandra, no solo está seleccionando una base de datos; está preparando sus aplicaciones de IA/ML para el futuro.

Descubra cómo las bases de datos vectoriales como Cassandra y DataStax Astra DB permiten proyectos de IA generativa a gran escala

Por Patrick McFadin, DataStax .