A medida que las aplicaciones impulsadas por la IA se mueven de la experimentación a los sistemas de producción en tiempo real, las expectativas colocadas en la búsqueda de similitud vectorial continúan aumentando drásticamente.Los equipos ahora necesitan soportar conjuntos de datos a gran escala, alta concurrencia, estrictos presupuestos de latencia p99 y un nivel de simplicidad operativa que reduzca la sobrecarga arquitectónica en lugar de añadirla. ScyllaDB Vector Search fue construido con estas restricciones en mente. Ofrece un motor unificado para almacenar datos estructurados junto con embeddings no estructurados, y logra un rendimiento que impulsa los límites de lo que un sistema de base de datos gestionado puede ofrecer a escala. Los resultados de nuestro reciente benchmark de 1 billón de vectores de gran escala muestran que ScyllaDB demuestra tanto una latencia ultra baja como un comportamiento altamente predecible bajo carga. La arquitectura a la vista Para lograr un rendimiento de un milisegundo bajo en conjuntos de vectores masivos, ScyllaDB adopta una arquitectura que separa las responsabilidades de almacenamiento e indexación al tiempo que mantiene el sistema unificado desde la perspectiva del usuario. Los nodos ScyllaDB almacenan tanto los atributos estructurados como las incorporaciones de vectores en la misma tabla distribuida. Mientras tanto, un servicio dedicado de Vector Store – implementado en Rust y alimentado por el motor USearch optimizado para soportar las latencias de milisegundo de un único dígito previsibles de ScyllaDB – consume actualizaciones de ScyllaDB a través de CDC y construye índices de vecindario aproximado (ANN) en la memoria. SELECT … ORDER BY vector_column ANN_OF ? LIMIT k; Luego se redireccionan internamente a la tienda de vectores, que realiza la búsqueda de similitud y devuelve las filas candidatas. Este diseño permite que cada capa se escale independientemente, optimizando para sus propias características de carga de trabajo y eliminando la interferencia de los recursos. Benchmarking de mil millones de vectores Para evaluar el rendimiento del mundo real, ScyllaDB ejecutó un Usando el conjunto de datos publicamente disponible yandex-deep_1b, que contiene 1 billón de vectores de 96 dimensiones. La configuración consistió en seis nodos: tres nodos ScyllaDB ejecutados en instancias i4i.16xlarge, cada uno equipado con 64 vCPUs, y tres nodos Vector Store ejecutados en instancias r7i.48xlarge, cada uno con 192 vCPUs. Esta configuración de hardware refleja implementaciones de producción realistas donde la base de datos y las capas de indexación de vectores están provistas de diferentes perfiles de recursos. Los resultados se centran en dos escenarios de uso con objetivos de precisión y latencia distintos (detallados en las siguientes secciones). Un benchmark riguroso Una profundización arquitectónica completa, incluyendo diagramas, compromisos de rendimiento y resultados de referencia ampliados para conjuntos de datos de dimensiones superiores, se puede encontrar en el blog técnico Estos resultados adicionales siguen el mismo patrón visto en las pruebas de 96 dimensiones: excepcionalmente baja latencia, alta transmisión y estabilidad en una amplia gama de perfiles de carga simultáneos. Construir un motor de búsqueda de vectores de baja latencia para ScyllaDB Construir un motor de búsqueda de vectores de baja latencia para ScyllaDB Escenario #1 – Latencia ultra baja con recogida moderada El primer escenario fue diseñado para cargas de trabajo como motores de recomendación y sistemas de personalización en tiempo real, donde el objetivo principal es una latencia extremadamente baja y el llamado puede ser moderadamente relajado. usamos parámetros de índice m = 16, ef-construcción = 128, ef-search = 64 y distancia de Euclides. En aproximadamente el 70% de los llamados y con 30 búsquedas simultáneas, el sistema mantuvo una latencia de p99 de solo 1,7 milisegundos y un p50 de sólo 1,2 milisegundos, mientras que soportaba 25.000 consultas por segundo. Al expandir la ventana de rendimiento (aún manteniendo la latencia p99 por debajo de 10 milisegundos), el clúster alcanzó 60,000 QPS para k = 100 con una latencia p50 de 4,5 milisegundos, y 252,000 QPS para k = 10 con una latencia p50 de 2,2 milisegundos. Escenario #2 – Recuerdo alto con una latencia ligeramente mayor El segundo escenario se dirige a sistemas que requieren un llamado casi perfecto, incluyendo búsqueda semántica de alta fidelidad y tuberías de generación aumentadas por la recuperación. Aquí, los parámetros de índice se incrementaron significativamente a m = 64, ef-construction = 512, y ef-search = 512. Esta configuración eleva los requisitos de computación pero mejora dramáticamente el llamado. Con 50 búsquedas y llamadas simultáneas que se acercaron al 98%, ScyllaDB mantuvo la latencia de p99 por debajo de 12 milisegundos y p50 por debajo de 8 milisegundos al entregar 6.500 QPS. Cuando cambió el enfoque a la transmisión máxima sostenida mientras mantuvo la latencia de p99 por debajo de 20 milisegundos y p50 por debajo de 10 milisegundos, el sistema alcanzó 16.600 QPS. Incluso bajo estos ajustes, la latencia permaneció notablemente estable en valores de k de 10 a 100, demostrando un comportamiento predictible en entornos donde los límites de la consulta varían dinámicamente. Resultados detallados La siguiente tabla presenta el resumen de los resultados para algunos niveles representativos de concurrencia. La búsqueda vectorial unificada sin la complejidad Una gran ventaja de integrar Vector Search con ScyllaDB es que proporciona un rendimiento sustancial y ventajas de costo de red. La tienda de vectores reside cerca de los datos con sólo un solo salto de red entre los metadatos y el almacenamiento de embalaje en la misma zona de disponibilidad. Esta localidad, combinada con el modelo de ejecución shard-per-core de ScyllaDB, permite al sistema proporcionar latencia en tiempo real y gran rendimiento incluso bajo una carga pesada. Además de ser rápido en escala, la búsqueda vectorial de ScyllaDB también es más sencilla de operar. Su principal ventaja es su capacidad de unificar la búsqueda estructurada y no estructurada dentro de un único conjunto de datos. Esto significa que puede almacenar atributos tradicionales y incorporaciones vectoriales lado a lado y expresar consultas que combinen la búsqueda semántica con la búsqueda convencional. Por ejemplo, puede pedir a la base de datos que “encuentre los cinco documentos más similares, pero sólo los que pertenecen a este cliente específico y se crearon en los últimos 30 días”. Esto también significa que no hay derivación ETL y no hay riesgo de doble escritura. En lugar de enviar embeddings a una base de datos vectorial separada mientras se mantienen metadatos en una tienda de transacciones, ScyllaDB consolida todo en un único sistema. El único tubo que necesita es el paso computacional que genera embeddings usando su modelo LLM o ML preferido. Una vez escrito, los datos permanecen consistentes sin coordinación adicional, backfills o trabajos de streaming complejos. Operativamente, ScyllaDB simplifica toda la pila de recuperación. Debido a que está construido sobre la arquitectura distribuida probada de ScyllaDB, el sistema es altamente disponible, escalable horizontalmente y resiliente a través de zonas y regiones de disponibilidad. En lugar de operar dos o tres tecnologías diferentes -cada una con su propio monitoreo, configuraciones de seguridad y modos de fallo- sólo se gestiona uno. Mapa de ruta El producto está ahora en disponibilidad general. Esto incluye la provisión de Portal en la nube, la facturación a demanda, una gama completa de tipos de instancias y optimizaciones de rendimiento adicionales. Se planea escalar el auto-servicio para el Q1. A finales del Q1 introduciremos capacidades de filtro nativo, permitiendo que las consultas de búsqueda vectorial combinen los resultados de ANN con predicates tradicionales para una recuperación híbrida más precisa. Mirando más adelante, el mapa de ruta incluye soporte para la cuantización escalar y binaria para reducir el uso de la memoria, la funcionalidad TTL para la automatización del ciclo de vida de los datos vectoriales, y la búsqueda híbrida integrada que combina ANN con BM25 para una relevancia léxica y semántica unificada. Conclusión ScyllaDB ha demostrado que es capaz de ofrecer el rendimiento líder de la industria para la búsqueda de vectores a gran escala, manejando un conjunto de datos de 1 billón de vectores con una latencia de p99 tan baja como 1,7 milisegundos y un rendimiento de hasta 252.000 QPS. Estos resultados validan ScyllaDB Vector Search como una solución unificada y de alto rendimiento que simplifica la complejidad operativa de las aplicaciones de IA en tiempo real mediante la localización conjunta de datos estructurados y incorporaciones no estructuradas. Los estándares actuales muestran el estado actual de la escalabilidad de ScyllaDB. Con las mejoras planificadas en el próximo roteiro, incluida la cuantización escalar y el sharding, estos límites de rendimiento están previstos para aumentar en el próximo año.