À medida que as aplicações impulsionadas pela IA passam da experimentação para sistemas de produção em tempo real, as expectativas colocadas na busca de semelhança de vetores continuam a aumentar dramaticamente.As equipes agora precisam apoiar conjuntos de dados em bilhões, alta concorrência, orçamentos de latência p99 rigorosos e um nível de simplicidade operacional que reduz a sobrecarga arquitetônica em vez de adicioná-la. O ScyllaDB Vector Search foi construído com essas restrições em mente. Ele oferece um motor unificado para armazenar dados estruturados ao lado de incorporações não estruturadas, e alcança desempenho que empurra os limites do que um sistema de banco de dados gerenciado pode fornecer em escala. Os resultados do nosso recente benchmark de 1 bilhão de vetores em alta escala mostram que o ScyllaDB demonstra tanto latência ultra baixa quanto comportamento altamente previsível sob carga. Arquitetura em um olhar Para alcançar um desempenho de um milissegundo baixo em conjuntos de vetores maciços, o ScyllaDB adota uma arquitetura que separa as responsabilidades de armazenamento e indexação, mantendo o sistema unificado a partir da perspectiva do usuário. Os nós do ScyllaDB armazenam os atributos estruturados e as incorporações de vetores na mesma tabela distribuída. Enquanto isso, um serviço dedicado do Vector Store – implementado no Rust e alimentado pelo motor USearch otimizado para suportar as latências de milissegundo de um único dígito previsíveis do ScyllaDB – consome atualizações do ScyllaDB através do CDC e constrói índices aproximados de vizinhos (ANN) na memória. As consultas são emitidas para o banco de dados usando uma expressão SELECT … ORDER BY vector_column ANN_OF ? LIMIT k; Eles são então roteados internamente para a Vector Store, que executa a pesquisa de semelhança e retorna as linhas candidatas. Este design permite que cada camada seja escalada de forma independente, otimizando para suas próprias características de carga de trabalho e eliminando a interferência de recursos. Benchmarking de 1 bilhão de vetores Para avaliar o desempenho do mundo real, o ScyllaDB executou uma usando o conjunto de dados publicamente disponível yandex-deep_1b, que contém 1 bilhão de vetores de 96 dimensões. A configuração consistiu em seis nós: três nós ScyllaDB executados em instâncias i4i.16xlarge, cada um equipado com 64 vCPUs, e três nós Vector Store executados em instâncias r7i.48xlarge, cada um com 192 vCPUs. Esta configuração de hardware reflete implantações de produção realistas onde as camadas de indicação de banco de dados e vetor são fornecidas com diferentes perfis de recursos. Os resultados se concentram em dois cenários de uso com objetivos de precisão e latência distintos (detalhes nas seções seguintes). Benchmark rigoroso Um mergulho arquitetônico completo, incluindo diagramas, compromissos de desempenho e resultados de referência estendidos para conjuntos de dados de dimensões superiores, pode ser encontrado na postagem do blog técnico Estes resultados adicionais seguem o mesmo padrão visto nos testes 96-dimensionais: latência excepcionalmente baixa, alta transmissão e estabilidade em uma ampla gama de perfis de carga simultâneos. Construindo um motor de busca de vetores de baixa latência para ScyllaDB Construindo um motor de busca de vetores de baixa latência para ScyllaDB Cenário #1 – Latença ultra-baixa com recall moderado O primeiro cenário foi projetado para cargas de trabalho como motores de recomendação e sistemas de personalização em tempo real, onde o objetivo primário é a latência extremamente baixa e o recall pode ser moderadamente relaxado. usamos parâmetros de índice m = 16, ef-construction = 128, ef-search = 64 e distância euclidiana. Com cerca de 70% de recall e com 30 buscas simultâneas, o sistema manteve uma latência p99 de apenas 1,7 milissegundos e uma p50 de apenas 1,2 milissegundos, mantendo 25.000 consultas por segundo. Ao expandir a janela de transmissão (ainda mantendo a latência p99 abaixo de 10 milissegundos), o aglomerado atingiu 60.000 QPS para k = 100 com uma latência p50 de 4,5 milissegundos, e 252.000 QPS para k = 10 com uma latência p50 de 2,2 milissegundos. Cenário #2 – Recall elevado com latência ligeiramente maior O segundo cenário visa sistemas que requerem recall quase perfeito, incluindo buscas semânticas de alta fidelidade e pipelines de geração aumentados por recuperação. Aqui, os parâmetros do índice foram significativamente aumentados para m = 64, ef-construction = 512, e ef-search = 512. Com 50 buscas simultâneas e recall aproximando-se de 98%, o ScyllaDB manteve a latência do p99 abaixo de 12 milissegundos e o p50 cerca de 8 milissegundos, ao entregar 6.500 QPS. Ao mudar o foco para a capacidade máxima sustentada, mantendo a latência do p99 abaixo de 20 milissegundos e o p50 abaixo de 10 milissegundos, o sistema alcançou 16.600 QPS. Mesmo nessas configurações, a latência permaneceu notavelmente estável em valores de k de 10 a 100, demonstrando comportamento previsível em ambientes onde os limites de consulta variam dinamicamente. Resultados detalhados A tabela abaixo apresenta o resumo dos resultados para alguns níveis representativos de concorrência. Pesquisa de vetores unificados sem a complexidade Uma grande vantagem da integração do Vector Search com o ScyllaDB é que ele oferece vantagens substanciais de desempenho e custo de rede. A loja de vetores reside perto dos dados com apenas um único salto de rede entre os metadados e o armazenamento embutido na mesma zona de disponibilidade. Esta localização, combinada com o modelo de execução shard-per-core do ScyllaDB, permite que o sistema ofereça latência em tempo real e capacidade maciça mesmo sob carga pesada. O resultado é que as equipes podem realizar mais com menos recursos em comparação com sistemas especializados de pesquisa por vetores. Além de ser rápido em escala, a Pesquisa Vector da ScyllaDB também é mais fácil de operar. Sua principal vantagem é a sua capacidade de unificar a recuperação estruturada e não estruturada dentro de um único conjunto de dados. Isso significa que você pode armazenar atributos tradicionais e incorporações de vetores lado a lado e expressar consultas que combinam pesquisa semântica com pesquisa convencional. Por exemplo, você pode pedir ao banco de dados para “encontrar os cinco documentos mais semelhantes, mas apenas aqueles pertencentes a este cliente específico e criados nos últimos 30 dias.” Esta abordagem elimina a dor comum de manter sistemas separados para dados transacionais e pesquisa de vetores, e remove a fragilidade operacional associada à sincronização entre duas fontes de verdade. Isso também significa que não há drift ETL e nenhum risco de dupla escrita. Em vez de enviar embeddings para um banco de dados vetorial separado enquanto mantém metadados em uma loja de transações, o ScyllaDB consolida tudo em um único sistema. O único pipeline que você precisa é o passo computacional que gera embeddings usando seu modelo LLM ou ML preferido. Uma vez escrito, os dados permanecem consistentes sem coordenação adicional, backfills ou trabalhos de streaming complexos. Operativamente, o ScyllaDB simplifica toda a pilha de recuperação. Como é construído sobre a arquitetura distribuída comprovada do ScyllaDB, o sistema é altamente disponível, escalável horizontalmente e resiliente em zonas e regiões de disponibilidade. Em vez de operar duas ou três tecnologias diferentes - cada uma com sua própria monitorização, configurações de segurança e modos de falha - você gerencia apenas um. Roteiro O produto está agora em Disponibilidade Geral. Isso inclui provisionamento do Portal da Nuvem, faturamento on-demand, uma gama completa de tipos de instâncias e otimizações de desempenho adicionais. A escalagem de autoatendimento está prevista para o Q1. Olhando mais adiante, o roteiro inclui suporte para quantização escalar e binária para reduzir o uso de memória, funcionalidade TTL para automação do ciclo de vida de dados vetoriais e pesquisa híbrida integrada combinando ANN com BM25 para relevância léxica e semântica unificada. CONCLUSÃO A ScyllaDB demonstrou ser capaz de fornecer desempenho líder da indústria para pesquisa de vetores em grande escala, lidando com um conjunto de dados de 1 bilhão de vetores com latência de p99 tão baixa quanto 1,7 milissegundos e capacidade de transferência de até 252.000 QPS. Esses resultados validam a ScyllaDB Vector Search como uma solução unificada e de alto desempenho que simplifica a complexidade operacional de aplicações de IA em tempo real, co-localizando dados estruturados e incorporações não estruturadas. Os atuais critérios de referência mostram o estado atual da escalabilidade do ScyllaDB. Com as melhorias planejadas no próximo roteiro, incluindo a quantificação escalar e o sharding, esses limites de desempenho devem aumentar no próximo ano.