AI 기반 애플리케이션이 실험에서 실시간 생산 시스템으로 전환함에 따라 벡터 유사성 검색에 대한 기대는 계속해서 극적으로 증가하고 있습니다.Teams는 이제 수십억 규모의 데이터 세트, 높은 동일성, 엄격한 p99 지연 예산, 그리고 건축 부담을 줄이기보다는 추가하는 수준의 운영 단순성을 지원해야합니다. ScyllaDB 벡터 검색은 이러한 제약을 염두에두고 구축되었습니다.그것은 구조화 된 데이터를 저장하기위한 통합 엔진을 제공하고 비 구조화 된 삽입과 함께, 그것은 관리 된 데이터베이스 시스템이 규모에서 제공 할 수있는 경계를 밀어 수있는 성능을 달성합니다.우리의 최근 1 억 개의 벡터 벤치마크의 결과는 ScyllaDB가 매우 낮은 지연 시간과 매우 예측 가능한 부하 행동을 모두 보여줍니다. Architecture at a Glance 부근의 호텔 ScyllaDB는 대규모 벡터 세트에 걸쳐 단일 밀리 초의 낮은 성능을 달성하기 위해 저장 및 인덱싱 책임을 분리하는 아키텍처를 채택하면서 사용자의 관점에서 시스템을 통합 유지합니다. ScyllaDB 노드는 구조화된 특성과 벡터 삽입을 동일한 분산 테이블에 저장합니다. 한편, Rust에서 구현하고 USearch 엔진에 의해 구동되는 전용 Vector Store 서비스는 ScyllaDB의 예측 가능한 단일 숫자 밀리 초 지연을 지원하기 위해 최적화되며 CDC를 통해 ScyllaDB에서 업데이트를 소비하고 메모리에 대략적인 가까운 이웃 (ANN) 인덱스를 구축합니다. SELECT … ORDER BY vector_column ANN_OF ? LIMIT k; 그런 다음 내부적으로 Vector Store로 라우팅하여 유사성 검색을 수행하고 후보 행을 반환합니다.This design allows each layer to scale independently, optimizing for its own workload characteristics and eliminating resource interference. 벤치마킹(Benchmarking) 1억 벡터 현실 세계의 성능을 평가하기 위해, ScyllaDB는 공개적으로 사용할 수 있는 yandex-deep_1b 데이터 세트를 사용하여 96 차원의 1 억 개의 벡터를 포함합니다. 설치는 6개의 노드로 구성되었습니다: i4i.16xlarge 인스턴스에서 실행되는 3개의 ScyllaDB 노드, 각각 64개의 vCPU를 갖추고 있으며, 각각 192개의 vCPU를 갖춘 r7i.48xlarge 인스턴스에서 실행되는 3개의 Vector Store 노드.이 하드웨어 구성은 데이터베이스 및 벡터 인덱싱 계층이 다른 리소스 프로파일을 갖추고 있는 현실적인 생산 배포를 반영합니다. 엄격한 벤치마크 다이어그램, 성능 교환 및 더 높은 차원 데이터 세트에 대한 확장된 벤치마크 결과를 포함한 전체 아키텍처 깊은 다이빙은 기술 블로그 게시물에서 찾을 수 있습니다. 이 추가 결과는 96차원 테스트에서 볼 수있는 동일한 패턴을 따릅니다 : 예외적으로 낮은 지연 시간, 높은 통과량 및 동시 부하 프로파일의 광범위한 안정성. ScyllaDB에 대한 낮은 지연 벡터 검색 엔진 구축 ScyllaDB에 대한 낮은 지연 벡터 검색 엔진 구축 시나리오 #1 - 중간 회피와 초과 낮은 지연 첫 번째 시나리오는 권장 엔진 및 실시간 개인화 시스템과 같은 워크로드를 위해 설계되었으며, 주된 목표는 극도로 낮은 지연율이며 호출이 상당히 느려질 수 있습니다.We used index parameters m = 16, ef-construction = 128, ef-search = 64 and Euclidean distance. 약 70 %의 호출과 30 개의 동시 검색으로 시스템은 단지 1.7 밀리 초의 p99 지연율과 1.2 밀리 초의 p50을 유지하면서 초당 25,000 개의 쿼리를 유지했습니다. 통과 창을 확장할 때 (아직도 p99 지연 시간을 10 밀리 초 이하로 유지), 클러스터는 p50 지연 시간을 4.5 밀리 초로 k = 100에 대한 60,000 QPS, p50 지연 시간을 2.2 밀리 초로 k = 10에 대한 252,000 QPS에 도달했습니다. 시나리오 #2 - 약간 높은 지연률을 가진 높은 리콜 두 번째 시나리오는 거의 완벽한 리콜을 필요로 하는 시스템을 대상으로 하며, 높은 신뢰성의 상징적 검색 및 리콜 증대 생성 파이프라인을 포함한다.이곳에서 인덱스 매개 변수는 m = 64로, ef-construction = 512 및 ef-search = 512로 상당히 증가했다. 50개의 동시 검색 및 복구가 98%에 도달함으로써 ScyllaDB는 p99 지연 시간을 12 밀리 초 이하로 유지하고 p50을 약 8 밀리 초 이하로 유지하면서 6,500 QPS를 제공합니다. p99 지연 시간을 20 밀리 초 이하로 유지하면서 최대 지속적인 투수로 초점을 변경할 때 p99 지연 시간을 10 밀리 초 이하로 유지하면서, 시스템은 16600 QPS를 달성했습니다. 자세한 결과 아래 테이블은 일부 대표적인 경쟁 수준의 결과를 요약합니다. 복잡성 없이 통합된 벡터 검색 ScyllaDB와 Vector Search를 통합하는 큰 장점은 상당한 성능과 네트워킹 비용 혜택을 제공한다는 점입니다.Vector store는 메타데이터와 삽입 저장소 사이의 단일 네트워크 점프로 데이터에 가깝습니다.이 위치는 ScyllaDB의 shard-per-core 실행 모델과 결합하여 시스템이 심지어 무거운 부하에서도 실시간 지연과 대규모 전송을 제공 할 수 있습니다.그 결과는 팀이 전문적인 벡터 검색 시스템에 비해 적은 자원으로 더 많은 것을 성취할 수 있다는 것입니다. ScyllaDB의 벡터 검색은 규모가 빠르다는 것 외에도 작동하기 쉽습니다. 주요 이점은 단일 데이터 세트 내에서 구조화 된 및 구조화되지 않은 검색을 통합 할 수있는 기능입니다. 이것은 전통적인 특성과 벡터 삽입을 측면적으로 저장하고 세마닉 검색과 전통적인 검색을 결합하는 쿼리를 표현할 수 있음을 의미합니다. 예를 들어, 데이터베이스에 "최고 5 개의 가장 유사한 문서를 찾을 수 있지만 지난 30 일 이내에 특정 고객에게 속한 문서를 찾을 수 있습니다."이 접근법은 거래 데이터 및 벡터 검색을위한 별도의 시스템을 유지하는 일반적인 고통을 제거하고 두 가지 진실 소스 사이의 동기화와 관련된 운영 취약성을 제거합니다. 이것은 또한 ETL 드리브가 없고 이중 쓰기 위험이 없다는 것을 의미합니다. 분리된 벡터 데이터베이스로 삽입을 전송하는 대신 트랜잭션 스토어에 메타데이터를 보관하면서 ScyllaDB는 모든 것을 하나의 시스템으로 통합합니다.당신이 필요로하는 유일한 파이프라인은 귀하의 선호하는 LLM 또는 ML 모델을 사용하여 삽입을 생성하는 계산 단계입니다. 운영적으로 ScyllaDB는 전체 검색 스택을 단순화합니다. ScyllaDB의 입증 된 분산 아키텍처를 바탕으로 구축되었기 때문에 시스템은 매우 가용성이 높고 수평적으로 확장 가능하며 가용성 영역 및 지역에 걸쳐 저항성이 있습니다. 각각 자신의 모니터링, 보안 구성 및 실패 모드가있는 두 개 또는 세 가지 다른 기술을 작동하는 대신에 하나만 관리 할 수 있습니다.이 통합은 운영 복잡성을 크게 줄이고 동시에 성능을 향상시킵니다. 로드맵 이 제품은 현재 Geeral Availability에 있습니다.This includes Cloud Portal provisioning, on-demand billing, a full range of instance types, and additional performance optimizations. Self-service scaling is planned for Q1. by the end of Q1 we will introduce native filtering capabilities, enabling vector search queries to combine ANN results with traditional predicates for more precise hybrid retrieval. 앞으로 나아가서, 도로지도에는 메모리 사용량을 줄이기 위해 스칼라 및 바이너리 양자화에 대한 지원, 벡터 데이터의 수명주기 자동화를위한 TTL 기능 및 통합 하이브리드 검색이 ANN와 BM25를 결합하여 통합된 렉시컬 및 의미적 관련성을 제공합니다. 결론 ScyllaDB는 대규모 규모의 벡터 검색을 위한 업계 최고의 성능을 제공할 수 있다는 것을 증명했으며, 1.7 밀리 초의 p99 지연과 최대 252,000 QPS의 전송량으로 1 억 개의 벡터 데이터 세트를 처리합니다.These results validate ScyllaDB Vector Search as a unified, high-performance solution that simplifies the operational complexity of real-time AI applications by co-locating structured data and unstructured embeddings. 현재의 벤치마크는 ScyllaDB의 확장성의 현재 상태를 보여주고 있으며, 스칼라 쿼티지 및 셔딩을 포함한 다가오는 로드맵의 계획된 향상으로, 이러한 성능 제한은 내년에 증가할 예정입니다.그러나 현재에도 이 기능은 사기 탐지 또는 권장 시스템과 같은 지연 중요한 워크로드를 실행할 준비가 되어 있습니다.