Wektor gözlegi köpeldilen nesil üçin semantik meňzeşligi netijeli üpjün edýär, ýöne gysga açar söz gözlegleri ýa-da domeniň daşynda gözleg sözleri bilen erbet netije berýär. Wektor gözlegini BM25 ýaly açar söz gözlegleri bilen doldurmak we netijeleri reranker bilen birleşdirmek iki dünýäde-de gowulaşmagyň adaty usulyna öwrülýär.
Rerankers gözleg netijeleriniň toplumyny alýan we ýerlikliligini ýokarlandyrmak üçin tertipleşdirýän ML modelleridir. Her dalaşgäriň netijesi bilen jübütlenen soragy jikme-jik gözden geçirýärler, bu hasaplaýyş taýdan gymmat, ýöne ýönekeý gözleg usullaryndan has takyk netijeleri berýär. Bu, bir gözlegiň üstünde ikinji basgançak hökmünde edilip bilner (wektor gözleginden 100 netijäni çykaryň, soňra rerankerden iň gowy 10-lygy kesgitlemegi haýyş ediň) ýa-da köplenç dürli gözlegleriň netijelerini birleşdirip bilersiňiz; bu ýagdaýda wektor gözlegi we açar söz gözlegi.
Theöne tekjäniň daşynda ýerleşýänler nä derejede gowy? Muny bilmek üçin tekstdäki alty sany rerankeri synagdan geçirdim
Bu ýazgylary synagdan geçirdik:
Düzedişlere KHDR we BM25-den iň gowy 20 netije berildi we tertipleşdirilen NDCG @ 5 baha berildi.
Netijelerde çig wektor gözlegi (bge-m3 modelinden ýerleşdirilen) dpr (dykyz geçiş gözlegi) diýilýär. Içerki hasaplamalary hasaplamak üçin BGE-m3 saýlandy, sebäbi “ColPali” awtorlary esasy esas hökmünde ulandylar.
Ynha, ýerliklilik baradaky maglumatlar (NDCG @ 5):
Ine, arxiv maglumatlar bazasyndaky gözlegleri täzeden gözden geçirýärler; gijä galmak resminamanyň uzynlygyna proporsionaldyr. Bu grafiki gijikdirme, şonuň üçin has pesdir. Özbaşdak ýerleşdirilen bge modeli, göni çykarylan iň ýönekeý kod ulanyp, NVIDIA 3090-da işledi
Ahyrynda, alty maglumatlar bazasyndan takmynan 3000 gözlegiň täzeden başlamagy üçin her model bilen näçeräk çykdajy edilendigi. Gözleg üçin bahalary birleşdiriň (uzyn resminamalar üçin goşmaça tölegler bilen), beýlekiler bir belgä baha berýär.
RRF gibrid gözleg ssenarilerine hiç hili ähmiýet bermeýär; maglumat bazalarynyň ýarysynda diňe BM25 ýa-da DPR-den has erbet netije berdi. Munuň tersine, ML esasly täzeden işleýänleriň hemmesi arassa wektor ýa-da açar söz gözleginde manyly gowulaşmalar berdi, Voyage rerank-2 ýerlikliligi kesgitledi.
Söwda söwdasy henizem bar: “Voyage rerank-2” -den has ýokary takyklyk, “Cohere” -den has çalt gaýtadan işlemek ýa-da “Jina” ýa-da “Voyage” -iň ýeňil modelinden gaty orta öndürijilik. Hatda açyk çeşmeli BGE reranker, täjirçilik wariantlaryny yzarlaýarka, öz-özüni saýlaýan toparlar üçin möhüm ähmiýete eýe bolýar.
Esasy modeller öňe gitmegi bilen, has gowy öndürijilige garaşyp bileris. Today'söne häzirki ML rerankerleri eýýäm köp dilli mazmuna ynam bilen ýerleşdirmek üçin ýeterlik.
“DataStax” Jonatan Ellis tarapyndan