Wektor gözlegi köpeldilen nesil üçin semantik meňzeşligi netijeli üpjün edýär, ýöne gysga açar söz gözlegleri ýa-da domeniň daşynda gözleg sözleri bilen erbet netije berýär. Wektor gözlegini BM25 ýaly açar söz gözlegleri bilen doldurmak we netijeleri reranker bilen birleşdirmek iki dünýäde-de gowulaşmagyň adaty usulyna öwrülýär.





Rerankers gözleg netijeleriniň toplumyny alýan we ýerlikliligini ýokarlandyrmak üçin tertipleşdirýän ML modelleridir. Her dalaşgäriň netijesi bilen jübütlenen soragy jikme-jik gözden geçirýärler, bu hasaplaýyş taýdan gymmat, ýöne ýönekeý gözleg usullaryndan has takyk netijeleri berýär. Bu, bir gözlegiň üstünde ikinji basgançak hökmünde edilip bilner (wektor gözleginden 100 netijäni çykaryň, soňra rerankerden iň gowy 10-lygy kesgitlemegi haýyş ediň) ýa-da köplenç dürli gözlegleriň netijelerini birleşdirip bilersiňiz; bu ýagdaýda wektor gözlegi we açar söz gözlegi.





Theöne tekjäniň daşynda ýerleşýänler nä derejede gowy? Muny bilmek üçin tekstdäki alty sany rerankeri synagdan geçirdim ViDoRe görkezijisi , suratlardan tekst çykarmak üçin Gemini Flash ulanyp. Maglumatlar bazalaryndaky jikme-jiklikleri 3.1 bölümde tapyp bilersiňiz ColPali kagyzy . Ablyeri gelende aýtsak, TabFQuAD we Shift Taslama çeşmeleri fransuz dilinde; galanlary iňlis dilinde.





Bu ýazgylary synagdan geçirdik:

Iki taraplaýyn tertip birleşmesi (RRF), soraglar ýa-da resminamalar hakda hiç zat bilmän birnäçe çeşmeden gelen netijeleri birleşdirmegiň formulasy; diňe her çeşmäniň içindäki degişlilikde sargytlara baglydyr. RRF beýleki taslamalaryň arasynda Elastik we LlamaIndex-de ulanylýar.





Cohere Rerank v3 we Jina Reranker v2 , iň meşhur ýerleşdirilen modeller bolsa gerek.





BGE-reranker-v2-m3 , iň köp gol salan açyk çeşme modeli (Apache ygtyýarly).





Gezelenç rerank-2 we rerank-2-lite, täze çykan ( sentýabr aýynda ) berk kompaniýa tarapyndan.





Düzedişlere KHDR we BM25-den iň gowy 20 netije berildi we tertipleşdirilen NDCG @ 5 baha berildi.





Netijelerde çig wektor gözlegi (bge-m3 modelinden ýerleşdirilen) dpr (dykyz geçiş gözlegi) diýilýär. Içerki hasaplamalary hasaplamak üçin BGE-m3 saýlandy, sebäbi “ColPali” awtorlary esasy esas hökmünde ulandylar.





Ynha, ýerliklilik baradaky maglumatlar (NDCG @ 5):

Ine, arxiv maglumatlar bazasyndaky gözlegleri täzeden gözden geçirýärler; gijä galmak resminamanyň uzynlygyna proporsionaldyr. Bu grafiki gijikdirme, şonuň üçin has pesdir. Özbaşdak ýerleşdirilen bge modeli, göni çykarylan iň ýönekeý kod ulanyp, NVIDIA 3090-da işledi “Hugging Face” model kartasy .



Ahyrynda, alty maglumatlar bazasyndan takmynan 3000 gözlegiň täzeden başlamagy üçin her model bilen näçeräk çykdajy edilendigi. Gözleg üçin bahalary birleşdiriň (uzyn resminamalar üçin goşmaça tölegler bilen), beýlekiler bir belgä baha berýär.

Derňew

Modelshli modeller, iňlislerdäki ýaly fransuz maglumatlar bazalarynda takmynan ýerine ýetirilýär.





Cohere ep-esli gymmat we beýleki ML rerankerlerine garanyňda birneme (ýöne yzygiderli) has möhümligini hödürleýär - ýöne indiki iň çalt hyzmatlardan 3x çalt. Mundan başga-da, Cohere standart nyrh çäkleri iň jomartdyr.





“Voyage rerank-2”, gijä galmak üçin goşmaça zarba urmak üçin ähli maglumatlar bazalarynda ýerlikliligiň şasydyr. Aýratynam, gaty kyn ýaly görünýän arxiv maglumatlar bazasynda diňe KHDR-den erbet zat etmeýän ýeke-täk model.





“Voyage rerank-2-lite” we “jina reranker v2” gaty meňzeýär: birmeňzeş tizlik, şol bir bahada ýerleşdirilen we birmeňzeş ähmiýete ýakyn (“Voyage” -iň birneme gyrasy bilen). Emma Gezelençiň standart derejesi goşa jina we Voyage bilen “hakyky” bolýar Python müşderisi çig http haýyşlaryny etmegiň ýerine.





BGE-reranker-v2-m3 şeýle ýeňil modeldir (600M parametrlerden aşakda), hatda köne sarp ediji GPU-da hem çalt bolýar.

Netije

RRF gibrid gözleg ssenarilerine hiç hili ähmiýet bermeýär; maglumat bazalarynyň ýarysynda diňe BM25 ýa-da DPR-den has erbet netije berdi. Munuň tersine, ML esasly täzeden işleýänleriň hemmesi arassa wektor ýa-da açar söz gözleginde manyly gowulaşmalar berdi, Voyage rerank-2 ýerlikliligi kesgitledi.





Söwda söwdasy henizem bar: “Voyage rerank-2” -den has ýokary takyklyk, “Cohere” -den has çalt gaýtadan işlemek ýa-da “Jina” ýa-da “Voyage” -iň ýeňil modelinden gaty orta öndürijilik. Hatda açyk çeşmeli BGE reranker, täjirçilik wariantlaryny yzarlaýarka, öz-özüni saýlaýan toparlar üçin möhüm ähmiýete eýe bolýar.





Esasy modeller öňe gitmegi bilen, has gowy öndürijilige garaşyp bileris. Today'söne häzirki ML rerankerleri eýýäm köp dilli mazmuna ynam bilen ýerleşdirmek üçin ýeterlik.









“DataStax” Jonatan Ellis tarapyndan