Vektorsoektog lewer effektief semantiese ooreenkomste vir herwinning verhoogde generasie, maar dit vaar swak met kort sleutelwoordsoektogte of buite-domein soekterme. Die aanvulling van vektorherwinning met sleutelwoordsoektogte soos BM25 en die kombinasie van die resultate met 'n herranger word die standaard manier om die beste van albei wêrelde te kry.
Herrangers is ML-modelle wat 'n stel soekresultate neem en hulle herrangskik om relevansie te verbeter. Hulle ondersoek die navraag gepaard met elke kandidaatresultaat in detail, wat rekenkundig duur is, maar meer akkurate resultate lewer as eenvoudige herwinningsmetodes alleen. Dit kan gedoen word as 'n tweede fase bo-op 'n enkele soektog (trek 100 resultate uit vektorsoektog, vra dan die herranger om die top 10 te identifiseer) of, meer dikwels, om resultate van verskillende soorte soektogte te kombineer; in hierdie geval, vektorsoektog en sleutelwoordsoektog.
Maar hoe goed is rerankers van die rak af? Om uit te vind, het ek ses rerankers getoets op die teks van die
Ons het hierdie herrangers getoets:
Die herrangers is gevoer met die top 20 resultate van beide DPR en BM25, en die herrangskik NDCG@5 is geëvalueer.
In die resultate word rou vektorsoektog (met inbeddings van die bge-m3 model) gemerk dpr (digte deurgang herwinning). BGE-m3 is gekies om inbeddings te bereken omdat dit is wat die ColPali-outeurs as 'n basislyn gebruik het.
Hier is die data oor relevansie (NDCG@5):
En hier is hoe vinnig hulle is om soektogte in die arxiv-datastel te herrangskik; latensie is eweredig aan dokumentlengte. Dit is grafiese latensie, so laer is beter. Die self-gasheer bge-model is op beide 'n NVIDIA 3090 gebruik met die eenvoudigste moontlike kode wat reguit opgehef is
Ten slotte, hier is hoeveel dit met elke model gekos het om die byna 3 000 soektogte van al ses datastelle te herrangskik. Hou pryse per soektog saam (met bykomende fooie vir lang dokumente), terwyl die ander prys per teken.
RRF voeg min tot geen waarde by tot hibriede soekscenario's; op die helfte van die datastelle het dit swakker gevaar as óf BM25 óf DPR alleen. Daarteenoor het alle ML-gebaseerde herrangskikkings wat getoets is, betekenisvolle verbeterings gelewer bo suiwer vektor- of sleutelwoordsoektog, met Voyage-herrangskik-2 wat die maatstaf vir relevansie gestel het.
Afwykings is steeds teenwoordig: voortreflike akkuraatheid van Voyage-herrang-2, vinniger verwerking vanaf Cohere, of soliede middelgrondprestasie van Jina of Voyage se lite-model. Selfs die oopbron-BGE-herranger, terwyl dit kommersiële opsies agtervolg, voeg aansienlike waarde toe vir spanne wat kies om self aan te bied.
Namate grondslagmodelle aanhou vorder, kan ons selfs beter prestasie verwag. Maar vandag se ML-herrangers is reeds volwasse genoeg om met selfvertroue oor veeltalige inhoud te ontplooi.
Deur Jonathan Ellis, DataStax