paint-brush
Vektorsoektog: 'n Reranker Algorithm Showdowndeur@datastax
116 lesings

Vektorsoektog: 'n Reranker Algorithm Showdown

deur DataStax3m2024/11/26
Read on Terminal Reader

Te lank; Om te lees

Herrangers is ML-modelle wat 'n stel soekresultate neem en hulle herrangskik om relevansie te verbeter. Ons het 6 van hulle getoets.
featured image - Vektorsoektog: 'n Reranker Algorithm Showdown
DataStax HackerNoon profile picture
0-item

Vektorsoektog lewer effektief semantiese ooreenkomste vir herwinning verhoogde generasie, maar dit vaar swak met kort sleutelwoordsoektogte of buite-domein soekterme. Die aanvulling van vektorherwinning met sleutelwoordsoektogte soos BM25 en die kombinasie van die resultate met 'n herranger word die standaard manier om die beste van albei wêrelde te kry.


Herrangers is ML-modelle wat 'n stel soekresultate neem en hulle herrangskik om relevansie te verbeter. Hulle ondersoek die navraag gepaard met elke kandidaatresultaat in detail, wat rekenkundig duur is, maar meer akkurate resultate lewer as eenvoudige herwinningsmetodes alleen. Dit kan gedoen word as 'n tweede fase bo-op 'n enkele soektog (trek 100 resultate uit vektorsoektog, vra dan die herranger om die top 10 te identifiseer) of, meer dikwels, om resultate van verskillende soorte soektogte te kombineer; in hierdie geval, vektorsoektog en sleutelwoordsoektog.


Maar hoe goed is rerankers van die rak af? Om uit te vind, het ek ses rerankers getoets op die teks van die ViDoRe maatstaf , met behulp van Gemini Flash om teks uit die beelde te onttrek. Besonderhede oor die datastelle kan gevind word in afdeling 3.1 van die ColPali-vraestel . Veral TabFQuAD en Shift Project bronne is in Frans; die res is in Engels.


Ons het hierdie herrangers getoets:

  • Wederkerige Rangsamesmelting (RRF), 'n formule om resultate uit veelvuldige bronne te kombineer sonder om iets van die navrae of dokumente te weet; dit hang suiwer af van relatiewe ordening binne elke bron. RRF word onder meer in Elastic en LlamaIndex gebruik.





Die herrangers is gevoer met die top 20 resultate van beide DPR en BM25, en die herrangskik NDCG@5 is geëvalueer.


In die resultate word rou vektorsoektog (met inbeddings van die bge-m3 model) gemerk dpr (digte deurgang herwinning). BGE-m3 is gekies om inbeddings te bereken omdat dit is wat die ColPali-outeurs as 'n basislyn gebruik het.


Hier is die data oor relevansie (NDCG@5):

En hier is hoe vinnig hulle is om soektogte in die arxiv-datastel te herrangskik; latensie is eweredig aan dokumentlengte. Dit is grafiese latensie, so laer is beter. Die self-gasheer bge-model is op beide 'n NVIDIA 3090 gebruik met die eenvoudigste moontlike kode wat reguit opgehef is die Hugging Face-modelkaart .

Ten slotte, hier is hoeveel dit met elke model gekos het om die byna 3 000 soektogte van al ses datastelle te herrangskik. Hou pryse per soektog saam (met bykomende fooie vir lang dokumente), terwyl die ander prys per teken.

Ontleding

  • Al die modelle vaar ongeveer net so goed op die Franse datastelle as wat hulle op die Engelse doen.


  • Cohere is aansienlik duurder en bied effens (maar konsekwent) slegter relevansie as die ander ML-herrangers – maar dit is 3x vinniger as die naasvinnigste dienste. Daarbenewens, Cohere se standaardtarieflimiete is die vrygewigste.


  • Voyage Rerank-2 is die koning van herrangskikkingsrelevansie in alle datastelle, vir 'n bykomende treffer tot latensie. Dit is veral die enigste model wat nie slegter vaar as DPR alleen in die arxiv-datastel nie, wat blykbaar besonder moeilik is.


  • Voyage rerank-2-lite en jina reranker v2 is baie, baie soortgelyk: hulle is dieselfde spoed, aangebied teen dieselfde prys, en naby aan dieselfde relevansie (met 'n effense voorsprong vir Voyage). Maar Voyage se standaardtarieflimiet is dubbel jin se , en met Voyage kry jy 'n "regte" Python kliënt in plaas daarvan om rou http-versoeke te maak.


  • BGE-reranker-v2-m3 is so 'n liggewig model (onder 600M parameters) dat dit selfs op 'n ouer verbruiker GPU bruikbaar vinnig is.

Gevolgtrekking

RRF voeg min tot geen waarde by tot hibriede soekscenario's; op die helfte van die datastelle het dit swakker gevaar as óf BM25 óf DPR alleen. Daarteenoor het alle ML-gebaseerde herrangskikkings wat getoets is, betekenisvolle verbeterings gelewer bo suiwer vektor- of sleutelwoordsoektog, met Voyage-herrangskik-2 wat die maatstaf vir relevansie gestel het.


Afwykings is steeds teenwoordig: voortreflike akkuraatheid van Voyage-herrang-2, vinniger verwerking vanaf Cohere, of soliede middelgrondprestasie van Jina of Voyage se lite-model. Selfs die oopbron-BGE-herranger, terwyl dit kommersiële opsies agtervolg, voeg aansienlike waarde toe vir spanne wat kies om self aan te bied.


Namate grondslagmodelle aanhou vorder, kan ons selfs beter prestasie verwag. Maar vandag se ML-herrangers is reeds volwasse genoeg om met selfvertroue oor veeltalige inhoud te ontplooi.



Deur Jonathan Ellis, DataStax