paint-brush
Bektore bilaketa: A Reranker Algorithm Showdownarabera@datastax
Historia berria

Bektore bilaketa: A Reranker Algorithm Showdown

arabera DataStax3m2024/11/26
Read on Terminal Reader

Luzeegia; Irakurri

Rerankers-ak bilaketa-emaitzen multzo bat hartzen eta berrantolatzen dituzten ML ereduak dira, garrantzia hobetzeko. Horietatik 6 probatu ditugu.
featured image - Bektore bilaketa: A Reranker Algorithm Showdown
DataStax HackerNoon profile picture
0-item

Bektore bilaketak modu eraginkorrean antzekotasun semantikoa eskaintzen du berreskurapen areagotua sortzeko, baina gaizki egiten du gako-bilaketa laburrekin edo domeinutik kanpoko bilaketa-terminoekin. Bektorearen berreskurapena BM25 bezalako gako-bilaketarekin osatzea eta emaitzak birranker batekin konbinatzea bi munduetako onena lortzeko modu estandarra bihurtzen ari da.


Rerankers ML ereduak dira, bilaketa-emaitza multzo bat hartu eta berrantolatzen dituztenak garrantzia hobetzeko. Emaitza hautagai bakoitzarekin parekatuta dagoen kontsulta zehatz-mehatz aztertzen dute, konputazionalki garestia dena baina berreskuratze metodo sinpleek baino emaitza zehatzagoak sortzen dituzte. Hau bigarren etapa gisa egin daiteke bilaketa bakar baten gainean (atera 100 emaitza bilaketa bektorialetik, eta gero eskatu birranketzaileari lehen 10ak identifikatzeko) edo, maizago, bilaketa mota ezberdinetako emaitzak konbinatzeko; kasu honetan, bilaketa bektoriala eta gako-hitzen bilaketa.


Baina zenbaterainoko onak dira apalategiko rerankers? Jakiteko, sei rerankers probatu nituen testutik ViDoRe erreferentzia , Gemini Flash erabiliz irudietatik testua ateratzeko. Datu multzoei buruzko xehetasunak 3.1 atalean aurki daitezke ColPali papera . Nabarmentzekoa, TabFQuAD eta Shift Project iturriak frantsesez daude; gainerakoak ingelesez dira.


Rerankers hauek probatu ditugu:

  • Maila Elkarrekiko Fusioa (RRF), hainbat iturritako emaitzak konbinatzeko formula bat, kontsulta edo dokumentuei buruz ezer jakin gabe; iturri bakoitzaren barneko ordenamendu erlatiboaren araberakoa da. RRF Elastic eta LlamaIndex-en erabiltzen da, beste proiektu batzuen artean.





Berriz sailkatutakoei DPR eta BM25eko 20 emaitzarik onenak eman zitzaizkien, eta NDCG@5 birsailkatua ebaluatu zen.


Emaitzetan, bektore gordinaren bilaketa (bge-m3 ereduko txertaketarekin) dpr (pasabide trinkoa berreskuratzea) etiketatua da. BGE-m3 aukeratu zen txertaketak kalkulatzeko, hori delako ColPali egileek oinarri gisa erabili zutena.


Hona hemen garrantziari buruzko datuak (NDCG@5):

Eta hona hemen zein azkar ari diren arxiv datu-multzoko bilaketak birsailkatzeko; latentzia dokumentuaren luzerarekiko proportzionala da. Hau grafikoaren latentzia da, beraz, txikiagoa da hobea. Auto-ostatatutako bge eredua NVIDIA 3090 batean exekutatu zen, zuzenean ateratako kode errazena erabiliz. Hugging Face ereduaren txartela .

Azkenik, hona hemen sei datu-multzoetako ia 3.000 bilaketak berrantolatzea eredu bakoitzarekin zenbat kostatzen den. Kohereatu bilaketa bakoitzeko prezioak (dokumentu luzeetarako kuota gehigarriekin), besteek token bakoitzeko prezioa duten bitartean.

Analisia

  • Eredu guztiak frantsesezko datu-multzoetan ingelesekoetan bezain ondo egiten dute.


  • Cohere nabarmen garestiagoa da eta beste ML birrankingek baino garrantzi apur bat (baina etengabe) okerragoa eskaintzen du, baina hurrengo zerbitzu azkarrenak baino hiru aldiz azkarragoa da. Gainera, Cohere-ren tarifa-muga estandarrak eskuzabalenak dira.


  • Voyage rerank-2 datu-multzo guztietan birrankingaren garrantziaren erregea da, latentziari arrakasta gehigarri bat emateko. Nabarmentzekoa, arxiv datu-multzoan DPR baino okerrago egiten ez duen eredu bakarra da, bereziki zaila dela dirudi.


  • Voyage rerank-2-lite eta jina reranker v2 oso-oso antzekoak dira: abiadura berdinak dira, prezio berean ostatutakoak eta garrantzi beretik hurbil (Voyage-ren ertz apur batekin). Baina Bidaiaren tarifa-muga estandarra bikoitza da jinarenak , eta Voyage-rekin "benetako" bat lortzen duzu Python bezeroa http eskaera gordinak egin beharrean.


  • BGE-reranker-v2-m3 hain eredu arina da (600M parametro baino gutxiago), kontsumitzaile GPU zaharrago batean ere erabilgarri azkarra dela.

Ondorioa

RRF-k balio gutxi ematen die bilaketa hibridoen eszenatokiei; datu multzoen erdian, BM25 edo DPR bakarrik baino okerragoa izan zen. Aitzitik, probatutako ML-n oinarritutako birranking guztiek hobekuntza esanguratsuak eman zituzten bektore hutsaren edo gako-hitz-bilaketarekin, eta Voyage rerank-2-k garrantziaren barra ezarri zuen.


Konpromisoak oraindik daude: Voyage rerank-2-ren zehaztasun handiagoa, Cohere-ren prozesamendu azkarragoa edo Jina edo Voyage-ren lite modeloaren erdiko errendimendu sendoa. Iturburu irekiko BGE reranker-ek ere, aukera komertzialen atzetik dagoen bitartean, balio handia ematen die auto-ostalari izatea aukeratzen duten taldeei.


Oinarrizko ereduek aurrera egiten jarraitzen duten heinean, are errendimendu hobea espero dezakegu. Baina gaur egungo ML birranking-ak nahiko helduak dira jada eduki eleaniztunetan konfiantzaz zabaltzeko.



Jonathan Ellis-ek, DataStax