paint-brush
Vector Maskay: Huk Reranker Algoritmo Enfrentamientoby@datastax
Musuq historia

Vector Maskay: Huk Reranker Algoritmo Enfrentamiento

by DataStax3m2024/11/26
Read on Terminal Reader

Nishu unay; Ñawinchanapaq

Rerankers ML modelokuna kanku mayqinkunachus huk huñu maskana ruwaykunata hapinku chaymanta wakmanta ordenanku allinchaypaq allinchaypaq. Paykunamanta 6 pruebarqayku.
featured image - Vector Maskay: Huk Reranker Algoritmo Enfrentamiento
DataStax HackerNoon profile picture
0-item

Vector maskana allinta qun semántico rikch'akuyta kutichiy yapasqa miraypaq, ichaqa mana allintachu ruwan pisi llalliq simi maskanakunawan utaq hawa dominio maskana simikunawan. Vector kutichiyta BM25 hina simikuna maskanawan yapay chaymanta ruwasqakunata huk reranker kaqwan tinkiyqa iskaynin pachakunamanta aswan allin kaqta tarinapaq ñan estándarman tukuchkan.


Rerankers ML modelokuna kanku mayqinkunachus huk huñu maskana ruwaykunata hapinku chaymanta wakmanta ordenanku allinchaypaq. Paykunaqa sapa candidato ruwaywan tupachisqa tapuyta detallewan qhawanku, chaytaq computacionalmente chaninniyuq ichaqa aswan chiqan ruwaykunata ruwan sapallan sanu kutichiy ñankunamanta. Kayqa ruwakunmanmi iskay kaq etapa hina huk maskanapa hawanpi (100 ruwasqakunata vector maskaymanta hurquy, chaymanta reranker nisqaman mañay 10 aswan allin kaqta riqsichinanpaq) utaq, aswan achka kuti, hukniray laya maskanamanta ruwasqakunata huñunapaq; kayhina kaptinqa, vector maskay hinaspa palabra clave maskay.


Ichaqa, ¿hayka allintaq kanku off-the-shelf rerankers? Chayta yachanaypaqmi, suqta rerankers nisqakunata pruebarqani chay textopi chaymanta ViDoRe nisqa benchmark nisqa , Gemini Flash nisqawan siq'ikunamanta qillqata hurqunapaq. Willakuy huñukunamanta detalles tarikunman 3.1 t'aqapi de chay ColPali qillqasqa . Riqsisqa, TabFQuAD chaymanta Shift Project pukyuta francés simipi kanku; puchuqtaq inglés simipi.


Kay rerankers nisqakunata pruebarqayku:

  • Fusión de Rango Recíproco nisqa (RRF), huk fórmula achka pukyuta ruwasqakunata huñunapaq mana imatapas yachaspa tapukuykunamanta utaq qillqakunamanta; sapa pukyu ukhupi relativo ordenamiento nisqamantalla dependen. RRF nisqaqa Elastic nisqapi, LlamaIndex nisqapipas llamk'achisqam, huk llamk'aykunapipas.





Chay rerankers nisqakunamanmi mikhuchirqanku 20 aswan allin ruwasqakunata iskayninmanta DPR nisqamanta hinallataq BM25 nisqamanta, chaymantatahmi chaninchasqa karqan reranked NDCG@5 nisqamanta.


Chay ruwasqakunapiqa, crudo vector maskay (bge-m3 modelomanta embeddings nisqawan) dpr (denso pasaje recuperación) nisqawan sutichasqa kachkan. BGE-m3 akllasqa karqan embeddings yupaypaq imaraykuchus chayta ColPali qillqaqkuna huk base hina llamk'achirqanku.


Kaypi kachkan relevanciamanta willakuy (NDCG@5):

Hinallataq kaypi imayna utqaylla kanku maskanakunata musuqmanta ranking kaqpi arxiv willay huñupi; latencia nisqa qillqap largonman proporcionalmi. Kayqa latencia grafico nisqa, chayrayku aswan pisi aswan allin. Kikinmanta qusqa bge modeloqa iskayninpi huk NVIDIA 3090 kaqpi purichisqa karqan aswan sasallawan atikuq codigo chiqanmanta hoqarisqa kaqwan chay Hugging Face nisqa tarjeta modelo nisqa .

Tukuyninpaq, kaypi hayk'a qullqita sapa modelowan yaqa 3.000 maskanakunata musuqmanta ranking llapa suqta willay huñukunamanta. Cohere chaninkuna sapa maskana (unay qillqakunapaq yapasqa qullqiwan), wakintaq sapa token chanin.

Qawapay

  • Llapan modelokuna yaqa allinta ruwanku francés willakuy huñukunapi imaynan inglés kaqkunapi ruwanku hinata.


  • Cohere aswan chaninniyuq chaymanta pisi (ichaqa sapa kuti) aswan mana allin relevanciata qun wak ML rerankers kaqmanta – ichaqa 3x aswan utqaylla qatiq-aswan utqaylla yanapakuykunamanta. Chaymantapas, Coherepa tarifa estándar nisqa limitekuna aswan qoykukuqmi kanku.


  • Viaje rerank-2 llapa willay huñukunapi musuqmanta ranking relevancia kaqmanta rey, huk yapasqa tupachiypaq latencia kaqman. Riqsisqa, sapalla modelo mana aswan mana allintachu ruwan DPR sapallanmanta arxiv willay huñupi, mayqinchus aswanta tricky hina.



  • BGE-reranker-v2-m3 chayhina llañu modelo (600M parámetros urapi) chaymanta huk ñawpaq consumidor GPU kaqpipas llamk'anapaq utqaylla.

Conclusion

RRF pisillata mana ima chanintapas yapanchu hibrido maskana escenariokunaman; kuskan willakuy huñukunapi, aswan mana allinta ruwarqa BM25 utaq DPR sapallanmanta. Hukninpi, llapa ML-pi sayasqa rerankers pruebasqa qusqa significativo allinchakuykunata chuya vector utaq palabra clave maskanamanta, Voyage rerank-2 kaqwan barrata churarqa relevanciapaq.


Tradeoffs kunankamapas kachkan: aswan allin chiqan kay Voyage rerank-2 kaqmanta, aswan utqaylla ruway Cohere kaqmanta, utaq sinchi chawpi-pacha ruway Jina kaqmanta utaq Voyage kaqmanta lite modelo kaqmanta. Kichasqa-qullqa BGE reranker kaqpas, qhatuy akllanakuna qhipa kachkaspa, equipokuna kikinmanta qunakuy akllaqkunapaq ancha chaniyuqta yapan.


Fundación modelokuna ñawpaqman purisqanman hina, aswan allin ruwayta suyasunman. Ichaqa kunan pacha ML rerankers puqusqaña kanku, achka simiyuq contenidokunapi mana manchakuspa mast'arinankupaq.



Jonathan Ellispa qillqasqan, DataStax