Vector maskana allinta qun semántico rikch'akuyta kutichiy yapasqa miraypaq, ichaqa mana allintachu ruwan pisi llalliq simi maskanakunawan utaq hawa dominio maskana simikunawan. Vector kutichiyta BM25 hina simikuna maskanawan yapay chaymanta ruwasqakunata huk reranker kaqwan tinkiyqa iskaynin pachakunamanta aswan allin kaqta tarinapaq ñan estándarman tukuchkan.
Rerankers ML modelokuna kanku mayqinkunachus huk huñu maskana ruwaykunata hapinku chaymanta wakmanta ordenanku allinchaypaq. Paykunaqa sapa candidato ruwaywan tupachisqa tapuyta detallewan qhawanku, chaytaq computacionalmente chaninniyuq ichaqa aswan chiqan ruwaykunata ruwan sapallan sanu kutichiy ñankunamanta. Kayqa ruwakunmanmi iskay kaq etapa hina huk maskanapa hawanpi (100 ruwasqakunata vector maskaymanta hurquy, chaymanta reranker nisqaman mañay 10 aswan allin kaqta riqsichinanpaq) utaq, aswan achka kuti, hukniray laya maskanamanta ruwasqakunata huñunapaq; kayhina kaptinqa, vector maskay hinaspa palabra clave maskay.
Ichaqa, ¿hayka allintaq kanku off-the-shelf rerankers? Chayta yachanaypaqmi, suqta rerankers nisqakunata pruebarqani chay textopi chaymanta
Kay rerankers nisqakunata pruebarqayku:
Chay rerankers nisqakunamanmi mikhuchirqanku 20 aswan allin ruwasqakunata iskayninmanta DPR nisqamanta hinallataq BM25 nisqamanta, chaymantatahmi chaninchasqa karqan reranked NDCG@5 nisqamanta.
Chay ruwasqakunapiqa, crudo vector maskay (bge-m3 modelomanta embeddings nisqawan) dpr (denso pasaje recuperación) nisqawan sutichasqa kachkan. BGE-m3 akllasqa karqan embeddings yupaypaq imaraykuchus chayta ColPali qillqaqkuna huk base hina llamk'achirqanku.
Kaypi kachkan relevanciamanta willakuy (NDCG@5):
Hinallataq kaypi imayna utqaylla kanku maskanakunata musuqmanta ranking kaqpi arxiv willay huñupi; latencia nisqa qillqap largonman proporcionalmi. Kayqa latencia grafico nisqa, chayrayku aswan pisi aswan allin. Kikinmanta qusqa bge modeloqa iskayninpi huk NVIDIA 3090 kaqpi purichisqa karqan aswan sasallawan atikuq codigo chiqanmanta hoqarisqa kaqwan
Tukuyninpaq, kaypi hayk'a qullqita sapa modelowan yaqa 3.000 maskanakunata musuqmanta ranking llapa suqta willay huñukunamanta. Cohere chaninkuna sapa maskana (unay qillqakunapaq yapasqa qullqiwan), wakintaq sapa token chanin.
RRF pisillata mana ima chanintapas yapanchu hibrido maskana escenariokunaman; kuskan willakuy huñukunapi, aswan mana allinta ruwarqa BM25 utaq DPR sapallanmanta. Hukninpi, llapa ML-pi sayasqa rerankers pruebasqa qusqa significativo allinchakuykunata chuya vector utaq palabra clave maskanamanta, Voyage rerank-2 kaqwan barrata churarqa relevanciapaq.
Tradeoffs kunankamapas kachkan: aswan allin chiqan kay Voyage rerank-2 kaqmanta, aswan utqaylla ruway Cohere kaqmanta, utaq sinchi chawpi-pacha ruway Jina kaqmanta utaq Voyage kaqmanta lite modelo kaqmanta. Kichasqa-qullqa BGE reranker kaqpas, qhatuy akllanakuna qhipa kachkaspa, equipokuna kikinmanta qunakuy akllaqkunapaq ancha chaniyuqta yapan.
Fundación modelokuna ñawpaqman purisqanman hina, aswan allin ruwayta suyasunman. Ichaqa kunan pacha ML rerankers puqusqaña kanku, achka simiyuq contenidokunapi mana manchakuspa mast'arinankupaq.
Jonathan Ellispa qillqasqan, DataStax