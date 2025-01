Ku lavisisa ka vector hi ndlela leyinene ku tisa ku fana ka semantiki eka ku vuyisa augmented generation, kambe a swi endli kahle hi ku lavisisa ka marito ya nkoka yo koma kumbe marito yo lavisisa ya le handle ka domain. Ku engetela ku vuyisa vector hi ku lavisisa marito ya nkoka ku fana na BM25 na ku hlanganisa mimbuyelo na reranker swi hundzuka ndlela ya ntolovelo yo kuma leswinene eka misava leyimbirhi.





Va-rerankers i timodeli ta ML leti tekaka sete ya mimbuyelo ya ku lavisisa no yi hlela hi vuntshwa ku antswisa ku yelana. Va kambisisa xivutiso lexi hlanganisiweke na mbuyelo wun’wana na wun’wana wa muhlawuriwa hi vuxokoxoko, leswi durhaka hi tlhelo ra xibalo kambe swi humesa mbuyelo lowu kongomeke ku tlula tindlela to olova to vuyisa ntsena. Leswi swi nga endliwa tanihi xiteji xa vumbirhi ehenhla ka ku lavisisa kun’we (koka mimbuyelo ya 100 eka ku lavisisa ka vector, kutani u kombela muendli wa xiyimo xa le henhla ku kuma 10 wa le henhla) kumbe, hi xitalo, ku hlanganisa mimbuyelo ku suka eka tinxaka to hambana ta ku lavisisa; eka xiyimo lexi, ku lavisisa ka vector na ku lavisisa rito ra nkoka.





Kambe xana va-reranker lava nga xavisiwiki va kahle ku fikela kwihi? Ku kuma, ndzi ringete ti rerankers ta tsevu eka tsalwa leri humaka eka Xiringaniso xa ViDoRe , hi ku tirhisa Gemini Flash ku humesa matsalwa eka swifaniso. Vuxokoxoko bya tidathaseti byi nga kumeka eka xiyenge xa 3.1 xa phepha ra ColPali . Lexi xiyekaka, swihlovo swa TabFQuAD na Shift Project swi le ka Xifurwa; leswi seleke swi le ka Xinghezi.





Hi ringetile ti-rerankers leti:

Ku Hlanganisiwa ka Xiyimo xa Reciprocal (RRF), fomula yo hlanganisa mimbuyelo ku suka eka swihlovo swo tala handle ko tiva nchumu hi swivutiso kumbe matsalwa; swi titshege ntsena hi ku hleleka loku ringanaka endzeni ka xihlovo xin’wana ni xin’wana. RRF yi tirhisiwa eka Elastic na LlamaIndex, exikarhi ka tiphurojeke tin’wana.









BGE-xiyimo xa vuntshwa-v2-m3 , modele wa xihlovo lexi pfulekeke lexi nga na swikoweto swa le henhla swinene (leyi nga na layisense ya Apache).





Ku tlheriseriwa ka riendzo-2 na rerank-2-lite, leyi nga ha ku humesiwaka ( hi September ) hi khampani leyi tiyeke.





Va-rerankers va phameriwile mimbuyelo ya le henhla ya 20 ku suka eka DPR na BM25, naswona NDCG@5 leyi ranked nakambe yi kamberiwile.





Eka mimbuyelo, ku lavisisa ka vector yo ka yi nga swekiwanga (na ku nghenisiwa ku suka eka modele wa bge-m3) ku lebuliwile dpr (ku vuyisa ku hundza ka dense). BGE-m3 yi hlawuriwile ku hlayela ti embeddings hikuva hi swona leswi vatsari va ColPali va swi tirhiseke tanihi xisekelo.





Hi leyi datha ya ku yelana (NDCG@5):

Naswona hi leyi ndlela leyi va hatlisaka ha yona eku tlheriseleni ka ku lavisisa eka arxiv dataset; latency yi ringana na ku leha ka dokhumente. Leswi i graphing latency, kutani ehansi swa antswa. Modele wa bge lowu tiyimeleke wu fambisiwa eka hinkwaswo NVIDIA 3090 hi ku tirhisa khodi yo olova swinene leyi tlakusiweke hi ku kongoma eka khadi ra xikombiso ra Hugging Face .



Eku heteleleni, hi leyi leswaku swi durha mali muni eka modele yin’wana na yin’wana ku tlhela yi veka kwalomu ka 3,000 wa ku lavisisa ku suka eka tidathaseti hinkwato ta tsevu. Cohere minxavo hi ku lavisisa (na tihakelo to engetela ta matsalwa yo leha), kasi tin’wana ti durha hi token.

Vuhleri

Timodelo hinkwato ti endla kahle hi xiringaniso eka ti dataset ta Xifurwa tanihi leswi ti endlaka hakona eka ta Xinghezi.





Cohere yi durha swinene naswona yinyika nyana (kambe hiku landzelelana) ku yelana ko biha kutlula ti ML rerankers tin’wana – kambe yi hatlisa 3x kutlula vukorhokeri lebyi landzelaka-ku hatlisa. Ku engetela kwalaho, . Swipimelo swa mpimo wa ntolovelo wa Cohere va hanana swinene.





Voyage rerank-2 i hosi ya reranking relevance eka ti datasets hinkwato, eka hit yo engetela eka latency. Lexi xiyekaka, hi yona ntsena modele leyi nga endliki swo biha ku tlula DPR ntsena eka dataset ya arxiv, leyi vonakaka yi ri na vukanganyisi ngopfu.





Voyage rerank-2-lite na jina reranker v2 swi fana swinene, swinene: swi na rivilo leri fanaka, swi khomiwile hi nxavo lowu fanaka, naswona swi le kusuhi na ku yelana loku fanaka (hi tlhelo nyana eka Voyage). Kambe Xipimelo xa mpimo wa ntolovelo wa Voyage i kambirhi ya jina , naswona hi Voyage u kuma “xiviri” . Xitirhisiwa xa Python ematshan’wini yo boheka ku endla swikombelo swa http leswi nga swekiwangiki.





BGE-reranker-v2-m3 i modele yo vevuka swinene (ehansi ka ti parameter ta 600M) lero hambi eka GPU ya khale ya muxavi yi hatlisa hi ndlela leyi tirhisiwaka.

Mahetelelo

RRF yi engetela nkoka wutsongo kumbe ku pfumala nkoka eka swiyimo swa ku lavisisa swa xihlanganisi; eka hafu ya ti-dataset, yi tirhile ku biha ku tlula BM25 kumbe DPR ntsena. Ku hambana na sweswo, ti rerankers hinkwato leti simekiweke eka ML leti kamberiweke ti tisile ku antswisiwa loku nga na nhlamuselo eka ku lavisisa ka vector yo basa kumbe rito ra nkoka, laha Voyage rerank-2 yi vekaka bar ya ku yelana.





Ku cinca-cinca ka ha ri kona: ku pakanisa ka le henhla ku suka eka Voyage rerank-2, ku hatlisa ku lulamisiwa ku suka eka Cohere, kumbe matirhelo ya le xikarhi lama tiyeke ku suka eka Jina kumbe modele ya lite ya Voyage. Hambi ku ri open-source BGE reranker, loko yi ri karhi yi landzela swihlawulekisi swa mabindzu, yi engetela nkoka lowukulu eka swipano leswi hlawulaka ku tikhoma.





Loko timodeli ta masungulo ti ya emahlweni ti ya emahlweni, hi nga langutela matirhelo yo antswa swinene. Kambe va ML rerankers va namuntlha se va vupfile ku ringana ku tirhisa hi ku titshemba eka swilo hinkwaswo swa tindzimi to tala.









Hi Jonathan Ellis, wa Xitatimende xa Swilo