143 čítania

Vyhľadávanie vektorov: Reranker Algorithm Showdown

podľa DataStax3m2024/11/26

Príliš dlho; Čítať

Rerankery sú modely ML, ktoré berú súbor výsledkov vyhľadávania a menia ich poradie, aby sa zvýšila relevancia. Testovali sme 6 z nich.

featured image - Vyhľadávanie vektorov: Reranker Algorithm Showdown

Vektorové vyhľadávanie efektívne poskytuje sémantickú podobnosť pre rozšírené generovanie vyhľadávania, ale nefunguje to dobre s krátkymi kľúčovými slovami alebo hľadanými výrazmi mimo domény. Doplnenie vektorového vyhľadávania o vyhľadávanie kľúčových slov, ako je BM25, a spojenie výsledkov s rerankerom sa stáva štandardným spôsobom, ako získať to najlepšie z oboch svetov.

Rerankery sú modely ML, ktoré preberajú súbor výsledkov vyhľadávania a menia ich poradie, aby sa zvýšila relevancia. Podrobne skúmajú dotaz spárovaný s každým kandidátskym výsledkom, čo je výpočtovo nákladné, ale poskytuje presnejšie výsledky ako samotné jednoduché metódy vyhľadávania. Dá sa to urobiť buď ako druhá fáza nad jedným vyhľadávaním (vytiahnite 100 výsledkov z vyhľadávania vektorov, potom požiadajte preraďovača, aby určil 10 najlepších), alebo častejšie kombinujte výsledky z rôznych druhov vyhľadávania; v tomto prípade vyhľadávanie vektorov a vyhľadávanie kľúčových slov.

Ale akí dobrí sú bežní rerankeri? Aby som to zistil, otestoval som šesť rerankerov na texte z Benchmark ViDoRe , pomocou Gemini Flash extrahujte text z obrázkov. Podrobnosti o súboroch údajov nájdete v časti 3.1 papier ColPali . Zdroje TabFQuAD a Shift Project sú vo francúzštine; zvyšok je v angličtine.

Testovali sme tieto rerankery:

Recipročná Rank Fusion (RRF), vzorec na kombinovanie výsledkov z viacerých zdrojov bez toho, aby ste vedeli čokoľvek o dotazoch alebo dokumentoch; závisí čisto od relatívneho usporiadania v rámci každého zdroja. RRF sa okrem iných projektov používa v projektoch Elastic a LlamaIndex.

Cohere Rerank v3 a Jina Reranker v2 , pravdepodobne najobľúbenejšie hostované modely.

BGE-reranker-v2-m3 , model s otvoreným zdrojom s najvyšším skóre (licencovaný Apache).

Prehodnotenie plavby - 2 a rerank-2-lite, čerstvo vydané ( v septembri ) solídnou spoločnosťou.

Rerankeri dostali 20 najlepších výsledkov z DPR aj BM25 a vyhodnotil sa prehodnotený NDCG@5.

Vo výsledkoch je vyhľadávanie surového vektora (s vloženými prvkami z modelu bge-m3) označené ako dpr (husté vyhľadávanie pasáží). BGE-m3 bol vybraný na výpočet vloženia, pretože to je to, čo autori ColPali použili ako základ.

Tu sú údaje o relevantnosti (NDCG@5):

A tu je to, ako rýchlo sú pri prehodnocovaní vyhľadávaní v súbore údajov arxiv; latencia je úmerná dĺžke dokumentu. Toto je graf latencie, takže nižšia je lepšia. Samoobslužný model bge bol spustený na oboch zariadeniach NVIDIA 3090 s použitím najjednoduchšieho možného kódu stiahnutého priamo z kartu modelu Hugging Face .

Nakoniec, tu je, koľko stálo s každým modelom prehodnotenie takmer 3 000 vyhľadávaní zo všetkých šiestich súborov údajov. Súdržné ceny za vyhľadávanie (s dodatočnými poplatkami za dlhé dokumenty), zatiaľ čo ostatné ceny za token.

Analýza

Všetky modely fungujú na francúzskych súboroch údajov približne rovnako dobre ako na anglických.

Cohere je podstatne drahší a ponúka o niečo (ale trvalo) horšiu relevantnosť ako ostatné rerankery ML – ale je 3x rýchlejší ako ďalšie najrýchlejšie služby. okrem toho Štandardné limity sadzby Cohere sú najštedrejší.

Voyage rerank-2 je kráľom relevancie rerankingu vo všetkých množinách údajov pre dodatočný zásah do latencie. Je pozoruhodné, že je to jediný model, ktorý si v súbore údajov arxiv nevedie horšie ako samotný DPR, čo sa zdá byť obzvlášť zložité.

Voyage rerank-2-lite a jina reranker v2 sú veľmi, veľmi podobné: majú rovnakú rýchlosť, sú hosťované za rovnakú cenu a majú blízko k rovnakej relevantnosti (s miernym náskokom na Voyage). Ale Limit štandardnej sadzby pre plavbu je dvojitá jina's a s Voyage získate „skutočný“ Klient Python namiesto toho, aby ste museli robiť surové http požiadavky.

BGE-reranker-v2-m3 je tak odľahčený model (pod 600M parametrami), že aj na staršom spotrebnom GPU je použiteľne rýchly.

Záver

RRF pridáva malú alebo žiadnu hodnotu scenárom hybridného vyhľadávania; v polovici súborov údajov dosahoval horšie výsledky ako samotný BM25 alebo DPR. Naproti tomu všetky testované rerankery založené na ML priniesli zmysluplné vylepšenia oproti čistému vyhľadávaniu vektorov alebo kľúčových slov, pričom reranking Voyage-2 nastavil latku relevantnosti.

Kompromisy sú stále prítomné: vynikajúca presnosť od Voyage rerank-2, rýchlejšie spracovanie od Cohere alebo solídny stredný výkon od Jina alebo modelu Voyage lite. Dokonca aj open-source reranker BGE, hoci zaostáva za komerčnými možnosťami, pridáva významnú hodnotu pre tímy, ktoré sa rozhodnú hostiť sami.

Keďže modely základov neustále napredujú, môžeme očakávať ešte lepší výkon. Dnešné rerankery ML sú však už dostatočne vyspelé na to, aby sa s istotou nasadili do viacjazyčného obsahu.

Autor: Jonathan Ellis, DataStax