La búsqueda vectorial proporciona una similitud semántica eficaz para la generación aumentada de resultados, pero no funciona bien con búsquedas de palabras clave breves o términos de búsqueda fuera del dominio. Complementar la recuperación vectorial con búsquedas de palabras clave como BM25 y combinar los resultados con un reranker se está convirtiendo en la forma estándar de obtener lo mejor de ambos mundos.
Los rerankers son modelos de ML que toman un conjunto de resultados de búsqueda y los reordenan para mejorar la relevancia. Examinan la consulta emparejada con cada resultado candidato en detalle, lo que es costoso en términos computacionales pero produce resultados más precisos que los métodos de recuperación simples por sí solos. Esto se puede hacer como una segunda etapa sobre una sola búsqueda (extraer 100 resultados de una búsqueda vectorial y luego pedirle al reranker que identifique los 10 principales) o, más a menudo, combinar resultados de diferentes tipos de búsqueda; en este caso, búsqueda vectorial y búsqueda por palabras clave.
Pero, ¿qué tan buenos son los rerankers disponibles comercialmente? Para averiguarlo, probé seis rerankers en el texto de la
Probamos estos rerankers:
A los rerankers se les suministraron los 20 resultados principales tanto del DPR como del BM25, y se evaluó el NDCG@5 rerankeado.
En los resultados, la búsqueda de vectores sin procesar (con incrustaciones del modelo bge-m3) se denomina dpr (recuperación de pasajes densos). Se eligió BGE-m3 para calcular las incrustaciones porque es lo que los autores de ColPali usaron como base.
Aquí están los datos sobre relevancia (NDCG@5):
Y así de rápido son al reordenar las búsquedas en el conjunto de datos arxiv; la latencia es proporcional a la longitud del documento. Esto es latencia gráfica, por lo que cuanto menor, mejor. El modelo bge alojado en el servidor se ejecutó en una NVIDIA 3090 utilizando el código más simple posible extraído directamente de
Por último, a continuación se muestra el costo de cada modelo para reclasificar las casi 3000 búsquedas de los seis conjuntos de datos. Cohere cobra por búsqueda (con tarifas adicionales para documentos largos), mientras que los demás cobran por token.
RRF agrega poco o ningún valor a los escenarios de búsqueda híbrida; en la mitad de los conjuntos de datos, tuvo un peor desempeño que BM25 o DPR por sí solos. En cambio, todos los rerankers basados en ML probados ofrecieron mejoras significativas con respecto a la búsqueda pura de vectores o palabras clave, y Voyage rerank-2 estableció el estándar de relevancia.
Todavía existen desventajas: mayor precisión con el rerank-2 de Voyage, procesamiento más rápido con Cohere o un sólido rendimiento intermedio con Jina o el modelo Lite de Voyage. Incluso el reranker de código abierto de BGE, si bien está por detrás de las opciones comerciales, agrega un valor significativo para los equipos que eligen alojarlo ellos mismos.
A medida que los modelos básicos sigan avanzando, podemos esperar un rendimiento aún mejor. Pero los rerankers de ML actuales ya están lo suficientemente maduros como para implementarse con confianza en contenido multilingüe.
Por Jonathan Ellis, DataStax