Introducción Google anunció la búsqueda de archivos Gemini, y los expertos afirman que es la cifra de muertos para homebrew RAG (Retrieval Augmented Generation).La razón es que ahora el desarrollador de aplicaciones ya no necesita preocuparse por el chunking, embedding, almacenamiento de archivos, base de datos vectorial, metadatos, optimización de búsqueda, gestión de contexto y más. En este artículo, vamos a probar el Gemini File Search y compararlo con un sistema RAG homebrew en términos de capacidades, rendimiento, coste, flexibilidad y transparencia. . Aplicaciones en GitHub Aplicaciones en GitHub Aquí está el original : Google announcement Anuncio Google Crea tu propio agente RAG Tradicional RAG - Un refresco La arquitectura de un RAG tradicional se ve así, que consiste en unos pocos pasos secuenciales. Los documentos son primero recortados, incorporados e insertados en una base de datos vectorial. A menudo, los metadatos relacionados se incluyen en las entradas de la base de datos. La consulta de usuario se incorporó y se convirtió en una búsqueda de DB vectorial para recuperar los fragmentos pertinentes. Y finalmente, la consulta de usuario original y los trozos recuperados (como contexto) se alimentan en los modelos de IA para generar la respuesta para el usuario. Agencia RAG La arquitectura de un sistema Agentic RAG añadió un ciclo de reflexión y reacción, donde el agente comprobará si los resultados son relevantes y completos, y luego reescribirá la consulta para satisfacer la calidad de búsqueda. Así, el modelo de IA se utiliza en varios lugares: para reescribir la consulta del usuario en una consulta DB vector, para evaluar si la búsqueda es satisfactoria, y finalmente para generar la respuesta para el usuario. Un ejemplo de caso de uso - manual de la cámara Q&A Hay muchos fotógrafos nuevos que están interesados en usar cámaras de película antiguas. Uno de los principales desafíos para ellos es que muchas cámaras antiguas tienen maneras únicas y a veces extrañas de operar, incluso las cosas básicas, como cargar la película y reiniciar el contador de cuadros de película. Un archivo manual de la cámara alberga 9.000 manuales de cámara antiguos, principalmente PDF escaneados. En un mundo ideal, simplemente descargarías unos cuantos para tu cámara, los estudiarías, te familiarizarías, y estarás hecho con eso. Pero todos somos humanos modernos que no son ni pacientes ni pre-planificados. Por lo tanto, necesitamos Q&A contra PDFs manuales de la cámara en movimiento, por ejemplo, en una aplicación telefónica. Y supongo que será universalmente aplicable a muchos pasatiempos (instrumentos musicales, equipos Hi-Fi, coches vintage) que requieren encontrar información de manuales de usuario antiguos. Comentarios sobre Homebrew RAG para PDF Q&A El sistema RAG se implementó a principios de este año basado en la Con una gran customización: LLaMAIndex RAG flujo de trabajo LLaMAIndex RAG flujo de trabajo Utilice la base de datos vectorial Qrrant: buena relación precio-desempeño, soporte de metadatos. Utilice la API OCR de Mistral para ingerir el PDF: buen rendimiento en la comprensión de archivos PDF complejos con ilustraciones y tablas. Mantenga imágenes de cada página PDF para que los usuarios puedan acceder directamente a una ilustración gráfica de las operaciones complejas de la cámara, además de instrucciones de texto. Añade un ciclo de reflexión y reacción de agentes basado en el ejemplo de Google/Langchain para la búsqueda de agentes. Google/Langchain como ejemplo de búsqueda de agentes ¿Qué hay de los LLMs multi-modales? Desde 2024, los LLM multi-modales ya se han vuelto realmente buenos. Un enfoque alternativo obvio fue alimentar la consulta del usuario y el PDF entero al LLM y obtener una respuesta. Nuestra principal preocupación era el coste, por lo que hicimos un cálculo y comparación de costos.Y la respuesta corta es que RAG es más rápido, más eficiente y mucho menos costoso cuando el número de consultas de usuario por día es mayor que 10. En ese momento, confirmó nuestra creencia de que homebrew RAG sigue siendo críticamente importante hasta que Google abandona la búsqueda de archivos Gemini. La búsqueda de archivos Gemini - Un ejemplo Construí una aplicación de ejemplo para el manual de uso de la cámara Q&A, basado en el ejemplo de Google AI Studio. Aquí está una captura de pantalla de la interfaz de usuario y el hilo de chat. , open source on GitHub Open Source en GitHub Ejemplo de Q&A con PDFs usando la búsqueda de archivos Gemini: https://github.com/zbruceli/pdf_qa https://github.com/zbruceli/pdf_qa Los pasos principales involucrados en el código fuente: Cree una tienda de búsqueda de archivos y persista en diferentes sesiones. Cargue varios archivos simultáneamente, y el backend de Google manejará todo el chunking y embedding. Incluso crea preguntas de muestra para los usuarios. Además, puede modificar la estrategia de chunking y subir metadatos personalizados. Ejecutar una consulta de generación estándar (RAG): detrás de las escenas, es agente y puede realmente evaluar la calidad de los resultados antes de generar la respuesta final. Más información de desarrolladores Gemini File Search API Doc https://ai.google.dev/gemini-api/docs/file-search https://ai.google.dev/gemini-api/docs/file-search Reseña de Phil Schmidt https://www.philschmid.de/gemini-file-search-javascript https://www.philschmid.de/gemini-file-search-javascript Precio de la búsqueda de archivos Gemini Los desarrolladores se cobran por las incorporaciones en el momento de la indexación basándose en el precio de las incorporaciones existentes ($ 0,15 por 1M de tokens). El almacenamiento es gratuito. Los embeddings de tiempo de Query son gratuitos. Los tokens de documentos recuperados se cargan como tokens de contexto regulares. Precios de embalaje Contexto Token ¿Y cuál es mejor? Dado que la búsqueda de archivos de Gemini es todavía bastante nueva, mi evaluación se basa exclusivamente en la prueba inicial de aproximadamente una semana. Comparación de Capacidades Gemini File Search tiene todas las características básicas de un sistema RAG homebrew Chunking (puede configurar el tamaño y la superposición) Embajador Vector DB con soporte para la entrada de metadatos personalizados Recuperación Producción generativa Y más características avanzadas bajo el capó: Capacidad para evaluar la calidad de la recuperación Si tengo que nitpick, la salida de imagen está actualmente ausente. Hasta ahora, la salida de Google File Search está limitada a sólo texto, mientras que un RAG personalizado puede devolver imágenes del PDF escaneado. Comparación de rendimiento Precisión: no hay mejoras tangibles en la calidad de recuperación o generación. Gemini File Search podría ser un poco más rápido, ya que el vector DB y LLM están ambos “sentados” dentro de la infraestructura de Google Cloud. Comparación de costos Finalmente, Gemini File Search es un sistema totalmente alojado que podría costar Más que un sistema homebrew. less La incorporación de documentos se ejecutó sólo una vez, y cuesta $0.15 por millón de tokens. Este es un coste fijo que es común para todos los sistemas RAG, y se puede amortizar durante la vida útil de la aplicación de documentos Q&A. En mi caso de uso de manuales de cámara, este coste fijo es una parte muy pequeña del coste total. Dado que Gemini File Search ofrece almacenamiento de archivos y bases de datos "gratuitas", esto es un ahorro sobre el sistema RAG homebrew. El coste de inferencia es aproximadamente el mismo, ya que la cantidad de tokens de entrada (resultados de búsqueda de preguntas más vectores como contexto) y tokens de salida son comparables entre la búsqueda de archivos de Gemini y el sistema homebrew. Flexibilidad y transparencia para el ajuste y el desgaste Por supuesto, la búsqueda de archivos de Gemini te casa con los modelos de IA de Gemini para la incorporación y la inferencia. En términos de ajustar su sistema RAG, Gemini File Search proporciona algún nivel de personalización. Por ejemplo, puede definir un chunkingConfig durante la carga para especificar parámetros como maxTokensPerChunk y maxOverlapTokens, y customMetadata para adjuntar pares de valores clave al documento. Sin embargo, parece imposible tener un rastro interno del sistema de búsqueda de archivos de Gemini para el desgaste y el ajuste del rendimiento. Conclusiones La búsqueda de archivos Gemini de Google es lo suficientemente buena para la mayoría de las aplicaciones y para la mayoría de las personas a un precio muy atractivo. Es super fácil de usar y tiene una sobrecarga operacional mínima. No solo es bueno para el prototipo rápido y las maquetas, sino también lo suficientemente bueno para un sistema de producción con miles de usuarios. Sin embargo, hay algunos escenarios que todavía puede considerar un sistema RAG homebrew: No confías en Google para alojar tus documentos propietarios. Debe devolver imágenes al usuario de los documentos originales. Usted quiere plena flexibilidad y transparencia en términos de qué LLM usar para la incorporación y la inferencia, cómo hacer el chunking, cómo controlar el flujo de agentes de la RAG, y cómo deshabilitar posibles problemas de calidad de recuperación. Así que da a la búsqueda de archivos Gemini un intento y decide por ti mismo. como un campo de juego, o puede usar Por favor, comente a continuación sobre sus hallazgos para sus casos de uso. Google y el estudio Un ejemplo de código en GitHub Google y el estudio Un ejemplo de código en GitHub