yAño de facturación Número de facturas 2006 — 2010 6 2011 — 2015 4 2016 — 2020 10 Año de facturación Número de facturas 2006 — 2010 6 2011 — 2015 4 2016 — 2020 10Año Número de facturasAño de la factura Número de facturas y2006 - 2010y6 dey2006 - 2010 y 2011 - 2015 42011 - 2015 y 2016 - 2020 10y 10o yCoste por página (medio) AWS $10 / 1000 páginas (1) $0.01 Azure AI Document Intelligence $10 / 1000 páginas $0.01 Google Document AI $10 / 1000 páginas $0.01 "GPTT": GPT-4o API, entrada de texto con 3rd party OCR $2.50 / 1M tokens de entrada, $10.00 / 1M tokens de salida (2) $0.021 "GPTI": GPT-4o sólo $2.50 / 1M tokens de entrada, $10.00 / 1M tokens de salida $0.0087 Gemini Pro 2.0 $1.25, prompts de entrada ≤ 128k tokens$2.50, prompts de entrada > 128k tokens$5.00, prompts de salida ≤ 128 tokens$10.00, prompts de salida > 128k tokens $0.0045 Deepseek v3 API $10 / 1000 páginas + $0. Costos por página (costo medio)yAWS $10 / 1000 páginas (1) $0.01yAzure AI Document Intelligence $10 / 1000 páginas $0.01yGoogle Docs AI $10 / 1000 páginas $0.01y“GPTT”: API GPT-4o, entrada de texto con OCR de terceros $2.50 / tokens de entrada de 1M, tokens de salida de $10.00 / 1M (2) $0.021y“GPTI”: GPT-4o sólo $2.50 / 1M tokens de entrada, $10.00 / 1M tokens de salida $0.0087yGemini 2.0 Pro $1.25, prompts de entrada ≤ 128k tokens$2.50, prompts de entrada > 128k tokens$5.00, prompts de salida ≤ 128k tokens$10.00, prompts de salida > 128k tokens $0.0045yDeepseek v3 API $10 / 1000 páginas + $0.27 / 1M tokens de entrada, $1.10 / 1M tokens de salida $0.011yCostos por página (costo medio)y costos y yAWSy$10 / 1000 páginas (1)yDólar 0.01yy y y Azure AI Document Intelligence $10 / 1000 páginas $0.01Introducción a la inteligencia de documentos de Azure $10 / 1000 páginas Dólar 0.01 Google Docs AI $10 / 1000 páginas $0.01Google Documentación AI y Dólar 0.01 “GPTT”: API GPT-4o, entrada de texto con OCR de terceros $2.50 / tokens de entrada de 1M, tokens de salida de $10.00 / 1M (2) $0.021y Token de entrada de $2.50 / 1M, Token de salida de $10.00 / 1M (2) y y“GPTI”: sólo GPT-4oyToken de entrada de $2.50 / 1M, Token de salida de $10.00 / 1My0,0087 dólaresy“GPTI”: sólo GPT-4o y y Gemini 2.0 Pro $1.25, prompts de entrada ≤ 128k tokens$2.50, prompts de entrada > 128k tokens$5.00, prompts de salida ≤ 128k tokens$10.00, prompts de salida > 128k tokens $0.0045Inicio Gemini 2.0 Pro $1.25, prompts de entrada ≤ 128k tokens$2.50, prompts de entrada > 128k tokens$5.00, prompts de salida ≤ 128k tokens$10.00, prompts de salida > 128k tokens Dólar 0045 Deepseek v3 API $10 / 1000 páginas + $0.27 / 1M tokens de entrada, $1.10 / 1M tokens de salida $0.011Aplicaciones de Deepseek v3 API y 0 011 He probado los 7 modelos de IA más populares para ver cuán bien procesan las facturas fuera de la caja, sin ningún ajuste. Leer para aprender: y y y y ¿Qué modelo supera a todos los demás en al menos un 20%? Por qué Google no trabaja con datos estructurados Ver cuáles modelos manejan mejor los escáneres de baja resolución Modelos probados Para cumplir con el objetivo de esta prueba, comencé una búsqueda de modelos de IA utilizando estos criterios: y y y y Popularidad: Los modelos populares tienen un mejor soporte y documentación. Capacidad de procesamiento de facturas: El modelo debe ser capaz de procesar las facturas desde el comienzo, sin ajustar o entrenar la API. Integración: Como los resultados de esta prueba están destinados a ser utilizados en la práctica, es importante que cada modelo tenga capacidades de integración de API para una fácil integración. He aterrizado en los 7 modelos de IA que se describen a continuación. he dado a cada uno un apodo por conveniencia: y y y y y y y y Amazon Analytics Expense API, o “AWS” Azure AI Document Intelligence – Modelo Preconstruido de Factura, o “Azure” Google Documents AI – Parser de facturas, o “Google” GPT-4o API - entrada de texto con OCR de terceros, o “GPTt” GPT-4o API - entrada de imagen, o “GPTi” Gemini 2.0 Pro Experimental, o “Gemini” Deepseek v3 - entrada de texto, o “Deepseek-t” Contenido de datos Los modelos fueron probados en un conjunto de datos de 20 facturas de diversos diseños y años de emisión (de 2006 a 2020). Año de la factura Número de facturas 2006 - 2010 6 de 6 de 2011 - 2015 4 de 4 de 2016 - 2020 2016 - 2020 10o Metodología Analizando cada factura, he determinado una lista de 16 campos clave que son comunes entre todas las facturas y contienen los datos más importantes: Invoice Id, Invoice Date, Net Amount, Tax Amount, Total Amount, Due Date, Purchase Order, Payment Terms, Customer Address, Customer Name, Vendor Address, Vendor Name, Item: Description, Item: Quantity, Item: Unit Price, Item: Amount. Los campos extraídos por los modelos fueron mapeados a una convención de nombramiento común para asegurar la coherencia. los modelos LLM (GPT, DeepSeek y Gemini) se pidieron específicamente para devolver los resultados usando estos nombres de campo comunes. Detección de elementos Para cada factura, he evaluado lo bien que los modelos extrajeron los campos de elementos clave: Description, Quantity, Unit Price, Total Price Metrología de la eficiencia He utilizado una métrica de eficiencia ponderada (Eff, %) para evaluar la precisión de la extracción. Campos esenciales estrictos: coincidencias exactas, como ID de factura, fechas, etc. Campos esenciales no estrictos: Se permiten encuentros parciales si la similitud (RLD, %) excede un umbral. Elementos de factura: Se evalúa como correcto solo si todos los atributos de los elementos se extraen con precisión. fórmulas Eficiencia general (Eff, %): Eff, % = (COUNTIF(campos de ess, positivos) + COUNTIF(campos de ess, positivos si RLD > umbral de RLD) + COUNTIF(elementos, positivos)) / ((COUNT(todos los campos) + COUNT(todos los elementos)) * 100 Eficiencia de nivel de elemento (Eff-I, %): Eff-I, % = positivo SI (ALL(Cantidad, Precio de unidad, Cantidad - positivo) Y RLD(Descripción) > umbral de RLD) * 100 Resultados del reconocimiento de facturas Eficiencia de extracción de datos (excluyendo elementos) Eficiencia de extracción de datos (incluyendo elementos) Los resultados de Google se omiten de esto ya que Google no pudo extraer los elementos correctamente. Note Top Insights Azure no es el mejor con las descripciones de elementos. En esta factura, Azure no pudo detectar los nombres completos, reconociendo sólo los primeros nombres, mientras que otros modelos identificaron con éxito los nombres completos en todos los 12 elementos. Este problema afectó significativamente la eficiencia de Azure en esta factura, que fue notablemente menor (33,3%) en comparación con los otros modelos. 💡 Azure’s inability to parse multi-word descriptions in structured fields highlights a critical limitation compared to competitors. La baja resolución de las facturas prácticamente no afecta a la calidad de la detección. La baja resolución (como lo percibe el ojo humano) de las facturas en general no degradó la calidad de detección. La baja resolución principalmente resulta en errores de reconocimiento menores, por ejemplo, en una de las facturas, Deepseek confundió una coma por un punto, lo que llevó a un valor numérico incorrecto. 💡 Modern OCR and AI models are robust to resolution issues, though rare formatting errors may occur. Google no puede detectar objetos. Google combina todos los campos de elementos en una sola cadena, lo que hace imposible comparar los resultados con otros modelos. La factura actual: Todos los demás servicios tienen detección 100% correcta con descomposición por atributos. 💡 Google’s AI is not capable of extracting structured data without fine-tuning. Las descripciones de elementos en varias líneas no afectaron a la calidad de la detección. 💡 Except for Google AI’s case above, multi-line item descriptions did not negatively impact detection quality across all models. Gemini tiene la mejor “atención al detalle”. Los LLM como GPT, Gemini y DeepSeek se pueden pedir para extraer más datos que los modelos de reconocimiento de factura pre-construidos. Entre todos los LLM, Gemini tiene la mejor precisión cuando se trata de extraer datos adicionales de los artículos de factura. GPT a menudo extrajo campos correctos pero valores de campo incorrectos, y DeepSeek realizó el peor de los 3 modelos con la precisión de extracción de valor de campo más pobre. Ejemplo de factura: Resultados de Gemini: Resultados del GPT: Resultados de DeepSeek: 💡 Gemini has the highest items extraction accuracy compared to other LLMs: it extracts all fields, not just the standard ones, and has the highest accuracy in preserving text and numerical values. Comparación de costos He calculado el coste de procesar 1000 facturas por cada modelo, así como el coste medio de procesar una factura: Servicio Servicio costos Coste por página (medio) Coste por página (medio) AWS AWS AWS $10 / 1000 páginas (1) $10 / 1000 páginas (1) Dólar 0.01 Dólar 0.01 Azure AI Document Intelligence Introducción a la inteligencia de documentos de Azure $10 / 1000 páginas Dólar 0.01 Google Document AI Google Documentación AI $10 / 1000 páginas $10 / 1000 páginas Dólar 0.01 “GPTT”: API GPT-4o, entrada de texto con OCR de terceros GPT-4o API, text input with 3rd party OCR “GPTT”: En el “GPTT”: Token de entrada de $2.50 / 1M, Token de salida de $10.00 / 1M (2) 0 021 0 021 “GPTI”: GPT-4o only “GPTI”: sólo GPT-4o Token de entrada de $2.50 / 1M, Token de salida de $10.00 / 1M Token de entrada de $2.50 / 1M, Token de salida de $10.00 / 1M 0,0087 dólares 0,0087 dólares Gemini 2.0 Pro Inicio Gemini 2.0 Pro $1.25, prompts de entrada ≤ 128k tokens$2.50, prompts de entrada > 128k tokens$5.00, prompts de salida ≤ 128k tokens$10.00, prompts de salida > 128k tokens Dólar 0045 Deepseek v3 API Aplicaciones de Deepseek v3 API $10 / 1000 páginas + $0.27 / 1M tokens de entrada, $1.10 / 1M tokens de salida $10 / 1000 páginas + $0.27 / 1M tokens de entrada, $1.10 / 1M tokens de salida 0 011 Notes: (1) — $8 / 1000 páginas después de un millón por mes (2) — 10 dólares adicionales por 1000 páginas por el uso de un modelo de reconocimiento de texto Los principales hallazgos Gemini y GPT-4o son líderes en eficiencia y consistencia de la extracción en todas las facturas. Most Efficient ☀️ Google AI es el peor de todos los modelos probados cuando se trata de extracción de artículos, haciendo que la puntuación general de eficiencia sea baja. Worst performer DeepSeek mostró errores frecuentes en los valores de texto y numéricos. Least Reliable ¿Qué modelo es mejor para qué? Gemini, AWS o Azure para la extracción de datos de alta precisión. ✅ GPT-4o (entrada de texto con OCR de terceros) para el reconocimiento de facturas rentable y un gran equilibrio "coste-eficiencia". Evite Google AI si necesita extraer elementos con alta precisión.