Los modelos de IA son excelentes en escribir poemas, resumir correos electrónicos, o fingir ser filósofos. ¿Pueden extraer una fecha de vencimiento de una factura? ¿Pueden entender una tabla rota con células fusionadas y cabezas medio faltantes? Eso es lo que quería descubrir. Así que probé 5 modelos populares de IA, desde las APIs en la nube hasta los LLM de vanguardia, en dos de las tareas más aburridas y útiles en los flujos de trabajo de negocios reales: (1) extracción de campos de facturación y (2) análisis de tablas estructuradas. La configuración fue simple: 20 facturas reales y 20 tablas tomadas de documentos de negocios reales. Algunas eran limpias, la mayoría no. Vi cómo cada modelo manejaba los datos perdidos, los diseños inconsistentes, los artefactos OCR y las estructuras ancladas. Precisión, velocidad, costo y estabilidad bajo una entrada confusa. Cada modelo tuvo que procesar 20 facturas y 20 tablas, y devolver resultados estructurados: totales, fechas de facturación, nombres de proveedores, campos de impuestos y valores a nivel de fila. Las entradas se dieron como texto OCR simple, no pre-etiquetado o ajustado.La única cosa con la que los modelos tenían que trabajar era el contenido crudo, más un prompt. Algunos modelos impresionaron; otros alucinaron los totales o ignoraron los encabezados. Lo que sigue es una guía de campo a lo que cada uno de estos modelos realmente y si planea usarlos en la producción, esto es lo que necesita saber. Puede No puede AWS Textract: rápido, estable, estrictamente por el libro Textract obtuvo resultados fiables en la extracción de facturas. obtuvo un 91,3% sin artículos de línea y un 91,1% con ellos. Performance Gestionó bien los campos estándar —total, números de factura, fechas— y no alucinó valores ni inventó estructura.Si la entrada era clara, se desempeñó de manera consistente.Si un campo estaba ausente o ambiguo, lo dejó vacío sin adivinar. En las tablas, Textract alcanzó una precisión del 82,1%, superando a GPT-4o y un poco más allá de Azure. Pero luchaba con cabezas profundamente ancladas o alineación celular inconsistente. Cuando la formatación de la tabla se rompió, Textract devolvió salidas parciales o aplanadas en lugar de intentar interpretar la intención. También manejó escaneos de baja resolución (200-300 DPI) sin pérdida de rendimiento, manteniendo la precisión de campo estable incluso cuando los documentos estaban ligeramente borrosos. Tiempo medio de procesamiento: 2,1 segundos por página, lo que lo convierte en el modelo más rápido probado con una precisión consistente. Speed Bajo: $10 por 1000 páginas utilizando el punto final de AnalyzeExpense, como se informa en el índice de referencia. precio directo, sin tokens, sin sorpresas. Cost Textract está construido para la escala. No es creativo, pero ese es exactamente el punto. No inferirá la estructura ni se adaptará al caos, pero tampoco se romperá bajo presión. Verdict Se utiliza mejor en tuberías donde se controla el formato del documento y se necesitan resultados predecibles a la velocidad. Para diseños confusos o tablas irregulares, tendrá que buscar en otro lugar, pero para documentos de negocios bien formados, es una de las herramientas más eficientes disponibles. Inteligencia de documentos de Azure: salida limpia, nervio limitado : Azure manejó las facturas de manera fiable, obteniendo un 85,8% de precisión sin elementos de línea y un 85,7% con ellos. Extraía consistentemente campos básicos —número de factura, fecha, total— pero a menudo omitió casos de margen como nombres de proveedores divididos o etiquetas menos comunes. Performance Luchó con descripciones de elementos de varias palabras en las tablas de facturación, como nombres completos de empleados o líneas de servicio largas, lo que causó que la precisión colapsara en algunos casos. En las tablas, alcanzó una precisión del 81,5%, justo por detrás de AWS y mucho por debajo de Gemini. Desempeñó bien en diseños planos y regulares, leyendo líneas y columnas sin errores importantes, pero luchó con la complejidad estructural: células fusionadas, encabezados empacados o alineación inconsistente llevó a valores caídos o columnas mal clasificadas. Rápido: Alrededor de 3,5 segundos por página en promedio. ligeramente más lento que AWS, pero estable y listo para la producción. Speed : Aproximadamente $10 por 1.000 páginas utilizando el modelo de facturación preestablecido. precios fijos a través de la API de Azure, sin necesidad de ajuste. Cost Es una opción de bajo riesgo para las facturas estructuradas y las tablas limpias, pero no es el modelo que se llama cuando el diseño se vuelve confuso. Verdict Es confiable, pero no impulsa límites, y no seguirá con los modelos que lo hacen.Se utiliza mejor en flujos de documentos donde la coherencia supera la adaptabilidad. Google Document AI: bueno cuando es fácil, perdido cuando no es En las facturas, Google mostró un desempeño desigual: alcanzó un 83,8% de precisión sin elementos de línea, pero cayó al 68,1% cuando se incluyeron las tablas Performance Trató campos estándar como el número de factura y la fecha, pero a menudo etiquetó erroneamente los campos de impuestos, duplicó los totales o ignoró los datos a nivel de línea. El análisis de tablas fue su área más débil. Google obtuvo un 38,5% de precisión, junto con GPT-4o para el resultado más bajo en el índice de referencia. Gestionó tablas limpias y similares a la red bastante bien, pero falló consistentemente en casos del mundo real con encabezados fusionados, líneas vacías o irregularidades estructurales. Las relaciones celulares se rompieron, se perdieron las etiquetas de columnas y la salida final a menudo carecía de una estructura usable. También devolvió los elementos de línea como líneas no estructuradas de texto en lugar de campos segmentados correctamente, lo que hizo que la cantidad, el precio por unidad y la extracción total no fueran fiables o imposibles de validar. Alrededor de 5,1 segundos por página, más lento que Azure y AWS, pero no dramáticamente. Speed : Aproximadamente $10-12 por 1.000 páginas, dependiendo de la configuración y la región.El precio es basado en API y previsible, pero es más difícil de justificar a los niveles actuales de precisión. Cost Google Document AI funciona cuando los documentos son limpios, previsibles y estrechamente estructurados. Verdict: A medida que aumenta la complejidad del diseño, la precisión disminuye, no es adecuado para tareas críticas de extracción que involucren formatos dinámicos o tablas de capas. Se utiliza mejor en flujos de trabajo internos controlados donde la variabilidad de entrada es mínima y las expectativas son modestas. GPT-4o: inteligente, preciso, sensible a la entrada GPT-4o manejó bien la extracción de la factura y alcanzó una precisión del 90,8% sin elementos de línea y el 86,5% con ellos utilizando la entrada basada en OCR. Performance Al trabajar con imágenes de documentos, las puntuaciones permanecieron consistentes: 88,3% y 89,2%, respectivamente. También fue bueno elegir el valor correcto cuando varios similares aparecieron en la página. Trató documentos de baja resolución sin pérdida importante de precisión, sin embargo, a veces leía mal la puntuación, dejando caer comas o colocando puntos decimales en campos numéricos. Pero el análisis de tablas era una historia diferente. el GPT-4o obtuvo sólo un 38,5% de precisión, el resultado más bajo entre todos los modelos en el índice de referencia. Mientras que siguió la estructura básica en casos simples, se desintegró en encabezados fusionados, filas ancladas y diseños incompletos. Las relaciones de columna a menudo se leían mal, y los valores de la celda se colocaban equivocadamente o cayeron por completo. Parecía un modelo de texto que intentaba razonar a través de un problema visual, y faltaban señales clave. : Aproximadamente 17-20 segundos por página con entrada de texto OCR. Con la entrada de imagen, la latencia aumenta drásticamente, a menudo 30 segundos o más, dependiendo del tamaño inmediato y la carga del sistema. Speed Aproximadamente $ 5-6 por 1000 páginas utilizando GPT-4-turbo (entrada de texto). La entrada basada en imágenes a través de la API de visión puede duplicarlo, dependiendo de la longitud del prompt y el uso de token. Cost GPT-4o funciona bien en las facturas y entiende el texto estructurado con matices y flexibilidad, pero en las tablas visualmente complejas, se esfuerza por mantener la estructura o producir salidas consistentes. Verdict: Si está trabajando con documentos donde el diseño es importante, y la precisión no puede caer por debajo del 40%, tendrá que buscar en otro lugar. Utilízalo cuando controla el formato de entrada o priorice la inteligencia a nivel de factura sobre el diseño del documento. Gemini 1.5 Pro: silenciosamente dominante : Gemini manejó el análisis de facturas con precisión constante. Obtuvo una precisión de 90,0% sin artículos de línea y un 90,2% con ellos. Performance Consistentemente tiraba totales, fechas, números de factura y nombres de proveedores, incluso cuando el formato cambiaba o los campos no estaban etiquetados correctamente. Errores eran menores: valores duplicados, campos de impuestos mal leídos, el símbolo extra ocasional. En las tablas, Gemini superó a todos los otros modelos y alcanzó una precisión del 94,2%, liderando el punto de referencia. AWS y Azure fueron seguidos en un 82,1% y un 81,1%, mientras que GPT-4o quedó muy atrás en un 38,5%. Gemini analizó los encabezados de varios niveles, las células fusionadas y las estructuras de filas irregulares con menos errores y una mejor comprensión estructural. : Consistentemente rápido. 3–4 segundos por página en promedio. Más rápido que GPT-4o, ligeramente por detrás de AWS, sin desaceleraciones impredecibles. Speed : Estimación de $ 4-5 por 1000 páginas utilizando la API Gemini en modo experimental de solo texto. Cost Gemini ofrece alta precisión tanto en facturas como en tablas sin necesidad de entrada de visión o configuración compleja.Es rápido, estructuralmente consciente y más resistente a los extraños diseños que cualquier otro modelo probado. Verdict Se utiliza mejor cuando desea obtener resultados de calidad de producción de documentos inconsistentes y puede controlar el formato de entrada. Fiable bajo presión, sin drama, solo rendimiento. Resultados Cinco modelos. mismas tareas. mismos documentos. resultados muy diferentes. Gemini era el mejor de todo: rápido, preciso y nítido en estructura. GPT-4o facturas con cuchillos, asfixiado en las mesas. AWS Textract era rápido, rígido y difícil de romper. Azure obtuvo los fundamentos correctos, pero nada más. Google luchó con todo lo que no estaba limpio y etiquetado. Ningún modelo lo manejó todo.Algunos lo manejaron lo suficiente.Si estás construyendo con AI, prueba primero o planea limpiar más tarde.