Por que os formularios escritos a man aínda rompen a AI "intelixente" A todo o mundo lle gustan os demos limpos. PDFs perfectamente aliñados. texto impreso por máquina. Case 100% de precisión de extracción nun ambiente controlado. Todo parece que a automatización de documentos é un problema resolto. Entón a realidade golpea. En fluxos de traballo de negocios reais, os formularios escritos a man seguen sendo un dos puntos de fracaso máis teimudos para o procesamento de documentos impulsados por IA. Nomes escritos en números cursivos, apertados esmagados en caixas pequenas, notas que cruzan os límites do campo: este é o tipo de datos coas que as empresas realmente se ocupan nos fluxos de traballo da saúde, a loxística, o seguro e o goberno. Esa brecha entre a promesa e a realidade é o que nos motivou a tomar unha ollada máis próxima e máis práctica á extracción de documentos manuscritos. Este benchmark inclúe 7 modelos de IA populares: Azure AWS Google xa Claude Sonneiro Xogos como Gemini 2.5 Flash Lite Xogo GPT-5 Mini Grúas 4 O "por que" detrás deste benchmark A maioría dos criterios de referencia para a IA de documentos céntranse en conxuntos de datos limpos e exemplos sintéticos.Son útiles para o desenvolvemento de modelos, pero non responden á pregunta que realmente importa para as empresas: Que modelos podes confiar en formas escritas a man do mundo real? Cando un modelo leu mal un nome, trocou díxitos nun ID ou salto un campo por completo, non é un "problema OCR menor": convértese nun custo de revisión manual, un fluxo de traballo roto ou, en industrias reguladas, un risco de conformidade. Así que este índice de referencia foi deseñado en torno a un principio simple: test models the way they are actually used in production. Iso significaba: Utilización de formularios escaneados reais e cargados á man en lugar de mostras curadas. Avaliación de modelos en campos críticos de negocio como nomes, datas, enderezos e identificadores. A puntuación non só a semellanza de texto, senón tamén se os datos extraídos serían usables nun fluxo de traballo real. Como se probaron os modelos (e por que a metodoloxía importa máis que os paneis de liderado) Documentos reais, problemas reais Avaliamos varios modelos líderes de IA nun conxunto compartido de formularios de papel reais e cargados a man escaneados a partir de fluxos de traballo operativos. Diferentes estruturas de deseño e organizacións de campo Estilos mixtos de escritura (bloco, cursivo e híbrido) Densidade de texto variable e espazamento Tipos de campos relevantes para a empresa, como nomes, datas, enderezos e identificadores numéricos Corrección a nivel empresarial, non semellanza cosmética Non optimizamos para "como se ve o texto preto" a nivel de caracteres. En vez diso, obtivemos puntos de extracción a nivel de campo en función de se a saída sería realmente usable nun fluxo de traballo real. Toleráronse diferenzas de formatación menores. Na práctica, isto reflicte como se xulga a automatización de documentos na produción: Un espazo lixeiramente diferente nun nome é aceptable. Un número incorrecto nun ID ou data é un rexistro roto. Por que a precisión do 95% é aínda un teito duro Mesmo cos modelos máis fortes, a extracción de formas manuscritas raramente cruza o limiar de precisión do 95% no negocio en condicións reais. A escritura é inconsistente e ambigua. Os formularios combinan modelos impresos con entrada humana de forma libre. Os erros compoñen a segmentación, o recoñecemento e o mapeo de campo. Este índice foi deseñado para superpoñer estes límites claramente. non para facer que os modelos se vexan ben, senón para facer visible o seu comportamento no mundo real. Os resultados: que modelos realmente funcionan na produción (e que non) Cando puxemos os principais modelos de IA lado a lado en formas reais escritas a man, era imposible ignorar a brecha de rendemento. Dous modelos superaron consistentemente o resto en diferentes estilos de escritura, deseños e tipos de campos: Mellores resultados: GPT-5 Mini, Gemini 2.5 Flash Lite e Ambos foron capaces de extraer nomes, datas, enderezos e identificadores numéricos con moito menos erros críticos que os outros modelos que testamos. GPT-5 Mini Gemini 2.5 Flash Lite Segundo nivel: Azure, AWS e Claude Sonnet , , e Mostrou un rendemento moderado e usable, pero cunha notable degradación nos deseños densos, a escritura cursiva e os campos superpuestos. Estes modelos funcionaron ben en formularios limpos e estruturados, pero a súa precisión fluctuou significativamente de documento en documento. Azure AWS Claude Sonnet Páxinas que ligan con: Google, Grok 4 e Observamos frecuentes omisións de campo, erros de nivel de caracteres en campos semánticamente sensibles e fallos relacionados co deseño que requirirían unha corrección manual pesada en fluxos de traballo reais. Google Grok 4 Unha gran comprobación de realidade: Esta non é unha debilidade específica do modelo: reflicte o quão estruturalmente dura permanece a extracción de documentos manuscritos en condicións de produción. Even the best-performing models in our benchmark struggled to consistently exceed 95% business-level accuracy A toma de decisión práctica é simple: non todos os modelos de IA "preparados para a empresa" están realmente preparados para documentos confusos e cheos de humanos. Precisión, velocidade e custo: os compromisos que definen as implementacións reais Unha vez que se move de experimentos para a produción, a precisión en bruto é só unha parte da decisión. O noso índice de referencia revelou diferenzas dramáticas entre os modelos nestas dimensións: A eficiencia de custos varía por orde de magnitude Model Average cost per 1000 forms Azure $10 Aws $65 Google $30 Claude Sonnet $18.7 Gemini 2.5 Flash Lite $0.37 GPT 5 Mini $5.06 Grok 4 $11.5 Azure 10 millóns aves 65 millóns Google xa 30 millóns Claude Sonneiro 18,7 millóns Xogos como Gemini 2.5 Flash Lite 0,37 millóns GPT 5 mini 5.06 millóns Grúas 4 11,5 millóns Para o procesamento de gran volume, a economía cambia todo: O Gemini 2.5 Flash Lite procesou formularios manuscritos a preto de $ 0,37 por 1.000 documentos, o que o converte na opción máis económica na referencia. GPT-5 Mini, mentres ofrece a maior precisión, custa aproximadamente $ 5 por 1.000 documentos, aínda razoable para fluxos de traballo de alto nivel, pero unha orde de magnitude máis cara que Gemini Flash Lite. En contraste, algunhas ofertas de cloud OCR / IDP alcanzaron custos de $ 10 - $ 65 por 1.000 formularios, o que fai que as implementacións a gran escala sexan significativamente máis caras sen ofrecer unha maior precisión na escritura complexa. Diferenzas de latencia na produción Model Average processing time per form, s Azure 6.588 Aws 4.845 Google 5.633 Claude Sonnet 15.488 Gemini 2.5 Flash Lite 5.484 GPT 5 Mini 32.179 Grok 4 129.257 Azure 6.588 aves 4.845 Google xa 5.633 Claude Sonneiro 15.488 Xogos como Gemini 2.5 Flash Lite 5.484 GPT 5 mini 32.179 Grúas 4 129.257 A velocidade de procesamento varía igualmente amplamente: O Gemini 2.5 Flash Lite procesou un formulario en aproximadamente 5-6 segundos en media, o que o fai adecuado para fluxos de traballo de tempo real ou de alto rendemento. O GPT-5 Mini ten unha media de aproximadamente 32 segundos por formulario, o que é aceptable para o procesamento de lotes de documentos de alto valor, pero convértese nun obstáculo en gasodutos sensibles ao tempo. Grok 4 foi un extremo outlier, co tempo medio de procesamento de máis de dous minutos por formulario, o que o fai práctico para a maioría dos casos de uso de produción, independentemente da precisión. Non existe un modelo universal “mellor” O índice de referencia fai unha cousa moi clara: o modelo "mellor" depende do que estea optimizando. Se o seu fluxo de traballo é crítico para a precisión (por exemplo, coidados de saúde, entornos legais, regulados), poden xustificarse modelos máis lentos e máis caros con maior fiabilidade. Se está a procesar millóns de formularios por mes, as pequenas diferenzas no custo por documento e a latencia tradúcense nun impacto operativo masivo, e os modelos como Gemini 2.5 Flash Lite son difíciles de ignorar. Na produción, a selección de modelos é menos sobre a calidade teórica e máis sobre como a precisión, a velocidade e o custo compóñense a escala. O resultado sorprendente: modelos máis pequenos e máis baratos superan os máis grandes Entrando nesta referencia, esperabamos o resultado habitual: os modelos máis grandes e máis caros dominarían as formas manuscritas complexas, e os modelos máis lixeiros seguirían atrás. Non é o que pasou. Ao longo do conxunto completo de documentos reais escritos a man, dous modelos relativamente compactos e rendibles proporcionaron consistentemente a maior precisión de extracción: e Eles manexaron unha ampla gama de estilos de escritura, deseños e tipos de campos con menos erros críticos que varias alternativas máis grandes e máis caras. GPT-5 Mini Gemini 2.5 Flash Lite Este resultado importa por dúas razóns: É un problema de percepción multietapa: segmentación visual, recoñecemento de caracteres, asociación de campo e validación semántica interactúan.Os modelos que están optimizados para esta canle específica poden superar os modelos máis xerais e pesados que brillan noutras tarefas. First: Mude a economía da automatización de documentos. Cando os modelos máis pequenos ofrecen unha precisión comparable, e nalgúns casos mellor, a nivel empresarial, os compromisos entre o custo, a latencia e a fiabilidade cambian drasticamente. Para os fluxos de traballo de alto volume, a diferenza entre "case tan bo para unha fracción do custo" e "un pouco mellor pero moito máis lento e máis caro" non é teórica. Second: Noutras palabras, o índice de referencia non só produciu un índice de referencia.Forzou unha pregunta máis incómoda pero útil: Está a escoller modelos baseados no seu desempeño real nos seus documentos, ou na súa reputación? Como elixir o modelo correcto (sen enganarse) Os índices de referencia non importan a menos que cambien a forma en que se constrúe.O erro que máis a miúdo vemos é que os equipos elixen un modelo primeiro e só máis tarde descobren que non se axusta á súa realidade operativa. Datos de alta puntuación → Pagar por precisión Se os erros nos nomes, datas ou identificadores poden desencadear problemas de cumprimento, risco financeiro ou dano ao cliente, a precisión supera todo o demais. É máis lento e máis caro, pero cando un único díxito equivocado pode romper un fluxo de traballo, o custo dos erros ananos o custo da inferencia. GPT-5 Mini Alto volume → optimiza para o rendemento e o custo Se está a procesar centos de miles ou millóns de documentos por mes, pequenas diferenzas en latencia e custo compóñense rapidamente. entregou unha precisión case máxima a unha fracción do prezo (~ $ 0,37 por 1.000 formularios) e cunha baixa latencia (~ 5-6 segundos por formulario). A escala, isto cambia o que é economicamente viable para automatizar en xeral. Gemini 2.5 Flash Lite Formatos limpos → Non sobreenxeñar Se os seus documentos están principalmente estruturados e escritos de forma clara, non ten que pagar por "exactitude máxima" en todas partes. Solucións de nivel medio como e A elección de deseño máis intelixente é a miúdo combinar estes modelos con revisión humana dirixida en campos críticos, en vez de actualizar toda a túa tubería a un modelo máis caro que proporcione retornos diminuídos. Azure AWS Os teus datos son o teu benchmark As clasificacións do modelo non son verdades universais. No noso índice de referencia, o rendemento cambiou notablemente en función da densidade de deseño e do estilo de escritura. Executar un pequeno benchmark interno en ata 20 a 50 formularios reais é a miúdo suficiente para expoñer que modos de fracaso do modelo pode tolerar, e que sabotearán silenciosamente o seu fluxo de traballo.