Els models d'IA són excel·lents en escriure poemes, resumir correus electrònics, o pretendre ser filòsofs. Però poden extreure una data de venciment d'una factura? Això és el que volia descobrir. Així que vaig provar 5 models d'IA populars, des de les API del núvol fins als LLMs d'avantguarda, en dues de les tasques més avorrides i útils en els fluxos de treball de negocis reals: (1) extracció de camp de facturació i (2) paràlisi de taula estructurada. La configuració va ser senzilla: 20 factures reals i 20 taules preses de documents empresarials reals. Alguns eren nets, la majoria no. Vaig mirar com cada model gestiona les dades que falten, els dissenys inconsistents, els artefactes OCR i les estructures nixades. Precisió, velocitat, cost i estabilitat sota una entrada confusa. Cada model havia de processar 20 factures i 20 taules, i retornar sortides estructurades: totals, dates de facturació, noms de proveïdors, camps fiscals i valors de nivell de fila. Les entrades es donaven com a text OCR simple, no pre-etiquetats o ajustats.L'única cosa que els models havien de treballar era el contingut cru, a més d'un prompt. Alguns models van impressionar; altres van al·lucinar totals o van ignorar els encapçalaments. El que segueix és una guia de camp a què cadascun d'aquests models realment i si vostè està planejant utilitzar-los en la producció, això és el que ha de saber. Pot No es pot AWS Textract: ràpid, estable, estrictament pel llibre Textract va lliurar resultats fiables en l'extracció de factures. va obtenir un 91,3% sense articles de línia i un 91,1% amb ells. Performance Gestionava bé els camps estàndard -tots, números de facturació, dates- i no al·lucinava valors ni inventava l'estructura. Si l'entrada era clara, funcionava de manera coherent. En les taules, Textract va aconseguir una precisió del 82,1%, superant el GPT-4o i una mica més enllà d'Azure. Es va gestionar les estructures planes sense problemes i va cometre menys errors estructurals que els models que depenien del raonament generatiu. Però va lluitar amb caps profundament nixats o alineació cel·lular inconsistent. Quan la formatació de la taula va fallar, Textract va retornar sortides parcials o aplanades en comptes d'intentar interpretar la intenció. També va gestionar escanes de baixa resolució (200-300 DPI) sense pèrdua de rendiment, mantenint l'exactitud del camp estable fins i tot quan els documents estaven lleugerament buits. Temps mitjà de processament: 2,1 segons per pàgina, convertint-se en el model més ràpid que s'ha provat amb una precisió constant. Speed : Baix. $ 10 per 1.000 pàgines utilitzant el punt final AnalyzeExpense, tal com es va informar en el benchmark. preus directes, sense tokens, sense sorpreses. Cost Textract està construït per a l'escala. No és creatiu, però aquest és exactament el punt. No inferirà l'estructura ni s'adaptarà al caos, però tampoc es trencarà sota pressió. Verdict S'utilitza millor en conductes on es controla el format del document i es necessiten resultats predictibles a la velocitat. Per a dissenys confusos o taules irregulars, haureu de buscar en un altre lloc, però per a documents de negoci ben formats, és una de les eines més eficients disponibles. Intel·ligència de documents d'Azure: sortida neta, nervi limitat Azure va gestionar les factures de manera fiable, amb una precisió del 85,8% sense elements de línia i el 85,7% amb ells. va extreure sistemàticament els camps bàsics -número de factura, data, total- però sovint va perdre casos d'avantguarda com noms de proveïdors dividits o etiquetes menys comunes. Performance Es va lluitar amb descripcions d'articles de múltiples paraules en taules de facturació -com els noms complets dels empleats o les llargues línies de servei- que van causar que la precisió s'enfonsés en alguns casos. En les taules, va arribar a una precisió del 81,5%, just darrere d'AWS i molt per sota de Gemini. Va funcionar bé en dissenys plans, regulars, llegint files i columnes sense errors importants, però va lluitar amb la complexitat estructural: cèl·lules fusionades, encapçalaments apilats o alineacions inconsistents van conduir a valors caiguts o columnes mal classificades. : Ràpid. Al voltant de 3,5 segons per pàgina de mitjana. Una mica més lent que AWS, però estable i llest per a la producció. Speed : Aproximadament $ 10 per cada 1.000 pàgines utilitzant el model de facturació preconfigurat. Preu fix a través de l'API d'Azure, sense necessitat d'ajust. Cost És una opció de baix risc per a les factures estructurades i les taules netes, però no és el model que truqueu quan el disseny es torna confús. Verdict És fiable, però no puja els límits -i no seguirà amb els models que ho fan. Google Document AI: gran quan és fàcil, perdut quan no és : En les factures, Google va mostrar un rendiment desigual. Va aconseguir una precisió del 83,8% sense elements de línia però va caure al 68,1% quan es van incloure les taules Performance Es tractava de camps estàndard com el número de factura i la data, però sovint els camps d'impostos erròniament etiquetats, els totals duplicats o les dades a nivell de línia ignorades. Google va obtenir una precisió del 38,5%, lligat amb GPT-4o per al resultat més baix en el rànquing. Va gestionar les taules netes i semblants a la xarxa bastant bé, però va fracassar constantment en els casos del món real amb encapçalaments fusionats, línies buides o irregularitats estructurals. També va retornar els elements de línia com a files de text no estructurades en lloc de camps segmentats correctament. Això va fer que la quantitat, el preu per unitat i l'extracció total no fossin fiables o impossibles de validar. Al voltant de 5,1 segons per pàgina, més lent que Azure i AWS, però no dramàticament. Speed : Aproximadament $10-12 per 1.000 pàgines, depenent de la configuració i de la regió. El preu és basat en API i predictible, però és més difícil de justificar en els nivells actuals de precisió. Cost Google Document AI funciona quan els documents són nets, predictibles i estrictament estructurats. Verdict: A mesura que augmenta la complexitat del disseny, la precisió disminueix. No és adequat per a tasques d'extracció crítiques que impliquin formats dinàmics o taules de capes. S'utilitza millor en fluxos de treball interns controlats on la variabilitat d'entrada és mínima i les expectatives són modestes. GPT-4o: intel·ligent, precís, sensible a l'entrada GPT-4o va gestionar l'extracció de facturació bé. va aconseguir una precisió del 90,8% sense elements de línia i el 86,5% amb ells utilitzant la entrada basada en OCR. Performance Quan es treballa amb imatges de documents, les puntuacions es mantenen consistents: 88,3% i 89,2%, respectivament. També va ser bo triar el valor correcte quan diversos semblants apareixien a la pàgina. Es tractava de documents de baixa resolució sense pèrdues importants en l'exactitud. No obstant això, de vegades es llegia malament la puntuació: es deixaven caure comes o es col·locaven els punts decimals en camps numèrics. GPT-4o va obtenir només un 38,5% d'exactitud, el resultat més baix entre tots els models de l'índex de referència. Mentre que va seguir l'estructura bàsica en casos simples, es va descompondre en encapçalaments fusionats, files nixades i dissenys incomplets. Les relacions de columna sovint es llegien malament, i els valors de la cel·la es van equivocar o van caure completament. Semblava un model de text que intentava raonar-se a través d'un problema visual i mancaven senyals clau. Al voltant de 17-20 segons per pàgina amb la introducció de text OCR. Amb l'entrada d'imatges, la latència augmenta notablement, sovint 30 segons o més, depenent de la mida de la imatge i de la càrrega del sistema. Speed Aproximadament $ 5-6 per 1.000 pàgines utilitzant GPT-4-turbo (entrada de text). Les entrades basades en imatges a través de l'API de visió poden duplicar això, depenent de la longitud del prompt i l'ús de token. Cost GPT-4o funciona bé en les factures i entén el text estructurat amb matisos i flexibilitat, però en taules visualment complexes, té dificultats per mantenir l'estructura o produir sortides coherents. Verdict: Si estàs treballant amb documents on el disseny és important, i la precisió no pot caure per sota del 40%, hauràs de mirar en un altre lloc. Utilitzeu-lo quan controliu el format d'entrada o prioritzeu la intel·ligència a nivell de factura sobre el disseny del document. Gemini 1.5 Pro: Silenciosament dominant : Gemini va gestionar l'anàlisi de la factura amb una precisió constant. Va aconseguir una precisió del 90,0% sense articles de línia i el 90,2% amb ells. Performance Va dibuixar consistentment totals, dates, números de facturació i noms de proveïdors, fins i tot quan el format es va canviar o els camps no estaven etiquetats correctament. Errors eren menors: valors duplicats, camps d'impostos mal llegits, el símbol addicional ocasional. En les taules, Gemini va superar tots els altres models i va aconseguir una precisió del 94,2%, liderant el rànquing. AWS i Azure van seguir amb un 82,1% i un 81,1%, mentre que GPT-4o va quedar molt enrere en un 38,5%. Gemini va analitzar els encapçalaments de diversos nivells, les cèl·lules fusionades i les estructures de files irregulars amb menys errors i una millor comprensió estructural. : Consistentment ràpid. de 3 a 4 segons per pàgina de mitjana. més ràpid que GPT-4o, lleugerament darrere d'AWS, sense retards imprevisibles. Speed : Estimació de $ 4-5 per 1.000 pàgines utilitzant l'API de Gemini en mode experimental només de text. Cost Gemini proporciona una alta precisió tant a través de les factures com de les taules sense necessitat d'entrada de visió o configuració complexa. és ràpid, estructuralment conscient i més resistent als trastorns de disseny que qualsevol altre model que estigui provant. Verdict S'utilitza millor quan es volen resultats de qualitat de producció de documents inconsistents i es pot controlar el format d'entrada. Fiable sota pressió, sense drama, només producció. Resultats Cinc models. mateixes tasques. mateixos documents. resultats molt diferents. Gemini va ser el millor de tot arreu - ràpid, precís i agut en estructura. GPT-4o factures clavates, sufocats a les taules. AWS Textract era ràpid, rígid i difícil de trencar. Azure va tenir els bàsics bé, però res més. Google va lluitar amb tot el que no era net i etiquetat. Cap model ho va gestionar tot. Alguns ho van gestionar prou. Si estàs construint amb AI, prova primer - o planifica netejar més tard.