Les modèles d'IA sont excellents pour écrire des poèmes, résumer des e-mails ou faire semblant d'être des philosophes.Mais peuvent-ils extraire une date d'échéance d'une facture?Peuvent-ils comprendre une table cassée avec des cellules fusionnées et des en-têtes à moitié manquantes? C’est ce que je voulais découvrir. J’ai donc testé 5 modèles d’IA populaires – des API cloud aux LLM à l’avant-garde – sur deux des tâches les plus ennuyeuses et les plus utiles dans les flux de travail des entreprises réelles : (1) extraction de champs de facture et (2) analyse de table structurée. La configuration était simple: 20 factures réelles et 20 tables tirées de documents d'affaires réels. Certains étaient propres, la plupart n'étaient pas. J'ai regardé comment chaque modèle traitait les données manquantes, les dispositifs incohérents, les artefacts OCR et les structures nichées. La précision, la vitesse, le coût et la stabilité sous les entrées gênantes. Chaque modèle devait traiter 20 factures et 20 tables, et renvoyer des sorties structurées: totales, dates de facture, noms de fournisseurs, champs fiscaux et valeurs au niveau de la ligne. Les entrées étaient données sous forme de texte OCR simple, pas pré-étiqueté ou finement ajusté.La seule chose avec laquelle les modèles avaient à travailler était le contenu brut, plus un prompt. Certains modèles ont été impressionnés, d'autres ont halluciné les totalités ou ignoré les en-têtes. Ce qui suit est un guide de terrain sur ce que chacun de ces modèles est réellement et faire - si vous prévoyez de les utiliser dans la production, voici ce que vous devez savoir. peut ne peut AWS Textract : rapide, stable, strictement par le livre : Textract a fourni des résultats fiables sur l'extraction de factures. Il a obtenu 91,3% sans articles de ligne et 91,1% avec eux. Performance Il a bien géré les champs standards – totales, numéros de facture, dates – et n’a pas halluciné les valeurs ou inventé la structure. Si l’entrée était claire, elle a fonctionné de manière cohérente. Sur les tables, Textract a atteint une précision de 82,1%, dépassant GPT-4o et dépassant légèrement Azure. Il a traité les structures plates de manière fluide et a fait moins d'erreurs structurelles que les modèles basés sur le raisonnement génératif. Mais il a lutté avec des en-têtes profondément nichés ou des alignements cellulaires incohérents. Lorsque la mise en forme de table a échoué, Textract a renvoyé des sorties partielles ou aplatissées au lieu d'essayer d'interpréter l'intention. Il a également géré des numérisations à faible résolution (200-300 DPI) sans perte de performance, ce qui maintient la précision du champ stable même lorsque les documents étaient légèrement floués. Temps de traitement moyen : 2,1 secondes par page, ce qui en fait le modèle le plus rapide testé avec une précision constante. Speed : Bas. $10 par 1000 pages en utilisant le point final AnalyzeExpense, comme indiqué dans le référentiel. prix direct, pas de jetons, pas de surprises. Cost : Textract est construit pour l'échelle. Il n'est pas créatif, mais c'est exactement le point. Il ne déduit pas la structure ou s'adapte au chaos, mais il ne se brisera pas sous pression non plus. Verdict Meilleur utilisé dans les pipelines où le format du document est contrôlé, et vous avez besoin de résultats prévisibles à la vitesse. Pour les dispositifs troublés ou les tables irrégulières, vous devrez chercher ailleurs – mais pour les documents d’affaires bien formés, c’est l’un des outils les plus efficaces disponibles. Azure Document Intelligence : sortie propre, nerf limité : Azure a traité les factures de manière fiable, avec un score de précision de 85,8% sans éléments de ligne et de 85,7% avec eux. Il a toujours extrait des champs de base – numéro de facture, date, total – mais a souvent manqué des cas d’avantage tels que les noms de fournisseurs divisés ou les étiquettes moins courantes. Performance Il a lutté avec des descriptions d'éléments à plusieurs mots dans les tables de facturation, comme les noms complets des employés ou les longues lignes de service, ce qui a entraîné l'effondrement de la précision dans certains cas. Sur les tables, il a atteint une précision de 81,5%, juste derrière AWS et bien en dessous de Gemini. Il a bien fonctionné sur des dispositions planes, régulières, la lecture de lignes et de colonnes sans erreurs majeures.Mais il a lutté avec la complexité structurelle - les cellules fusionnées, les en-têtes empilées ou l'alignement incohérent ont entraîné des valeurs tombées ou des colonnes mal classées.Il est resté fonctionnel mais prudent. Environ 3,5 secondes par page en moyenne. Un peu plus lent que AWS, mais stable et prêt à la production. Speed : Environ 10 $ par 1 000 pages en utilisant le modèle de facture prédéfinie. Prix fixe via l'API d'Azure, aucun réglage requis. Cost C'est un choix à faible risque pour les factures structurées et les tables propres, mais ce n'est pas le modèle que vous appelez lorsque la mise en page devient gênante. Verdict Il est fiable, mais il ne pousse pas les limites – et il ne suivra pas les modèles qui le font. Le mieux utilisé dans les flux de documents où la cohérence bat l’adaptation. Google Documents AI : excellent quand c’est facile, perdu quand ce n’est pas Sur les factures, Google a montré des performances inégales. Il a atteint une précision de 83,8% sans éléments de ligne mais est tombé à 68,1% lorsque les tables ont été incluses Performance Il a traité des champs standards tels que le numéro de facture et la date, mais souvent des champs d'impôts mal étiquetés, des total dupliqués ou des données au niveau de la ligne ignorées. Google a obtenu un score de 38,5 % d’exactitude – associé à GPT-4o pour le résultat le plus bas dans le référentiel. Il a géré des tables propres, semblables à des grilles assez bien, mais échoué constamment sur les cas du monde réel avec des en-têtes fusionnés, des lignes vides ou des irrégularités structurelles. les relations cellulaires se sont brisées, les étiquettes de colonne ont été perdues et la sortie finale manquait souvent de structure utilisable. Il renvoyait également des éléments de ligne sous forme de lignes de texte non structurées plutôt que de champs correctement segmentés, ce qui rendit la quantité, le prix unitaire et l'extraction totale peu fiables ou impossibles à valider. Environ 5,1 secondes par page, plus lent que Azure et AWS, mais pas de manière spectaculaire. Speed : Environ 10-12 $ par 1000 pages, en fonction de la configuration et de la région. Les prix sont basés sur l'API et prévisibles, mais plus difficiles à justifier aux niveaux actuels de précision. Cost Google Documents AI fonctionne lorsque les documents sont propres, prévisibles et strictement structurés. Verdict: Au fur et à mesure que la complexité de la mise en page augmente, la précision diminue difficilement. Il n'est pas adapté pour les tâches d'extraction critiques impliquant des formats dynamiques ou des tables en couches. Il est mieux utilisé dans les flux de travail internes contrôlés où la variabilité d'entrée est minimale et les attentes sont modestes. GPT-4o : Intelligent, précis, sensible à l’entrée : GPT-4o a bien géré l'extraction de la facture. Il a atteint une précision de 90,8% sans éléments de ligne et de 86,5% avec eux en utilisant des entrées basées sur l'OCR. Performance En travaillant avec des images de documents, les scores sont restés cohérents: 88,3% et 89,2%, respectivement. Il était également bon de choisir la bonne valeur lorsque plusieurs semblables apparaissaient sur la page. Il a traité des documents à faible résolution sans perte majeure d'exactitude. Cependant, il a parfois mal lu la ponctuation - laisser tomber des comas ou placer des points décimaux dans des champs numériques. GPT-4o a obtenu seulement 38,5 % de précision – le score le plus bas parmi tous les modèles de l’indice de référence. Alors qu'il a suivi la structure de base dans des cas simples, il s'est décomposé sur des en-têtes fusionnés, des lignes nichées et des aménagements incomplets. Les relations de colonne ont souvent été mal lues, et les valeurs de cellules ont été déplacées ou complètement supprimées. Il ressemblait à un modèle de texte qui tentait de raisonner à travers un problème visuel – et manquait des indices clés. : Environ 17 à 20 secondes par page avec l'entrée de texte OCR. Avec l'entrée d'image, la latence augmente nettement - souvent 30 secondes ou plus, en fonction de la taille rapide et de la charge du système. Speed Environ 5 à 6 $ par 1000 pages en utilisant GPT-4-turbo (entrée de texte). Les entrées basées sur l'image via l'API de vision peuvent doubler cela, en fonction de la longueur du prompt et de l'utilisation des jetons. Cost GPT-4o fonctionne bien sur les factures et comprend le texte structuré avec nuance et flexibilité.Mais sur les tables visuellement complexes, il a du mal à maintenir la structure ou à produire des sorties cohérentes. Verdict: Si vous travaillez avec des documents où la mise en page compte – et que la précision ne peut pas tomber en dessous de 40 % – vous devrez regarder ailleurs. Utilisez-le lorsque vous contrôlez le format d'entrée ou lorsque vous priorisez l'intelligence au niveau de la facture par rapport à la mise en page du document. Gemini 1.5 Pro : silencieusement dominant : Gemini a traité l'analyse de la facture avec une précision constante. Il a obtenu une précision de 90,0% sans éléments de ligne et de 90,2% avec eux. Performance Il a constamment tiré des valeurs totales, des dates, des numéros de facture et des noms de fournisseurs, même lorsque le format a changé ou que les champs n'ont pas été correctement étiquetés.Les erreurs étaient mineures: valeurs dupliquées, champs d'impôts mal lus, le symbole supplémentaire occasionnel. Sur les tables, Gemini a dépassé tous les autres modèles. Il a atteint une précision de 94,2%, conduisant le benchmark. AWS et Azure ont suivi à 82,1% et 81.5%, tandis que GPT-4o est bien en retard à 38,5%. Gemini a analysé les en-têtes à plusieurs niveaux, les cellules fusionnées et les structures de rangées inégales avec moins d'erreurs et une meilleure compréhension structurelle. En moyenne, 3 à 4 secondes par page. Plus rapide que GPT-4o, légèrement derrière AWS, sans ralentissement imprévisible. Speed : Estimation de 4 à 5 $ par 1000 pages en utilisant l'API Gemini en mode expérimental uniquement texte. Cost : Gemini offre une précision élevée à la fois sur les factures et les tables sans avoir besoin d'une entrée de vision ou d'une configuration complexe.Il est rapide, structurellement conscient et plus résistant aux problèmes de mise en page que tout autre modèle testé. Verdict Le mieux est d'utiliser lorsque vous voulez des résultats de qualité de production à partir de documents incohérents et pouvez contrôler le format d'entrée. Fiable sous pression – pas de drame, juste de la sortie. Résultats Cinq modèles. mêmes tâches. mêmes documents. résultats très différents. Gemini était le meilleur tout autour - rapide, précis et tranchant sur la structure. GPT-4o factures à ongles, étouffés sur les tables. AWS Textract était rapide, rigide et difficile à briser. Azure a obtenu les bases correctes, mais rien de plus. Google a lutté contre tout ce qui n’était pas propre et étiqueté. Aucun modèle ne s'occupait de tout. Quelques-uns s'occupait suffisamment.Si vous construisez avec l'IA, testez d'abord - ou prévoyez de nettoyer plus tard.