AIモデルは詩を書く、電子メールを概要する、あるいは哲学者であるふりをするのに優秀です。しかし、彼らは請求書から到着日を抽出できますか?彼らは合併したセルと半欠けているヘッダーを持つ破損したテーブルを理解できますか? それが私が知りたかったことだ。 だから私は、クラウド API から血の先端の LLM まで、現実のビジネスワークフローにおける最も退屈で有用なタスクの 2 つについて、人気のある AI モデル 5 をテストしました。 (1)請求書フィールドの抽出と(2)構造化テーブルの解析。 セットアップはシンプルでした: 20 個の実際の請求書と 20 個のテーブルが実際のビジネス文書から取り上げられました. いくつかはクリーンで、ほとんどはそうではありませんでした. 私は、各モデルが欠けているデータ、不一致なレイアウト、OCRアーティファクト、および巣立った構造をどのように扱っているかを調べてみました. その後、私は4つのことを測定しました: 正確さ、速度、コスト、そして混乱した入力下の安定性。 各モデルは、20の請求書と20のテーブルを処理し、構造化された出力:合計、請求書の日付、ベンダー名、税務フィールド、行レベル値を返す必要がありました。 入力は単純なOCRテキストとして与えられ、事前にラベル化されたものではなく、細かく調整されたものでした。 一部のモデルは印象を受け、他のモデルは総数を幻覚したり、ヘッダーを無視したりしました。 以下は、これらのモデルのそれぞれが実際に何であるかについてのフィールドガイドです。 そして do - あなたがそれらを生産に使用することを計画しているなら、これはあなたが知る必要があることです。 CAN できない AWS Textract: Fast, Stable, Strictly by the Book (速く、安定的に、本によって厳密に) : Textract は、請求書抽出で信頼できる結果を提供し、ライン項目なしで 91.3%、それらで 91.1% を記録しました。 Performance 標準フィールド — 合計、請求書番号、日付 — をうまく処理し、値を幻想化したり、構造を発明したりしなかった。 テーブルでは、Textract は 82.1% の精度を達成し、GPT-4o を上回り、Azure をわずかに上回りました。 しかし、深く埋め込まれた頭部や不一致な細胞調節に苦労した。 テーブル フォーマットが故障したとき、Textract は意図を解釈しようとするのではなく、部分的または平らな出力を返しました。 また、低解像度のスキャン(200~300 DPI)をパフォーマンスの低下なしで処理し、ドキュメントが少し曖昧になった場合でもフィールド精度は安定していました。 平均処理時間:ページあたり2.1秒、一貫した精度でテストされた最速のモデルです。 Speed : Low. $10 per 1,000 pages using the AnalyzeExpense endpoint, as in the benchmark. Straightforward pricing, no tokens, no surprises. ベンチマークで報告されたように、1000ページあたり10ドルです。 Cost : Textract はスケールのために構築されています. それは創造的ではありませんが、それが正確にポイントです. それは構造を推定したり混沌に適応したりしません。 Verdict ドキュメントの形式が制御されているパイプラインで最もよく使用され、スピードで予測可能な結果が必要です。 混乱したレイアウトや不規則なテーブルの場合、他の場所を探す必要がありますが、よく形成されたビジネスドキュメントの場合、それは利用可能な最も効率的なツールの1つです。 Azure ドキュメントインテリジェンス: Clean Output, Limited Nerve Azure は、請求書番号、日付、合計などのコアフィールドを一貫して抽出しましたが、しばしば分割ベンダー名や一般的なラベルなどのエッジケースを省略しました。 Performance それは、従業員の完全な名前や長いサービスラインのような、請求表の複数の単語の項目の記述と闘い、いくつかのケースでは正確さが崩壊する原因でした。 テーブルでは、正確さが 81.5 % に達し、AWS のすぐ後ろにあり、Gemini のすぐ下にあります。 それは大きなエラーなしで平らな、規則正しいレイアウト、行と列を読み取る上でうまく機能しましたが、構造的複雑さと戦いました - 合併したセル、積み重ねられたヘッダー、または不一致な並列は値を落としたり、誤って分類された列を引き起こしました。 平均ページあたり約 3.5 秒、AWS より少し遅いが、安定して生産準備ができている。 Speed : 事前作成済みの請求書モデルを使用して 1,000 ページあたり約 10 ドル. Azure の API 経由で固定価格、調整は必要ありません。 Cost Azure は、構造化された請求書やクリーンテーブルのための低リスクの選択肢ですが、レイアウトが混乱したときに呼ぶモデルではありません。 Verdict 信頼性は高いが、限界を押し上げないし、適応性が一貫性が適応性を打ち負かすドキュメントフローに最適に使用される。 Google Docs AI: Great When It's Easy, Lost When It's Not Google Docs AI: Great When It's Easy, Lost When It's Not Google Docs AI: Great When It's Easy, Lost When It's Not : 請求書では、Googleは不均衡なパフォーマンスを示し、行項目なしで83.8%の精度を達成しましたが、テーブルが含まれたときに68.1%に落ちました。 Performance 請求書番号と日付などの標準フィールドを処理したが、しばしば誤ってタグ付けされた税金フィールド、複数の合計、またはラインレベルのデータを無視した。 テーブルパッシングはその最も弱い領域でした。Googleは38%の精度を獲得し、ベンチマークで最も低い結果をGPT-4oと結び付けました。 それは、クリーンでグリッドのようなテーブルを比較的うまく管理しましたが、統合されたヘッダー、空の行、または構造上の不規則性のある現実世界のケースでは一貫して失敗しました。 また、正しくセグメントされたフィールドではなく、構造化されていないテキストの行として行項目を返しました. That made quantity, unit price, and total extraction unreliable or impossible to valid. ページあたり約 5.1 秒、Azure および AWS より遅いが劇的ではない。 Speed 価格は、構成と地域に応じて1000ページあたり約10~12ドルで、APIベースで予測可能ですが、現在の精度レベルでは正当化しにくいです。 Cost Google ドキュメント AI は、ドキュメントがクリーンで、予測可能で、しっかりと構造化されているときに動作します。 Verdict: レイアウトの複雑さを増加させると、正確性が低下し、ダイナミック形式や層表を含む重要な抽出タスクには適していません。 入力変動が最小限で期待が低い制御された内部ワークフローで最も適用されます。 GPT-4o:スマート、正確、入力に敏感 GPT-4oは、OCRベースの入力を使用してライン項目なしで90.8%の精度を達成し、86.5%を達成しました。 Performance ドキュメントイメージで作業するとき、スコアは一貫していました: 88.3% と 89.2% 、それぞれ正しく合計、日付、請求書番号、およびベンダーの名前を識別しました。 また、ページに複数の類似のものが出現したときに正しい値を選択することも良かったです。 それは正確性の重大な損失なしに、低解像度の文書を処理したが、時には点数を誤読し、コマを落とすか、数値フィールドに十分点を間違えることもある。 しかし、テーブルパッシングは別の話でした。GPT-4oは38%の精度で、ベンチマークのすべてのモデルの中で最も低い結果でした。 単純なケースでは基本的な構造に従ったが、合併したヘッダー、組み込まれた行、不完全なレイアウトに分裂した。 コラムの関係はしばしば誤読され、セル値が間違えたり、完全に落としてしまいました. It looked like a text model trying to reason its way through a visual problem—and missing key clues. : OCR テキスト入力でページあたり約 17 - 20 秒。 画像入力では、遅延が急激に増加し、しばしば30秒以上、スムートサイズとシステム負荷によって異なります。 Speed GPT-4-turbo(テキスト入力)を使用した1000ページあたり約5~6ドル。 ビジョン API を介して画像ベースの入力は、プロンプトの長さとトークンの使用に応じて、それを倍増することができます。 Cost GPT-4oは、請求書でうまく機能し、構造化されたテキストを柔軟に理解しますが、視覚的に複雑なテーブルでは、構造を維持したり、一貫した出力を作成したりするのに苦労します。 Verdict: レイアウトが重要なドキュメントで作業している場合は、正確さが40%以下には下がらない場合、他の場所を見る必要があります。 入力形式を制御する場合や、文書のレイアウトよりも請求レベルのインテリジェンスを優先する場合に使用します。 ジェミニ 1.5 Pro: Quietly Dominant : ジェミニは、固定精度で請求書の解析を処理し、ライン項目なしで90.0%の精度と、それらと90.2%の精度を記録しました。 Performance 総数、日付、請求書番号、ベンダー名を一貫して引っ張り、形式が変更されたり、フィールドがきれいにラベル化されなかった場合でも、エラーは少なかった:重複値、誤読税フィールド、時々追加シンボル。 テーブルでは、ジェミニは他のすべてのモデルを上回り、94.2%の精度を達成し、ベンチマークをリードしました。 AWS および Azure は 82.1% および 81.5% で続いており、GPT-4o は 38.5% で遅れています。 Gemini は複数のレベルのヘッダー、合併されたセル、および不均衡な行構造を解析し、エラーが少なくなり、構造的理解が向上しました。 平均ページあたり 3 ~ 4 秒、GPT-4o より速く、AWS に少し遅れ、予測不能な遅れはありません。 Speed : テキストのみ実験モードで Gemini API を使用した 1,000 ページあたりの推定額は $ 4-5 です. Image input was not tested in this benchmark. Cost : Geminiは、視覚入力や複雑なセットアップを必要とせずに、請求書とテーブルの両方で高精度を提供します。 Verdict 不一致なドキュメントから生産レベルの結果を求め、入力フォーマットを制御できる場合に最適に使用します。 プレッシャーの下で信頼できる - ドラマなし、出力のみ。 結果 5つのパターン 同じタスク 同じドキュメント 非常に異なる結果 ジェミニは、すべての場所で最高だった - 速く、正確で、構造に鋭い。 GPT-4oは、テーブルに窒息した。 AWS Textract は速く、硬く、破るのが難しかった。 Azureは基本を正しく得たが、それ以上ではない。 Googleは、清潔でないものと戦った。 モデルはすべてを処理しませんでした。いくつかは十分に処理しました。AIで構築している場合は、最初にテストするか、後で掃除することを計画してください。