Год Количество фактур→→ Год Количество фактур →2006 — 2010→6→→2011 — 2015 4→→→ →10→→Год Количество фактурСчетный год →2006 — 2010→6→2006 — 2010 6 2011 — 2015 4→ → →2016 — 2020→10→→ 10 →Стоимость услуги (средняя) AWS $10 / 1000 страницы (1) $0.01 Azure AI Document Intelligence $10 / 1000 страницы $0.01 Google Document AI $10 / 1000 страницы $0.01 "GPTT": GPT-4o API, ввод текста с третьей стороной OCR $2.50 / 1M входные токены, $10.00 / 1M выходные токены (2) $0.021 "GPTI": GPT-4o только $2.50 / 1M входные токены, $10.00 / 1M выходные токены $0.0087 Gemini Pro 2.0 $1.25, входные токены ≤ 128k токены$2.50, входные токены > 128k токены$5.00, выходные токены ≤ 128k токены$10.00, выходные токены > 128k Стоимость услуги (средняя) AWS $10 / 1000 страницы (1) $0.01 Azure AI Document Intelligence $10 / 1000 страницы $0.01 Google Document AI $10 / 1000 страницы $0.01 "GPTT": GPT-4o API, ввод текста с третьей стороной OCR $2.50 / 1M входные токены, $10.00 / 1M выходные токены (2) $0.021 "GPTI": GPT-4o только $2.50 / 1M входные токены, $10.00 / 1M выходные токены $0.0087 Gemini Pro 2.0 $1.25, входные токены ≤ 128k токены$2.50, входные токены > 128k токены$5.00, выходные токены ≤ 128k токены$10.00, выходные токены > 128kСтоимость услуги за страницу (средняя стоимость)Сервис Стоимость на страницу (в среднем) AWS $10 / 1000 страниц (1) $0.01AWS → Доллар 0.01 →Сервис Azure Document Intelligence→$10 / 1000 страниц→Доллар 0.01→→ → → →Google Документы AI→$10 / 1000 страниц→Доллар 0.01→Google Документы AI → Доллар 0.01 «GPTT»: GPT-4o API, ввод текста с третьей стороной OCR $2.50 / 1M токенов ввода, $10.00 / 1M токенов выхода (2) $0.021 → $0 021 «GPTI»: GPT-4o только $2.50 / 1M входные токены, $10.00 / 1M выходные токены $0.0087«GPTI»: только GPT-4o → → →Модель Gemini 2.0 Pro→ →→ →Модель Gemini 2.0 Pro → → → → $0 011 → $0 011 Я тестировал 7 самых популярных моделей ИИ, чтобы увидеть, насколько хорошо они обрабатывают счета-фактуры вне коробки, без каких-либо тонкостей. Читайте для того, чтобы узнать: → → → Какая модель превосходит все остальные по крайней мере на 20% Почему Google не работает со структурированными данными Узнайте, какие модели лучше всего справляются со сканерами низкого разрешения Проверенные модели Чтобы достичь цели этого теста, я начал поиск моделей ИИ, используя эти критерии: → → → → Популярность: Популярные модели имеют лучшую поддержку и документацию. : The model needs to be able to process invoices from the get-go, without fine-tuning or training the API. Invoice Processing Capability Интеграция: Поскольку результаты этого теста предназначены для использования на практике, важно, чтобы у каждой модели были возможности интеграции API для легкой интеграции. Я приземлился на 7 моделях ИИ, изложенных ниже. Я дал каждому из них прозвище для удобства: → → → → → → → → Amazon Analyze Expense API, or “ ” AWS Azure AI Document Intelligence — фактурная предварительная модель, или «Azure» Google Document AI — «Fact Parser» или «Google» GPT-4o API — ввод текста с OCR третьей стороны, или «GPTt» GPT-4o API - image input, or “ ” GPTi Gemini 2.0 Pro Experimental или «Джемини» Deepseek v3 — ввод текста, или «Deepseek-t» Invoice Dataset Модели тестировались на наборе данных из 20 счетов-фактур различных размеров и годов выпуска (с 2006 по 2020 год). 2006 — 2010 6 2011 — 2015 4 → 2016 — 2020 10 2016 — 2020 Счетный год Количество фактур Количество фактур 2006 — 2010 6 2011 — 2015 2011 — 2015 4 4 2016 — 2020 2016 — 2020 10 Методология Анализируя каждый счет, я определил список из 16 ключевых полей, которые являются общими для всех счетов-фактур и содержат самые важные данные: Invoice Id, Invoice Date, Net Amount, Tax Amount, Total Amount, Due Date, Purchase Order, Payment Terms, Customer Address, Customer Name, Vendor Address, Vendor Name, Item: Description, Item: Quantity, Item: Unit Price, Item: Amount. Fields extracted by the models were mapped to a common naming convention to ensure consistency. LLM models (GPT, DeepSeek, and Gemini) were specifically asked to return the results using these common field names. Выявление предметов фактуры Для каждого счета-фактуры я оценивал, насколько хорошо модели извлекали поля ключевых элементов: Description, Quantity, Unit Price, Total Price Эффективность метрики I’ve used a weighted efficiency metric (Eff, %) to assess the accuracy of extraction. This metric combines: Строго необходимые поля: точные совпадения, такие как идентификатор счета-фактуры, даты и т.д. Нестрогие основные поля: Частичные совпадения разрешены, если сходство (RLD, %) превышает порог. Элементы счета-фактуры: оцениваются как правильные только в том случае, если все атрибуты элементов извлечены правильно. Формулы Общая эффективность (Eff, %): Eff, % = (COUNTIF(поля строгих эс. положительные) + COUNTIF(поля не строгих эс. положительные, если RLD > порог RLD) + COUNTIF(элементы, положительные)) / ((COUNT(все поля) + COUNT(все элементы)) * 100 Item-Level Efficiency (Eff-I, %): Eff-I, % = Positive IF (ALL(Quantity, Unit Price, Amount - positive) AND RLD(Description) > RLD threshold) * 100 Результаты признания счетов Эффективность извлечения данных (за исключением элементов) Эффективность извлечения данных (включая элементы) Результаты Google исключены из этого, так как Google не смог правильно извлечь элементы. Note Топ Инсайт Azure не лучший с описаниями элементов. В этом счете Azure не удалось обнаружить полные названия элементов, узнав только первые имена, в то время как другие модели успешно идентифицировали полные имена во всех 12 элементах. Эта проблема значительно повлияла на эффективность Azure на этом счете, который был заметно ниже (33,3%) по сравнению с другими моделями. 💡 Azure’s inability to parse multi-word descriptions in structured fields highlights a critical limitation compared to competitors. Низкое разрешение счетов практически не влияет на качество обнаружения. Низкое разрешение (как воспринимается человеческим глазом) счетов-фактур в целом не ухудшало качество обнаружения. Низкое разрешение в основном приводит к незначительным ошибкам распознавания, например, в одном из счетов-фактур Deepseek спутал комму с точкой, приводя к неправильному численному значению. 💡 Modern OCR and AI models are robust to resolution issues, though rare formatting errors may occur. Google не может обнаружить предметы. Google объединяет все поля элементов в одну строку, что делает невозможным сравнение результатов с другими моделями. Актуальные расчеты: Все остальные сервисы имеют 100% правильное обнаружение с делением по атрибутам. 💡 Google’s AI is not capable of extracting structured data without fine-tuning. Многолинейные описания элементов не повлияли на качество обнаружения. 💡 Except for Google AI’s case above, multi-line item descriptions did not negatively impact detection quality across all models. Близнецы обладают наилучшим «вниманием к деталям». LLM, такие как GPT, Gemini и DeepSeek, могут быть запрошены для извлечения большего количества данных, чем предварительно построенные модели распознавания счетов-фактур. Среди всех LLM, Gemini имеет лучшую точность, когда дело доходит до извлечения дополнительных данных из пунктов счетов-фактур. Примерная фактура: Результаты Gemini: Результаты GPT: Результаты DeepSeek: 💡 Gemini has the highest items extraction accuracy compared to other LLMs: it extracts all fields, not just the standard ones, and has the highest accuracy in preserving text and numerical values. Сравнение затрат Я рассчитал стоимость обработки 1000 счетов по каждой модели, а также среднюю стоимость обработки одного счета: Сервис стоимость стоимость Стоимость на страницу (в среднем) AWS AWS $10 / 1000 страниц (1) $10 / 1000 страниц (1) $0.01 Azure AI Document Intelligence Azure AI Document Intelligence Сервис Azure Document Intelligence $10 / 1000 страниц $10 / 1000 страниц $0.01 Доллар 0.01 Google Document AI Google Документы AI $10 / 1000 страниц $10 / 1000 страниц Доллар 0.01 «GPTT»: GPT-4o API, ввод текста с OCR третьей стороны GPT-4o API, text input with 3rd party OCR “GPTT”: «ГПТ»: $2.50 / 1M input tokens, $10.00 / 1M output tokens (2) $2.50 / 1М входные токены, $10.00 / 1М выходные токены (2) $0 021 “GPTI”: GPT-4o only «GPTI»: только GPT-4o $2.50 / 1М входные токены, $10.00 / 1М выходные токены $2.50 / 1М входные токены, $10.00 / 1М выходные токены $0.0087 $0 0087 $1,25, входные просьбы ≤ 128k токенов $2.50, input prompts > 128k tokens $5,00, просьбы о выходе ≤ 128k токенов $10.00, просьбы о выходе > 128k токенов $0 0045 Gemini 2.0 Pro Gemini 2.0 Pro $1,25, входные просьбы ≤ 128k токенов $2.50, input prompts > 128k tokens $5,00, просьбы о выходе ≤ 128k токенов $10.00, просьбы о выходе > 128k токенов $1,25, входные просьбы ≤ 128k токенов $2,50, запросы на ввод > 128k токенов $5,00, просьбы о выходе ≤ 128k токенов $10.00, просьбы о выходе > 128k токенов $0 0045 $0 0045 Deepseek v3 API $10 / 1000 страниц + $0.27 / 1М токенов ввода, $1.10 / 1М токенов вывода Deepseek v3 API Deepseek v3 API Deepseek v3 API $10 / 1000 страниц + $0.27 / 1М токенов ввода, $1.10 / 1М токенов вывода $10 / 1000 pages + $0.27 / 1M input tokens, $1.10 / 1M output tokens $0 011 Notes: (1) — $8 / 1000 страниц после одного миллиона в месяц (2) — Additional $10 per 1000 pages for using a text recognition model Ключевые находки Gemini и GPT-4o являются лидерами по эффективности и последовательности добычи по всем счетам. Most Efficient ⚠️ Google AI является худшим из всех проверенных моделей, когда дело доходит до извлечения предметов, что делает общий балл эффективности низким. Worst performer : DeepSeek showed frequent mistakes in text and numerical values. Least Reliable Какая модель лучше для чего? ✅ Gemini, AWS или Azure для высокоточного извлечения данных. ✅ GPT-4o (ввод текста с сторонним OCR) для экономически эффективного распознавания счетов-фактур и отличного баланса «стоимость-эффективность». Избегайте Google AI, если вам нужно извлечь элементы с высокой точностью.