ІГод на выкананне рахункуІ2006 — 2010 6І2011 — 2015 42016 — 2020 10І Год на выкананне рахункуІ2006 — 2010 6І2011 — 2015 4І2016 — 2020 10ІГод на выкананне рахункуГод распрацоўкі І 2006 — 2010 6І 6 2011 — 2015 42011 — 2015 год 4 2016 — 2020 102016 — 2020 10 ІКошт паслугі Кошт па старонцы (у сярэднім выразе) AWS $10 / 1000 страницы (1) $0.01 Azure AI Document Intelligence $10 / 1000 страницы $0.01 Google Document AI $10 / 1000 страницы $0.01 "GPTT": GPT-4o API, тэкставы ўвод з 3rd party OCR $2.50 / 1M ўводныя токены, $10.00 / 1M выхадныя токены (2) $0.021 "GPTI": GPT-4o толькі $2.50 / 1M ўводныя токены, $10.00 / 1M выхадныя токены $0.0087 Gemini Pro 2.0 $1.25, ўводныя токены ≤ 128k токены$2.50, ўводныя токены > 128k токены$5.00, выхадныя токены ≤ 128k токены$ Кошт службы на старонку (асяроддзе)ІAWS $10 / 1000 старон (1) $0.01ІAzure AI Document Intelligence $10 / 1000 страниц $0.01ІGoogle Docs AI $10 / 1000 страниц $0.01І“GPTT”: GPT-4o API, тэкставы ўваход з 3rd party OCR $2.50 / 1M ўваходныя токены, $10.00 / 1M выхадныя токены (2) $0.021І“GPTI”: GPT-4o толькі $2.50 / 1M ўваходныя токены, $10.00 / 1M выхадныя токены $0.0087ІGemini 2.0 Pro $1.25, папярэднія пампаты ≤ 128k токены$2.50, папярэднія пампаты > 128k токены$5.00, выхадныя пампаты ≤ 128k токены$10.00, выхадныя пампаты > 128k токены $0.0045ІDeepseek v3 API $10 / 1000 страницы + $0.27 / 1M входныя токены, $1.10 / 1M выхадныя токены $0.011ІКошт службы на старонку (асяроддзе)І Кошт Кошт на старонку (асяроддзе) AWS $10 / 1000 старон (1) $0.01AWS І І Azure AI Document Intelligence $10 / 1000 страниц $0.01Загрузіць Azure Document Intelligence $10 / 1000 фотаздымкаў І Google Docs AI $10 / 1000 страниц $0.01Google Docs $10 / 1000 фотаздымкаў І “GPTT”: GPT-4o API, тэкставы ўваход з 3rd party OCR $2.50 / 1M ўваходныя токены, $10.00 / 1M выхадныя токены (2) $0.021«GPTT»: GPT-4o API, тэкставы ўвод з OCR 3-й партыі 0 0 0 21 “GPTI”: GPT-4o толькі $2.50 / 1M ўваходныя токены, $10.00 / 1M выхадныя токены $0.0087І $2.50 / 1M ўступныя токены, $10.00 / 1M выхадныя токены І Gemini 2.0 Pro $1.25, папярэднія пампаты ≤ 128k токены$2.50, папярэднія пампаты > 128k токены$5.00, выхадныя пампаты ≤ 128k токены$10.00, выхадныя пампаты > 128k токены $0.0045Загрузіць Gemini 2.0 Pro І І ІСцягнуць Deepseek v3І$10 / 1000 старон + $0.27 / 1M ўступныя токены, $1.10 / 1M выхадныя токеныІ Сцягнуць Deepseek v3 І І Я выпрабаваў 7 найбольш папулярных мадэляў AI, каб убачыць, як добра яны апрацоўваюць рахункі з-за кошыка, без любога тонкага намінавання. Чытайце для таго, каб даведацца: І І І І Якая мадэль перавышае ўсе іншыя па меншай меры на 20% Чаму Google не працуе з структураванымі дадзенымі Глядзіце, якія мадэлі спраўляюцца з сканамі з нізкім вырашэннем найлепш Выпрабаваныя мадэлі Для таго, каб дасягнуць мэты гэтага тесту, я пачаў пошук мадэляў AI, выкарыстоўваючы гэтыя крэдыты: І І І І Популярнасць: Популярныя мадэлі маюць лепшую падтрымку і дакументацыю. Здаровая касметыка вы можаце зрабіць самі Інтэграцыя: Паколькі вынікі гэтага тэсту павінны быць выкарыстаны на практыцы, важна, каб у кожнай мадэлі былі магчымасці інтэграцыі API для лёгкай інтэграцыі. Я прыбыў на 7 мадэляў AI, выкладзеных ніжэй. Я даў кожнаму з іх псеўданім для зручнасці: І І І І І І І І Amazon Analyze Expense API, або «AWS» Azure AI Document Intelligence — фактурная перабудаваная мадэль, або «Azure» Google Docs AI — «Google» або «Invoice Parser» GPT-4o API - тэкставы ўвод з 3rd party OCR, або "GPTt" GPT-4o API - выява ўводу, або «GPTi» Gemini 2.0 Pro Experimental, або «Gemini» Deepseek v3 - тэкставы ўвод, або “Deepseek-t” Дадатковыя рахункі Мадэлі былі выпрабаваныя на наборы дадзеных з 20 рахункаў розных размяшчэнняў і гадоў выдачы (з 2006 па 2020). Год распрацоўкі Колькасць рахункаў Колькасць рахункаў 2006 — 2010 год 2006 — 2010 год 6 2011 — 2015 год 4 2016 — 2020 10 Методыка Аналізуючы кожную рахунку, я вызначыў спіс 16 ключавых полей, якія з'яўляюцца агульнымі для ўсіх рахункаў і ўтрымліваюць найбольш важныя дадзеныя: Invoice Id, Invoice Date, Net Amount, Tax Amount, Total Amount, Due Date, Purchase Order, Payment Terms, Customer Address, Customer Name, Vendor Address, Vendor Name, Item: Description, Item: Quantity, Item: Unit Price, Item: Amount. Мадэлі LLM (GPT, DeepSeek, і Gemini) былі спецыяльна запрашаны, каб вярнуць вынікі, выкарыстоўваючы гэтыя агульныя назвы полей. Вынікі пошуку - Detection Items Для кожнага рахунку я ацэньваў, як добра мадэлі вылучалі полы ключавых элементаў: Description, Quantity, Unit Price, Total Price Эфектыўныя метрыкі Я выкарыстоўваў ваганую метрыку эфектыўнасці (Eff, %) для ацэнкі дакладнасці экстракцыі. Строгі асноўныя поля: Точныя адпачынкі, такія як ідэнтыфікатар рахунку, даты і г.д. Нешматлікія асноўныя поля: Частка адпачынку дапускаецца, калі падобнасць (RLD, %) перавышае прагноз. Усё, што вам трэба зрабіць, гэта проста адзначце файлы, і вы ўсё бяспечна. Формулы Агульная эфектыўнасць (Eff, %): Eff, % = (COUNTIF(строгі ess. поля, пазітыўныя) + COUNTIF(не-строгі ess. поля, пазітыўныя, калі RLD > RLD пагроза) + COUNTIF(элементы, пазітыўныя)) / ((COUNT(усе поля) + COUNT(усе элементы)) * 100 Эфектыўнасць на ўзроўні элементаў (Eff-I, %): Eff-I, % = Позитивная IF (ALL(Колькасць, адзінкавая цана, сума - пазітыўная) І RLD(Апісанне) > Прагроза RLD) * 100 Узнагароджанне рахункаў Эфектыўнасць вывучэння дадзеных (за выключэннем элементаў) Эфектыўнасць вывучэння дадзеных (уключаючы элементы) : Вынікі Google выпушчаны з гэтага, таму што Google не атрымаў элементы правільна. Note Топ Інтэрнэт Azure не найлепшы з апісаннямі элементаў. Дар’я адзначае, што новы фундамент мае фактуру “караед”, якой у ХІХ стагоддзі быць не магло. Гэтая праблема значна ўплывала на эфектыўнасць Azure на гэтым рахунку, які быў значна ніжэй (33,3%) у параўнанні з іншымі мадэлямі. 💡 Azure’s inability to parse multi-word descriptions in structured fields highlights a critical limitation compared to competitors. Нізкая выразнасць рахункаў практычна не ўплывае на якасць выяўлення. У нашай багатай беларускай літаратуры няма другога такога твора, які па энцыклапедычнасці выяўлення ў ім нацыянальнага, так набліжаўся б да "Новай зямлі". 💡 Modern OCR and AI models are robust to resolution issues, though rare formatting errors may occur. Google не выконвае задачы. Google аб'ядноўвае усе полы элементаў у адзін сцяг, што робіць немагчымае параўноўванне вынікаў з іншымі мадэлямі. Актуальныя факты: Усе іншыя паслугі маюць 100% правільнае выяўленне з распаўсюджваннем па атрыбутах. 💡 Google’s AI is not capable of extracting structured data without fine-tuning. Многія лініі апісання элементаў не ўплывалі на якасць выяўлення. 💡 Except for Google AI’s case above, multi-line item descriptions did not negatively impact detection quality across all models. Дзеці маюць найлепшую «павагу да дэталяў». LLMs, такія як GPT, Gemini, і DeepSeek могуць быць запрашаны, каб вытрымаць больш дадзеных, чым перабудаваныя мадэлі прызнання рахункаў. З усіх LLMs, Gemini мае лепшую дакладнасць, калі справа даходзіць да вытрымання дадатковых дадзеных з элементаў рахункаў. GPT часта вытрымалі правільныя полы, але няправільныя значэнні полей, і DeepSeek выконваў найгоршы з 3 мадэляў з найбольшай дакладнасцю вытрымання палявых значэнняў. Прыкладныя факты: Gemini results: Вынікі GPT: Вынікі DeepSeek: 💡 Gemini has the highest items extraction accuracy compared to other LLMs: it extracts all fields, not just the standard ones, and has the highest accuracy in preserving text and numerical values. Параўнанне затрат Я вылічыў кошт апрацоўкі 1000 рахункаў кожнай мадэлі, а таксама сярэдні кошт апрацоўкі аднаго рахунку: Службы Службы Кошт Кошт на старонку (асяроддзе) AWS AWS $10 / 1000 старон (1) $10 / 1000 старон (1) Усяго 0.01 Усяго 0.01 Azure AI Document Intelligence Загрузіць Azure Document Intelligence $10 / 1000 pages Усяго 0.01 Усяго 0.01 Google Document AI Google Docs $10 / 1000 фотаздымкаў Усяго 0.01 Усяго 0.01 GPT-4o API, text input with 3rd party OCR “GPTT”: «ГПТ»: $2.50 / 1M ўступныя токены, $10.00 / 1M выхадныя токены (2) $2.50 / 1M input tokens, $10.00 / 1M output tokens (2) $0.021 «GPTI»: толькі GPT-4o “GPTI”: GPT-4o only «GPTI»: толькі GPT-4o $2.50 / 1M ўступныя токены, $10.00 / 1M выхадныя токены З тых часоў прайшло гадоў. 0087 З тых часоў прайшло гадоў. 0087 Gemini 2.0 Pro Загрузіць Gemini 2.0 Pro $1,25, імпульсы ўводу ≤ 128k токены$2,50, імпульсы ўводу > 128k токены$5,00, імпульсы выхаду ≤ 128k токены$10,00, імпульсы выхаду > 128k токены $1,25, імпульсы ўводу ≤ 128k токены$2,50, імпульсы ўводу > 128k токены$5,00, імпульсы выхаду ≤ 128k токены$10,00, імпульсы выхаду > 128k токены 0 0 45 0 0 45 0 0 0 11 Deepseek v3 API Сцягнуць Deepseek v3 $10 / 1000 старон + $0.27 / 1M ўступныя токены, $1.10 / 1M выхадныя токены $10 / 1000 старон + $0.27 / 1M ўступныя токены, $1.10 / 1M выхадныя токены 0 0 0 11 0 0 0 11 Notes: (1) — $8 / 1000 страниц после одного миллиона за месяц (2) — Additional $10 per 1000 pages for using a text recognition model Ключавыя вынікі : Gemini and GPT-4o are leading in efficiency and consistency of extraction across all invoices. Most Efficient ️ Сярод версій гульняў онлайн call of duty можна знайсці мноства займальных і дасціпных сюжэтаў, а апошняй навінкай, выпушчанай у канцы восені гэтага года, стала гульня Call of Duty: Ghost. Worst performer Агулам, для мяне гэта тэкст — аб’яднаны, аформлены візуальна і вербальна. Least Reliable Якая мадэль лепшая для чаго? ✅ Gemini, AWS або Azure для вывучэння дадзеных высокай дакладнасці. ✅ GPT-4o (текст-інтэрв'ю з трэцяй сторонай OCR) для каштоўнага прызнання рахункаў і вялікага балансу "кошт-эфектыўнасць". 🔸 Выключайце Google AI, калі вам трэба вылучаць элементы з высокай дакладнасцю.