istRechnungsjahr Anzahl der Rechnungen 2006 — 2010 6 2011 — 2015 4 2016 — 2020 10 Rechnungsjahr Anzahl der Rechnungenist2006 bis 2010 6ist2011 - 2015 4ist2016 bis 2020 10istRechnungsjahr Anzahl der RechnungenRechnungsjahr ist 2006 bis 2010 62006 bis 2010 ist ist2011 - 2015 4 zuist2011 - 2015 4 zu 2016 bis 2020 102016 bis 2020 ist istKosten pro Seite (durchschnittliche Kosten)istAWS $10 / 1000 Seiten (1) $0.01istAzure AI Document Intelligence $10 / 1000 Seiten $0.01Google Document AI $10 / 1000 Seiten $0.01ististististist„GPTI“: GPT-4o nur $2.50 / 1M Eingangstoken, $10.00 / 1M Ausgangstoken $0.0087istististististDeepseek v3 API $10 / 1000 Seiten + $0.27 / 1M Eingabe Token, $1.10 / 1M Ausgabe Token $0.011ist Kosten pro Seite (durchschnittliche Kosten)istAWS $10 / 1000 Seiten (1) $0.01istAzure AI Document Intelligence $10 / 1000 Seiten $0.01 Google Document AI $10 / 1000 Seiten $0.01ist„GPTT“: GPT-4o API, Texteingabe mit OCR von Drittanbietern $2.50 / 1M-Eingabe-Token, $10.00 / 1M-Ausgabe-Token (2) $0.021ist„GPTI“: GPT-4o nur $2.50 / 1M Eingangstoken, $10.00 / 1M Ausgangstoken $0.0087istGemini 2.0 Pro $1.25, Eingabeprompts ≤ 128k Tokens$2.50, Eingabeprompts > 128k Tokens$5.00, Ausgabeprompts ≤ 128k Tokens$10.00, Ausgabeprompts > 128k Tokens $0.0045istDeepseek v3 API $10 / 1000 Seiten + $0.27 / 1M Eingabe Token, $1.10 / 1M Ausgabe Token $0.011istKosten pro Seite (durchschnittliche Kosten)Dienstleistung Kosten ist AWS $10 / 1000 Seiten (1) $0.01AWS ist ist istAzure AI Dokumentenintelligenzist10 € / 1000 Seitenistfür 0,01 €istAzure AI Dokumentenintelligenz ist für 0,01 € Google Document AI $10 / 1000 Seiten $0.01Google Dokumenten AI 10 € / 1000 Seiten ist ist„GPTT“: GPT-4o API, Textzugriff mit OCR von Drittanbietern $2.50 / 1M Eingabetoken, $10.00 / 1M Ausgabetoken (2)istfür 0,21 €ist„GPTT“: GPT-4o API, Textzugriff mit OCR von Drittanbietern $2.50 / 1M Eingabetoken, $10.00 / 1M Ausgabetoken (2) ist ist„GPTI“: nur GPT-4oist$2.50 / 1M Eingangs-Token, $10.00 / 1M Ausgabe-Tokenist€ 0,0087ist„GPTI“: nur GPT-4o $2.50 / 1M Eingangs-Token, $10.00 / 1M Ausgabe-Token € 0,0087 Gemini 2.0 Pro $1.25, Eingabeprompts ≤ 128k Tokens$2.50, Eingabeprompts > 128k Tokens$5.00, Ausgabeprompts ≤ 128k Tokens$10.00, Ausgabeprompts > 128k Tokens $0.0045Das Gemini 2.0 Pro ist istDie Deepseek v3 APIistist istvon 011istist ist von 011 Ich habe die 7 beliebtesten AI-Modelle getestet, um zu sehen, wie gut sie Rechnungen aus der Box verarbeiten, ohne irgendwelche Feinabstimmungen. Lesen, um zu lernen: ist ist ist ist Welches Modell alle anderen um mindestens 20% übertrifft Warum Google AI nicht mit strukturierten Daten arbeitet Sehen Sie, welche Modelle Low-Resolution-Scans am besten bewältigen getestete Modelle Um das Ziel dieses Tests zu erreichen, begann ich mit der Suche nach KI-Modellen unter Verwendung dieser Kriterien: ist ist ist ist Beliebtheit: Beliebte Modelle haben bessere Unterstützung und Dokumentation. Rechnungsverarbeitungsfähigkeit: Das Modell muss in der Lage sein, Rechnungen von Beginn an zu verarbeiten, ohne die API zu finanzieren oder zu trainieren. Integration: Da die Ergebnisse dieses Tests in der Praxis verwendet werden sollen, ist es wichtig, dass jedes Modell über API-Integrationskapazitäten verfügt, um die Integration zu erleichtern. Ich habe auf 7 AI-Modellen gelandet, die unten aufgeführt sind. Ich habe jedem einen Spitznamen für Bequemlichkeit gegeben: ist ist ist ist ist ist ist ist Amazon Analyze Expense API oder „AWS“ Azure AI Document Intelligence – Invoice Prebuilt Model oder „Azure“ Google Document AI – Invoice Parser oder „Google“ GPT-4o API - Texteingabe mit OCR von Drittanbietern oder „GPTt“ GPT-4o API - Bildeingabe oder „GPTi“ Gemini 2.0 Pro Experimental oder „Gemini“ Deepseek v3 - text input, or “ ” Deepseek-t Rechnungsdatensatz Die Modelle wurden auf einem Datensatz von 20 Rechnungen verschiedener Layouts und Ausstellungsjahre (von 2006 bis 2020) getestet. Rechnungsjahr Anzahl der Rechnungen Anzahl der Rechnungen 2006 bis 2010 6 zu 6 zu 2011 - 2015 4 zu 2016 bis 2020 Zehn Zehn Methodologie Durch die Analyse jeder Rechnung habe ich eine Liste von 16 Schlüsselfeldern ermittelt, die bei allen Rechnungen üblich sind und die wichtigsten Daten enthalten: Invoice Id, Invoice Date, Net Amount, Tax Amount, Total Amount, Due Date, Purchase Order, Payment Terms, Customer Address, Customer Name, Vendor Address, Vendor Name, Item: Description, Item: Quantity, Item: Unit Price, Item: Amount. Die von den Modellen extrahierten Felder wurden zu einer gemeinsamen Namenskonvention gemappt, um Konsistenz zu gewährleisten. LLM-Modelle (GPT, DeepSeek und Gemini) wurden speziell aufgefordert, die Ergebnisse mithilfe dieser gemeinsamen Feldnamen zurückzugeben. Detektion von Gegenständen Für jede Rechnung habe ich ausgewertet, wie gut die Modelle die Schlüsselelementfelder extrahiert haben: Description, Quantity, Unit Price, Total Price Effizienzmetriken Ich habe eine gewogene Effizienzmetrik (Eff, %) verwendet, um die Genauigkeit der Extraktion zu beurteilen. Strenge wesentliche Felder: Genaue Übereinstimmungen wie Rechnungs-ID, Daten usw. Nicht strenge wesentliche Felder: Teilmatches sind zulässig, wenn die Ähnlichkeit (RLD, %) eine Schwelle überschreitet. Rechnungsgegenstände: Nur dann als korrekt bewertet, wenn alle Elementeigenschaften korrekt extrahiert werden. Formeln Allgemeine Effizienz (Eff, %): Eff, % = (COUNTIF(strict ess. Felder, positiv) + COUNTIF(non-strict ess. Felder, positiv, wenn RLD > RLD Schwelle) + COUNTIF(Elemente, positiv)) / ((COUNT(alle Felder) + COUNT(alle Elemente)) * 100 Effizienz auf Elementebene (Eff-I, %): Eff-I, % = Positiv IF (ALL (Quantität, Einheitspreis, Betrag - positiv) UND RLD (Beschreibung) > RLD Schwelle) * 100 Rechnung Anerkennung Ergebnisse Effizienz der Datenextraktion (ausgenommen Elemente) Effizienz der Datenextraktion (einschließlich der Elemente) : Die Ergebnisse von Google werden hiervon ausgelassen, da Google keine Elemente ordnungsgemäß extrahiert hat. Note Top Insights Azure ist mit Elementbeschreibungen nicht das Beste. In dieser Rechnung konnte Azure die vollständigen Elementnamen nicht erkennen und erkannte nur die ersten Namen, während andere Modelle die vollständigen Namen in allen 12 Elementen erfolgreich identifizierten. Dieses Problem hatte einen signifikanten Einfluss auf die Effizienz von Azure bei dieser Rechnung, die im Vergleich zu den anderen Modellen deutlich niedriger war (33,3%). 💡 Azure’s inability to parse multi-word descriptions in structured fields highlights a critical limitation compared to competitors. Die geringe Auflösung der Rechnungen wirkt sich praktisch nicht auf die Qualität der Erkennung aus. Die niedrige Auflösung führt hauptsächlich zu geringfügigen Erkennungsfehlern, zum Beispiel verwechselt Deepseek in einer der Rechnungen eine Komma mit einem Punkt, was zu einem falschen numerischen Wert führt. 💡 Modern OCR and AI models are robust to resolution issues, though rare formatting errors may occur. Google erkennt keine Elemente. Google kombiniert alle Elementefelder in einer einzigen Zeichenfolge, wodurch es unmöglich ist, die Ergebnisse mit anderen Modellen zu vergleichen. Aktuelle Rechnung: Alle anderen Dienste haben 100% korrekte Erkennung mit Abbau nach Attributen. 💡 Google’s AI is not capable of extracting structured data without fine-tuning. Multi-Line-Artikelbeschreibungen haben die Qualität der Erkennung nicht beeinträchtigt. 💡 Except for Google AI’s case above, multi-line item descriptions did not negatively impact detection quality across all models. Gemini hat die beste „Aufmerksamkeit fürs Detail“. LLMs wie GPT, Gemini und DeepSeek können gebeten werden, mehr Daten als vorgefertigte Rechnungserkennungsmodelle zu extrahieren. Unter allen LLMs hat Gemini die beste Genauigkeit, wenn es darum geht, zusätzliche Daten aus Rechnungsartikeln zu extrahieren. Beispiel für Rechnung: Ergebnisse von Gemini: Ergebnisse der GPT: DeepSeek Ergebnisse: 💡 Gemini has the highest items extraction accuracy compared to other LLMs: it extracts all fields, not just the standard ones, and has the highest accuracy in preserving text and numerical values. Kosten vergleichen Ich habe die Kosten für die Verarbeitung von 1000 Rechnungen pro Modell sowie die durchschnittlichen Kosten für die Verarbeitung einer Rechnung berechnet: „GPTT“: GPT-4o API, Textzugriff mit OCR von Drittanbietern $2.50 / 1M Eingabetoken, $10.00 / 1M Ausgabetoken (2) für 0,21 € Das Gemini 2.0 Pro ist $1.25, Eingabeprompts ≤ 128k Tokens$2.50, Eingabeprompts > 128k Tokens$5.00, Ausgabeprompts ≤ 128k Tokens$10.00, Ausgabeprompts > 128k Tokens € 0,0045 € Dienstleistung Kosten Kosten pro Seite (durchschnittlich) Kosten pro Seite (durchschnittlich) AWS AWS 10 € / 1000 Seiten (1) 10 € / 1000 Seiten (1) für 0,01 € für 0,01 € Azure AI Document Intelligence Azure AI Dokumentenintelligenz 10 € / 1000 Seiten 10 € / 1000 Seiten für 0,01 € Google Document AI Google Dokumenten AI 10 € / 1000 Seiten für 0,01 € für 0,01 € GPT-4o API, text input with 3rd party OCR “GPTT”: Die „GPTT“: $2.50 / 1M Eingabetoken, $10.00 / 1M Ausgabetoken (2) für 0,21 € für 0,21 € “GPTI”: GPT-4o only „GPTI“: nur GPT-4o $2.50 / 1M Eingangs-Token, $10.00 / 1M Ausgabe-Token € 0,0087 Gemini 2.0 Pro Das Gemini 2.0 Pro $1.25, Eingabeprompts ≤ 128k Tokens$2.50, Eingabeprompts > 128k Tokens$5.00, Ausgabeprompts ≤ 128k Tokens$10.00, Ausgabeprompts > 128k Tokens $1.25, Eingabeprompts ≤ 128k Tokens$2.50, Eingabeprompts > 128k Tokens$5.00, Ausgabeprompts ≤ 128k Tokens$10.00, Ausgabeprompts > 128k Tokens € 0,0045 € € 0,0045 € $10 / 1000 pages + $0.27 / 1M input tokens, $1.10 / 1M output tokens Die Deepseek v3 API Deepseek v3 API Die Deepseek v3 API $10 / 1000 Seiten + $0.27 / 1M Eingabetoken, $1.10 / 1M Ausgabetoken $10 / 1000 Seiten + $0.27 / 1M Eingabetoken, $1.10 / 1M Ausgabetoken von 011 Notes: (1) — $8 / 1000 Seiten nach einer Million pro Monat (2) — Zusätzliche 10 US-Dollar pro 1000 Seiten für die Verwendung eines Texterkennungsmodells Schlüsselfunde Gemini und GPT-4o sind führend in der Effizienz und Konsistenz der Extraktion auf allen Rechnungen. Most Efficient ️ : Google AI ist das Schlimmste von allen getesteten Modellen, wenn es um die Extraktion von Artikeln geht, wodurch die Gesamteffizienz-Score niedrig ist. Worst performer DeepSeek zeigte häufige Fehler in Text- und Zahlenwerten. Least Reliable Welches Modell ist am besten für was? ✅ Gemini, AWS oder Azure für hochgenaue Datenerfassung. ✅ GPT-4o (Text-Eingabe mit OCR von Drittanbietern) für kosteneffiziente Rechnungserkennung und ein großartiges „Kosten-Effizienz“-Gleichgewicht. Vermeiden Sie Google AI, wenn Sie Elemente mit hoher Genauigkeit extrahieren müssen.