Az AI-modellek nagyszerűek a versek írásában, az e-mailek összefoglalásában vagy a filozófusnak való feltételezésben. De ki tudnak húzni egy határidőt egy számláról? Ezt akartam kideríteni. Tehát 5 népszerű mesterséges intelligencia modellt teszteltem - a felhő API-któl a vérnyomásig tartó LLM-ekig - a valós üzleti munkafolyamatok két legszomorúbb és leghasznosabb feladatán: (1) számla mező kivonása és (2) strukturált táblázat elemzése. A beállítás egyszerű volt: 20 tényleges számla és 20 táblázat a tényleges üzleti dokumentumokból. Néhány tiszta volt, a legtöbb nem volt. Megnéztem, hogyan kezelte az egyes modellek a hiányzó adatokat, a következetlen elrendezéseket, az OCR-tárgyakat és a fészkelő szerkezeteket. Pontosság, sebesség, költség és stabilitás a zavaros bemenetek alatt. Minden modellnek 20 számlát és 20 táblázatot kellett feldolgoznia, és strukturált kimeneteket kellett adnia: összességeket, számlázási dátumokat, eladói neveket, adózási mezőket és sorszintű értékeket. A bemeneteket egyszerű OCR-szövegként adták meg, nem előre megjelölve vagy finoman beállítva.Az egyetlen dolog, amivel a modelleknek dolgozniuk kellett, a nyers tartalom, valamint egy prompt. Néhány modell lenyűgözött, mások hallucináltak vagy figyelmen kívül hagyták a fejléceket. Az alábbiakban bemutatjuk, hogy mi is valójában az egyes modellek. és ha azt tervezi, hogy használja őket a termelésben, ez az, amit tudnia kell. Lehet Nem lehet AWS Textract: Gyors, stabil, szigorúan a könyv szerint : A Textract megbízható eredményeket ért el a számlák kivonásánál. 91,3% -ot ért el vonal nélkül és 91,1% -ot velük. Performance Jól kezelte a standard mezőket – összességeket, számlaszámokat, dátumokat –, és nem hallucinálta az értékeket vagy nem találta fel a szerkezetet. Ha a bemenet világos volt, következetesen teljesített. Ha egy mező hiányzott vagy kétértelmű volt, akkor üresen hagyta anélkül, hogy kitalálná. A táblázatokon a Textract elérte a 82,1% -os pontosságot, amely felülmúlja a GPT-4o-t, és kissé meghaladja az Azure-t. A lapos struktúrákkal zökkenőmentesen foglalkozott, és kevesebb szerkezeti hibát követett el, mint a generatív érvelésre támaszkodó modellek. De küzdött mélyen fészkelő fejlécekkel vagy következetlen sejtelrendezéssel. Amikor a táblázati formázás meghibásodott, a Textract részleges vagy kiegyenlített kimeneteket adott vissza, ahelyett, hogy megpróbálta volna értelmezni a szándékot. Az alacsony felbontású (200–300 DPI) szkennelést is elvégezte a teljesítmény csökkenése nélkül, így a mező pontossága stabil, még akkor is, ha a dokumentumok kissé elmosódtak. Átlagos feldolgozási idő: 2,1 másodperc oldalanként, így a leggyorsabb tesztelt modell következetes pontossággal. Speed : Alacsony. $10 1000 oldalra az AnalyzeExpense végpont használatával, ahogyan azt a referenciaértékben jelentették. Közvetlen árképzés, nincs token, nincs meglepetés. Cost : A Textract méretre épül. Nem kreatív, de pontosan ez a lényeg. Nem következtet a szerkezetre, vagy alkalmazkodik a káoszhoz, de nem szakad meg nyomás alatt sem. Verdict A legjobban olyan csővezetékekben használják, ahol a dokumentumformátumot szabályozzák, és gyors előre látható eredményekre van szükség. A zavaros elrendezések vagy a szabálytalan táblázatok esetében máshol kell keresnie - de a jól megalapozott üzleti dokumentumok esetében ez az egyik leghatékonyabb eszköz. Azure Document Intelligence: tiszta kimenet, korlátozott ideg Az Azure megbízhatóan kezelte a számlákat, 85,8% pontosságot ért el sorelemek nélkül, és 85,7% pontosságot ért el velük együtt. Folyamatosan nyert ki alapvető mezőket – számlaszámot, dátumot, összességet –, de gyakran elmulasztotta az olyan szélsőséges eseteket, mint a megosztott szállítói nevek vagy kevésbé gyakori címkék. Performance A számlázási táblázatokban többszóbeli elemek leírásával küzdött, mint például a teljes munkavállalói nevek vagy a hosszú szolgáltatási sorok, ami bizonyos esetekben a pontosság összeomlását okozta. A táblázatokon elérte a 81.5% -os pontosságot, közvetlenül az AWS mögött és jóval a Gemini alatt. Jól teljesített lapos, rendszeres elrendezéseken, sorok és oszlopok olvasásán nagy hibák nélkül, de a szerkezeti összetettséggel küzdött – egyesített cellák, halmozott fejlécek, vagy következetlen elrendezés vezetett az értékek csökkenéséhez vagy a helytelenül besorolt oszlopokhoz. Közel 3,5 másodperc oldalonként átlagosan. Kicsit lassabb, mint az AWS, de stabil és gyártásra kész. Speed : Körülbelül 10 dollár 1000 oldalra az előre beépített számlázási modell használatával. Az Azure API-n keresztül rögzített árak, nincs szükség beállításra. Cost Az Azure egy alacsony kockázatú választás a strukturált számlák és tiszta táblázatok esetében, de nem az a modell, amelyet akkor hív, ha a elrendezés zavaros. Verdict Megbízható, de nem tolja a határokat – és nem fog lépést tartani azokkal a modellekkel, amelyek ezt teszik. Google dokumentum AI: nagyszerű, ha könnyű, elveszett, ha nem A számláknál a Google egyenlőtlen teljesítményt mutatott, 83,8%-os pontosságot ért el sorelemek nélkül, de a táblázatok beillesztésekor 68,1%-ra esett. Performance Szabványos mezőkkel, például számlaszámmal és dátummal foglalkozott, de gyakran tévesen címkézett adózási mezőket, duplikált összegeket, vagy figyelmen kívül hagyta a vonalszintű adatokat. A Google 38,5 százalékos pontosságot ért el – a benchmarkban a legalacsonyabb eredményt a GPT-4o-val kötve. Meglehetősen jól kezelte a tiszta, rácsszerű táblákat, de következetesen kudarcot vallott az egyesített fejlécekkel, üres sorokkal vagy szerkezeti szabálytalanságokkal rendelkező valós esetekben.A sejtkapcsolatok megszakadtak, az oszlopcímkéket elveszítették, és a végső kimenet gyakran nem rendelkezett hasznos szerkezettel. A sorelemeket strukturálatlan szövegsorok formájában is visszaadta, nem pedig megfelelően szegmentált mezők formájában, így a mennyiséget, az egységárat és a teljes extrakciót megbízhatatlanná vagy lehetetlenné tette az érvényesítés. Körülbelül 5,1 másodperc oldalanként, lassabb, mint az Azure és az AWS, de nem drámaian. Speed Körülbelül 10–12 dollár 1000 oldalra, a konfigurációtól és a régiótól függően.Az árak API-alapúak és kiszámíthatóak, de a jelenlegi pontossági szinteknél nehezebben igazolhatók. Cost A Google Dokumentumok mesterséges intelligenciája akkor működik, ha a dokumentumok tisztaak, kiszámíthatóak és szorosan strukturáltak. Verdict: Az elrendezés bonyolultságának növekedésével a pontosság nehezen csökken, és nem alkalmas olyan kritikus extrakciós feladatokhoz, amelyek dinamikus formátumokat vagy rétegzett táblákat foglalnak magukban. A legjobban ellenőrzött belső munkafolyamatokban használják, ahol a bemeneti változékonyság minimális, és a várakozások szerények. GPT-4o: intelligens, precíz, érzékeny a bemenetre : A GPT-4o jól kezelte a számlák kivonását. elérte a 90,8% -os pontosságot vonalelemek nélkül és 86,5% -ot az OCR-alapú bemenetek használatával. Performance A dokumentumképekkel végzett munka során a pontszámok következetesek maradtak: 88,3% és 89,2%, illetve helyesen azonosították az összegeket, a dátumokat, a számlaszámokat és a szállítók nevét. Jó volt kiválasztani a megfelelő értéket, amikor több hasonló megjelenik az oldalon. Az alacsony felbontású dokumentumokat nagy pontossági veszteség nélkül kezelte, azonban néha félreolvassa a pontosságot, vagyis a számok mezőiben hibásan helyezi el a decimális pontokat. A GPT-4o mindössze 38,5 százalékos pontosságot ért el – ez volt a legalacsonyabb pontszám a benchmark összes modellje között. Míg az egyszerű esetekben az alapszerkezetet követte, egyesített fejlécekre, fészkelő sorokra és hiányos elrendezésekre bontakozott. Az oszlopviszonyok gyakran helytelenül olvashatók, és a cellák értékei helytelenül helyezkedtek el, vagy teljesen leestek. Úgy nézett ki, mint egy szöveges modell, amely egy vizuális problémán keresztül próbál érvelni – és hiányzik a kulcsszavak. : Körülbelül 17–20 másodperc oldalanként OCR szövegbevitellel. A képbevitellel a késleltetés jelentősen megnövekszik – gyakran 30 másodperc vagy annál több, azonnali mérettől és a rendszerterheléstől függően. Speed Körülbelül 5-6 dollár 1000 oldalra GPT-4-turbo (szövegbevitel) használatával. A képalapú bemenetek a Vision API-n keresztül megduplázhatják ezt, a prompt hosszától és a token használatától függően. Cost A GPT-4o jól teljesít a számlákban, és árnyalattal és rugalmassággal érti a strukturált szöveget, de a vizuálisan összetett táblázatokon nehezen képes megőrizni a szerkezetet, vagy következetes kimeneteket készíteni. Verdict: Ha olyan dokumentumokkal dolgozik, amelyekben az elrendezés számít – és a pontosság nem esik 40% alá –, akkor máshol kell keresnie. Használja, amikor a bemeneti formátumot szabályozza, vagy a számlázási szintű intelligenciát a dokumentum elrendezésénél elsőbbséget élvez. Gemini 1.5 Pro: csendesen domináns : Gemini folyamatos pontossággal kezelte a számlák elemzését. 90,0%-os pontosságot ért el vonalelemek nélkül és 90,2%-ot velük. Performance Folyamatosan húzta az összegeket, a dátumokat, a számlaszámokat és a szállítói neveket – még akkor is, ha a formátum megváltozott, vagy a mezők nem voltak megfelelően címkézve. A hibák kisebbek voltak: duplikált értékek, helytelenül olvasható adó mezők, az alkalmi extra szimbólum. A táblázatokon a Gemini minden más modellt felülmúlott, és elérte a 94,2% -os pontosságot, ami a referenciamutatót vezette. Az AWS és az Azure 82,1% és 81.5%, míg a GPT-4o messze elmaradt 38,5% -kal. A Gemini többszintű fejléceket, egyesített cellákat és egyenetlen sorszerkezeteket elemzett kevesebb hibával és jobb szerkezeti megértéssel. Folyamatosan gyors. átlagosan 3-4 másodperc oldalanként. gyorsabb, mint a GPT-4o, kissé elmarad az AWS-től, kiszámíthatatlan lassulások nélkül. Speed : Becslések szerint 4–5 dollár 1000 oldalonként a Gemini API használatával csak szöveges kísérleti módban. Cost : A Gemini nagy pontosságot nyújt mind a számlák, mind a táblázatok között anélkül, hogy látásbevitelre vagy összetett beállításra lenne szükség. Gyors, strukturálisan tisztában van, és ellenállóbb az elrendezés furcsaságaival szemben, mint bármely más tesztelt modell. Verdict Legjobban akkor használható, ha a következetlen dokumentumok termelési szintű eredményeit szeretné, és szabályozhatja a bemeneti formátumot. Megbízható nyomás alatt - nincs dráma, csak kimenet. eredmények Öt modell. ugyanazok a feladatok. ugyanazok a dokumentumok. nagyon eltérő eredmények. A Gemini volt a legjobb mindenütt - gyors, pontos és éles szerkezetű. GPT-4o szöges számlák, fulladt asztalokon. Az AWS Textract gyors, merev és nehéz volt megtörni. Az Azure megkapta az alapokat, de semmi több. A Google küzdött mindent, ami nem volt tiszta és címkézett. Egyetlen modell sem kezelt mindent. Néhányan eléggé kezelték. Ha mesterséges intelligenciával építesz, teszteld először - vagy tervezi a későbbiek tisztítását.