AI-mallit ovat hyviä kirjoittamaan runoja, tiivistämään sähköpostiviestejä tai teeskentelemään olevansa filosofeja. Mutta voivatko he poimia määräajan laskusta? Sitä minä halusin selvittää. Niinpä testasin viisi suosittua tekoälyn mallia - pilvipalveluista verenhimoisiin LLM-ohjelmiin - kahdessa kaikkein tylsimmistä ja hyödyllisimmistä tehtävistä todellisissa liiketoiminnan työnkulkuissa: (1) laskutuskentän poistaminen ja (2) jäsennelty taulukon analysointi. Asennus oli yksinkertainen: 20 todellista laskua ja 20 taulukkoa, jotka on otettu todellisista liiketoiminta-asiakirjoista. Jotkut olivat puhtaita, useimmat eivät olleet. Katsoin, miten jokainen malli käsitteli puuttuvia tietoja, epäjohdonmukaisia asetteluita, OCR-artifakteja ja sidottuja rakenteita. Tarkkuus, nopeus, kustannukset ja vakaus sekavaan syöttöön. Jokaisen mallin oli käsiteltävä 20 laskua ja 20 taulukkoa ja palautettava jäsenneltyjä tuloksia: kokonaismäärät, laskutuspäivämäärät, myyjän nimet, verokentät ja rivitason arvot. Syötteet annettiin yksinkertaisena OCR-tekstinä, ei etiketillä tai hienosäädettynä.Ainoa asia, jonka mallien oli työskenneltävä, oli raaka sisältö sekä kehotus. Jotkut mallit vaikuttavat, toiset hallusinoivat kokonaismääriä tai sivuuttivat otsikoita. Seuraavassa on kenttäopas siihen, mitä kukin näistä malleista todella tekee. ja tee - jos aiot käyttää niitä tuotannossa, tämä on mitä sinun tarvitsee tietää. voi ei voi AWS Textract: Nopea, vakaa, tiukasti kirjan mukaan : Textract antoi luotettavia tuloksia laskujen poiminnassa. Se antoi 91,3% ilman linja-esineitä ja 91,1% niiden kanssa. Performance Se käsitteli vakiokenttiä hyvin – kokonaismäärät, laskunumerot, päivämäärät – eikä hallusinoinut arvoja tai keksinyt rakennetta. Jos syöttö oli selkeä, se toimi johdonmukaisesti. Taulukossa Textract saavutti 82,1 prosentin tarkkuuden, joka ylitti GPT-4o:n ja hieman Azurea. Se käsitteli tasaisia rakenteita sujuvasti ja teki vähemmän rakenteellisia virheitä kuin mallit, jotka luottavat generatiiviseen päättelyyn. Mutta se kamppaili syvästi sidottujen otsikoiden tai epäjohdonmukaisen solujen kohdentamisen kanssa. Kun taulukon muotoilu katkesi, Textract palautti osittaiset tai tasaiset tulokset sen sijaan, että yritettäisiin tulkita tarkoitusta. Se käsitteli myös matalan resoluution skannauksia (200–300 DPI) ilman suorituskyvyn vähenemistä, jolloin kentän tarkkuus pysyi vakaana myös silloin, kun asiakirjat olivat hieman sumeita. Keskimääräinen käsittelyaika: 2,1 sekuntia per sivu, mikä tekee siitä nopeimman mallin, jota on testattu johdonmukaisella tarkkuudella. Speed : Alhainen. $ 10 per 1000 sivua AnalyzeExpense-päätepisteen avulla, kuten vertailuarvossa ilmoitettiin. Suora hinta, ei tokeneja, ei yllätyksiä. Cost : Textract on rakennettu mittakaavaan. Se ei ole luovaa, mutta se on täsmälleen asia. Se ei johda rakenteeseen tai sopeudu kaaokseen, mutta se ei myöskään murru paineen alla. Verdict Käytetään parhaiten putkistoissa, joissa asiakirjan muotoa ohjataan, ja tarvitset ennustettavissa olevia tuloksia nopeudella. Sekaisin asetuksia tai epäsäännöllisiä taulukoita, sinun täytyy etsiä muualla - mutta hyvin muotoiltu liiketoiminta asiakirjoja, se on yksi tehokkaimmista työkaluja saatavilla. Azure Document Intelligence: Puhdas tulostus, rajoitettu hermo : Azure käsitteli laskuja luotettavasti, ja sen tarkkuus oli 85,8 prosenttia ilman rivielementtejä ja 85,7 prosenttia niiden kanssa. Se poisti johdonmukaisesti ydinkentät – laskun numero, päivämäärä, kokonaismäärä – mutta usein unohti edge-tapaukset, kuten jakautuneet toimittajan nimet tai vähemmän yleiset etiketit. Performance Se kamppaili useiden sanojen kohteiden kuvausten kanssa laskutustaulukoissa - kuten täydet työntekijöiden nimet tai pitkät palvelulinjat - mikä aiheutti tarkkuuden romahtamisen joissakin tapauksissa. Taulukoissa se saavutti 81,5 prosentin tarkkuuden, vain AWS: n jälkeen ja paljon Geminiä alempana. Se toimi hyvin tasaisissa, säännöllisissä asetteluissa, rivien ja sarakkeiden lukemisessa ilman suuria virheitä. Mutta se kamppaili rakenteellisen monimutkaisuuden kanssa - sulautuneet solut, pinoutuneet otsikot tai epäjohdonmukainen tasoitus johti arvojen laskuun tai virheellisiin sarakkeisiin. Keskimäärin noin 3,5 sekuntia sivua kohden. Hieman hitaampi kuin AWS, mutta vakaa ja valmiina tuotantoon. Speed : Noin 10 dollaria tuhatta sivua kohden käyttämällä valmiiksi rakennettua laskutusmallia. Kiinteä hinnoittelu Azuren API:n kautta, ei säätöä. Cost Se on matalan riskin valinta strukturoiduille laskuille ja puhtaille taulukoille, mutta se ei ole malli, jota soitat, kun ulkoasu on sotkuinen. Verdict Se on luotettava, mutta se ei työntää rajoja - ja se ei seuraa malleja, jotka tekevät. Google Document AI: Hyvä, kun se on helppoa, kadonnut, kun se ei ole : Laskuissa Google osoitti epätasaista suorituskykyä. Se saavutti 83,8 prosentin tarkkuuden ilman rivielementtejä, mutta laski 68,1 prosenttiin, kun taulukot sisältyivät Performance Se käsitteli vakiokenttiä, kuten laskun numeroa ja päivämäärää, mutta usein väärin merkittyjä verokenttiä, päällekkäisiä kokonaismääriä tai sivuutettuja rivitason tietoja. Taulukkoanalyysi oli sen heikoin alue. Google antoi 38,5 prosentin tarkkuuden - yhdistettynä GPT-4o: n kanssa alhaisimman tuloksen vertailuarvossa. Se hallitsi puhtaita, verkon kaltaisia taulukoita kohtuullisen hyvin, mutta epäonnistui johdonmukaisesti reaalimaailman tapauksissa, joissa otsikot, tyhjät rivit tai rakenteelliset epäsäännöllisyydet yhdistettiin. Se palautti myös rivielementtejä rakenteettomina tekstiriidoina asianmukaisesti segmentoitujen kenttien sijasta, mikä teki määrän, yksikköhinnan ja kokonaistuloksen epäluotettavaksi tai mahdottomaksi vahvistaa. Lähes 5,1 sekuntia sivua kohden, hitaammin kuin Azure ja AWS, mutta ei dramaattisesti. Speed : Noin 10–12 dollaria tuhatta sivua kohden, riippuen kokoonpanosta ja alueesta.Hinnat ovat API-pohjaisia ja ennustettavissa, mutta vaikeampia perustella nykyisillä tarkkuustasoilla. Cost Google Document AI toimii, kun asiakirjat ovat puhtaita, ennustettavissa ja tiukasti jäsenneltyjä. Verdict: Kun asettelun monimutkaisuus kasvaa, tarkkuus laskee vaikeasti.Se ei sovellu kriittisiin uuttatehtäviin, joissa on mukana dynaamisia muotoja tai kerrostettuja taulukoita. Käytetään parhaiten kontrolloiduissa sisäisissä työnkulkuissa, joissa syöttövaihtelu on vähäistä ja odotukset vaatimattomia. GPT-4o: Älykäs, tarkka, herkkä syöttöön : GPT-4o käsitteli laskujen poistoa hyvin. Se saavutti 90,8 prosentin tarkkuuden ilman linjan kohteita ja 86,5 prosenttia niiden kanssa käyttämällä OCR-pohjaista syöttöä. Performance Asiakirjan kuvien kanssa työskennellessä pisteet pysyivät johdonmukaisina: 88,3 % ja 89,2 % vastaavasti.Se tunnisti oikein kokonaismäärät, päivämäärät, laskunumerot ja myyjän nimet. Se oli myös hyvä valita oikea arvo, kun useita samanlaisia näkyi sivulla. Se käsitteli matalan resoluution asiakirjoja ilman suurta tarkkuuden menetystä. Kuitenkin se joskus väärinkirjoittaa pisteitä - pudottamalla kommeja tai sijoittamalla desimaalisia pisteitä numeroihin. GPT-4o antoi vain 38,5 prosentin tarkkuuden - alhaisin tulos kaikista malleista vertailuarvossa. Vaikka se noudatti yksinkertaisissa tapauksissa perusrakennetta, se hajosi sulautuneisiin otsikoihin, sekaisin riviin ja epätäydellisiin asetteluihin. Sarake-suhteet luettiin usein väärin, ja solujen arvot sijoitettiin väärin tai pudotettiin kokonaan. Se näytti tekstimallilta, joka yritti pohtia visuaalisen ongelman kautta – ja puuttui avainsanoja. : Noin 17–20 sekuntia per sivu OCR-tekstin syöttöllä. Kuvan syöttöllä viive kasvaa jyrkästi – usein 30 sekuntia tai enemmän, riippuen nopeasta koosta ja järjestelmän kuormituksesta. Speed Noin 5–6 dollaria tuhatta sivua kohden käyttäen GPT-4-turboa (tekstin syöttö). Kuvapohjainen syöttö visio-API: n kautta voi kaksinkertaistaa tämän riippuen prompt-pituudesta ja tunnisteiden käytöstä. Cost GPT-4o toimii hyvin laskuissa ja ymmärtää jäsenneltyä tekstiä vivahteella ja joustavuudella.Mutta visuaalisesti monimutkaisissa taulukoissa se kamppailee rakenteen ylläpitämiseksi tai johdonmukaisten tulosten tuottamiseksi. Verdict: Jos työskentelet asiakirjojen kanssa, joissa asettelu on tärkeää - ja tarkkuus ei voi laskea alle 40% - sinun on etsittävä muualta. Käytä sitä, kun hallitset syöttömuotoa tai asetat laskutason älykkyyden etusijalle asiakirjan asettelun suhteen. Gemini 1.5 Pro: Hiljaisesti hallitseva : Gemini käsitteli laskujen analysointia tasaisella tarkkuudella. Se antoi 90,0 prosentin tarkkuuden ilman linja-esineitä ja 90,2 prosentin tarkkuuden niiden kanssa. Performance Se veti jatkuvasti kokonaismäärät, päivämäärät, laskunumerot ja myyjän nimet – jopa silloin, kun muoto muuttui tai kentät eivät olleet kunnolla merkittyjä. Virheet olivat vähäisiä: päällekkäiset arvot, väärinkirjoitetut verokentät, satunnainen ylimääräinen symboli. Taulukossa Gemini ylitti kaikki muut mallit. se saavutti 94,2%: n tarkkuuden, joka johti vertailuarvoon. AWS ja Azure seurasivat 82,1 prosenttia ja 81,1 prosenttia, kun taas GPT-4o oli kaukana 38,5 prosentilla. Gemini analysoi monitasoisia otsikoita, sulautuneita soluja ja epätasaisia rivirakenteita vähemmän virheillä ja paremmalla rakenteellisella ymmärryksellä. : Jatkuvasti nopea. keskimäärin 3-4 sekuntia sivua kohden. Nopeampi kuin GPT-4o, hieman AWS:n takana, ilman arvaamattomia hidastumisia. Speed : Arvioitu 4–5 dollaria tuhatta sivua kohden käyttäen Gemini API:ta vain tekstiä käyttävässä kokeellisessa tilassa. Cost : Gemini tarjoaa korkean tarkkuuden sekä laskuissa että taulukoissa tarvitsematta visuaalista syöttöä tai monimutkaista asennusta.Se on nopea, rakenteellisesti tietoinen ja vastustuskykyisempi asetteluhäiriöille kuin mikään muu testattu malli. Verdict Käytetään parhaiten, kun haluat tuotantotason tuloksia epäjohdonmukaisista asiakirjoista ja voit hallita syöttömuotoa. Luotettava paineen alla – ei draamaa, vain tuotantoa. tulokset Viisi samanlaista mallia, samat tehtävät, samat asiakirjat, hyvin erilaiset tulokset. Gemini oli paras kaikkialla - nopea, tarkka ja terävä rakenteella. GPT-4o kynnetyt laskut, tukahdutettu pöydissä. AWS Textract oli nopea, jäykkä ja vaikea rikkoa. Azure sai perusasiat oikein, mutta ei enempää. Google kamppaili kaiken kanssa, mikä ei ollut puhdasta ja merkittyä. Yksikään malli ei käsittänyt kaikkea. Muutamat käsittelivät tarpeeksi. Jos rakennat AI: n kanssa, kokeile ensin - tai suunnittele siivoamista myöhemmin.