AI modeļi ir lieliski, rakstot dzejoļus, apkopojot e-pastus vai izliekot, ka viņi ir filozofi. Bet vai viņi var iegūt derīguma datumu no rēķina? Tas ir tas, ko es gribēju uzzināt. Tātad es izmēģināju 5 populārus AI modeļus - no mākoņa API līdz asiņainiem LLM - par diviem no garlaicīgākajiem un noderīgākajiem uzdevumiem reālajās biznesa darbplūsmēs: (1) rēķina lauka iegūšana un (2) strukturēta tabulas analizēšana. Uzstādīšana bija vienkārša: 20 faktūras un 20 tabulas no faktiskajiem uzņēmējdarbības dokumentiem.Dažas bija tīras, lielākā daļa nebija.Es apskatīju, kā katrs modelis apstrādāja trūkstošos datus, nesaskaņotus izkārtojumus, OCR artefaktus un nested struktūras. Precizitāte, ātrums, izmaksas un stabilitāte nepareizā ievadā. Katram modelim bija jāapstrādā 20 rēķini un 20 tabulas un jāatgriež strukturēti iznākumi: kopsummas, rēķina datumi, piegādātāja nosaukumi, nodokļu lauki un rindu līmeņa vērtības. Ienākumi tika sniegti kā vienkāršs OCR teksts, nevis iepriekš marķēts vai smalki pielāgots. Daži modeļi iespaidojās, bet citi halucinēja kopumā vai ignorēja virsrakstus. Kas seko, ir lauka rokasgrāmata par to, ko katrs no šiem modeļiem faktiski un ja jūs plānojat tos izmantot ražošanā, tas ir tas, kas jums jāzina. var nespēj AWS Textract: Ātrs, stabils, stingri pēc grāmatas : Textract sniedza uzticamus rezultātus rēķinu izrakstīšanā. tas sasniedza 91.3% bez līnijas priekšmetiem un 91.1% ar tiem. Performance Tā labi apstrādā standarta laukus – kopsummas, rēķinu numurus, datumus – un nav halucinējusi vērtības vai izgudrojusi struktūru. Ja ievads bija skaidrs, tas darbojās konsekventi. Tabulās Textract sasniedza 82,1% precizitāti, pārsniedzot GPT-4o un nedaudz pārsniedzot Azure. Bet tas cīnījās ar dziļi iesaiņotām galvām vai nesaskaņotu šūnu izlīdzināšanu. Kad tabulas formatēšana sabruka, Textract atgriezās daļējas vai izlīdzinātas izejas, nevis mēģināja interpretēt nodomu. Tas arī apstrādāja zema izšķirtspējas skenēšanu (200–300 DPI) bez veiktspējas krituma, saglabājot lauka precizitāti stabilu pat tad, ja dokumenti bija nedaudz neskaidri. Vidējais apstrādes laiks: 2,1 sekundes uz lapu, padarot to par ātrāko modeli, kas pārbaudīts ar konsekventu precizitāti. Speed : Zems. $ 10 par 1000 lapām, izmantojot AnalyzeExpense galapunktu, kā ziņots atsauces punktā. Straightforward cenu, bez žetoniem, bez pārsteigumiem. Cost : Textract ir izveidots mērogam. tas nav radošs, bet tas ir tieši punkts. tas neatrisinās struktūru vai pielāgosies haosam, bet tas arī nesabojās spiedienā. Verdict Vislabāk izmantot cauruļvados, kur dokumentu formāts ir kontrolēts, un jums ir nepieciešami paredzami rezultāti ātrumā. Ja jums ir neskaidri izkārtojumi vai neregulāras tabulas, jums būs jāmeklē citur, bet labi izveidotiem biznesa dokumentiem tas ir viens no visefektīvākajiem rīkiem. Azure dokumentu inteliģence: tīra izeja, ierobežots nervs : Azure uzticami apstrādāja rēķinus, iegūstot 85,8 % precizitāti bez līnijas elementiem un 85,7 % ar tiem. tā konsekventi iegūst galvenos laukus — rēķina numuru, datumu, kopējo —, bet bieži vien izlaiž priekšējos gadījumus, piemēram, sadalītos piegādātāju vārdus vai mazāk izplatītus marķējumus. tā izvairījās no halucinācijām un reti kļūdaini marķēja datus, bet arī neatgūstās no neskaidrības. Performance Tas cīnījās ar daudzvārdu priekšmetu aprakstiem rēķinu tabulās, piemēram, pilniem darbinieku vārdiem vai garām servisa līnijām, kas dažos gadījumos izraisīja precizitātes sabrukumu. Tabulās tas sasniedza 81.5% precizitāti, tieši aiz AWS un daudz zemāk par Gemini. Tā labi darbojās uz plakanām, regulārām izkārtojumiem, lasot rindas un kolonnas bez būtiskām kļūdām. bet tā cīnījās ar strukturālo sarežģītību - apvienotas šūnas, kaudzētas virsrakstis vai nesaskaņots izvietojums noveda pie vērtību samazināšanās vai nepareizi klasificētām kolonnām. Vidēji aptuveni 3,5 sekundes uz lapu, nedaudz lēnāk nekā AWS, bet stabils un gatavs ražošanai. Speed : Aptuveni 10 ASV dolāri par 1000 lapām, izmantojot iepriekš izveidoto rēķinu modeli. Cost Tas ir zema riska izvēle strukturētiem rēķiniem un tīrām tabulām, bet tas nav modelis, kuru izsaucat, kad izkārtojums kļūst neskaidrs. Verdict Tas ir uzticams, bet tas nepieļauj robežas, un tas neatbilst modeļiem, kas to dara. Google dokumentu AI: lielisks, kad tas ir viegli, zaudēts, kad tas nav : Rēķinos Google rādīja nevienmērīgu veiktspēju, sasniedzot 83,8 % precizitāti bez rindu elementiem, bet samazinājās līdz 68,1 %, kad tika iekļautas tabulas Performance Tā apstrādāja standarta laukus, piemēram, rēķina numuru un datumu, bet bieži vien kļūdaini marķēja nodokļu laukus, dublēja kopsummas vai ignorēja līnijas līmeņa datus. Google ieguva 38.5% precizitāti, kas saistīta ar GPT-4o par zemāko rezultātu references vērtējumā. Tā pārvaldīja tīras, tīkla formas tabulas samērā labi, bet konsekventi neizdevās reālajos gadījumos ar apvienotām virsrakstām, tukšām rindām vai strukturālām pārkāpumiem. šūnu attiecības pārtrauca, kolonnas etiķetes tika zaudētas, un galīgajam iznākumam bieži trūka izmantojama struktūra. Tas arī atgriezās līnijas elementus kā nestrukturētas rindas teksta, nevis pareizi segmentēti lauki. kas padarīja daudzumu, vienības cenu un kopējo iegūšanu neuzticamu vai neiespējamu apstiprināt. Aptuveni 5,1 sekundes uz lapu, lēnāk nekā Azure un AWS, bet ne dramatiski. Speed Aptuveni 10–12 ASV dolāri par 1000 lapām, atkarībā no konfigurācijas un reģiona.Cenas ir balstītas uz API un paredzamas, bet pašreizējā precizitātes līmenī to ir grūtāk attaisnot. Cost Google Dokumentu AI darbojas, ja dokumenti ir tīri, paredzami un stingri strukturēti. Verdict: Tiklīdz izkārtojuma sarežģītība palielinās, precizitāte samazinās. tas nav piemērots kritiskiem ieguves uzdevumiem, kas ietver dinamiskus formātus vai slāņotas tabulas. Vislabāk piemērots kontrolētām iekšējām darba plūsmām, kur ievades mainīgums ir minimāls un cerības ir pieticīgas. GPT-4o: gudrs, precīzs, jutīgs pret ievadi : GPT-4o labi apstrādāja rēķinu iegūšanu. tas sasniedza 90.8% precizitāti bez līnijas priekšmetiem un 86.5% ar tiem, izmantojot OCR balstītu ievadi. Performance Strādājot ar dokumentu attēliem, rādītāji palika konsekventi: 88,3% un 89,2%, attiecīgi. Tas bija arī labs, izvēloties pareizo vērtību, kad lapā parādījās vairāki līdzīgi. Tas apstrādāja zemas izšķirtspējas dokumentus, nezaudējot būtiskus precizitātes zaudējumus.Tomēr dažreiz tas kļūdaini izlasīja punkciju — izlaida komas vai nepareizi ievietoja decimālos punktus ciparu laukos. Bet tabulas analīze bija atšķirīgs stāsts. GPT-4o ieguva tikai 38,5% precizitāti - zemākais rezultāts no visiem modeļiem atsauces vērtējumā. Lai gan vienkāršos gadījumos tā sekoja pamata struktūrai, tā sadalījās apvienotajās virsrakstos, nestās rindās un nepilnās izkārtojumos. Kolonnas attiecības bieži tika nepareizi izlasītas, un šūnu vērtības tika nepareizi novietotas vai pilnībā nokrita. : Aptuveni 17–20 sekundes uz lapu ar OCR teksta ievadi. Ar attēla ievadi aizkavēšanās strauji palielinās - bieži vien 30 sekundes vai vairāk, atkarībā no ātro izmēru un sistēmas slodzes. Speed Aptuveni $ 5-6 par 1000 lapām, izmantojot GPT-4-turbo (teksta ievades). Attēlu balstīts ievads, izmantojot Vision API, var divkāršot to, atkarībā no prompt garuma un zīmes izmantošanas. Cost GPT-4o labi darbojas ar rēķiniem un saprot strukturētu tekstu ar niansēm un elastību. bet vizuāli sarežģītās tabulās tas cīnās, lai saglabātu struktūru vai ražotu konsekventus izejas. Verdict: Ja strādājat ar dokumentiem, kuros izkārtojums ir svarīgs, un precizitāte nevar nokrist zem 40% - jums būs jāmeklē citur. Izmantojiet to, kontrolējot ievades formātu vai piešķirot prioritāti rēķina līmeņa izlūkošanai pār dokumentu izkārtojumu. Gemini 1.5 Pro: Klusi dominējošs : Gemini apstrādāja rēķinu analizēšanu ar pastāvīgu precizitāti. Tas ieguva 90.0% precizitāti bez līnijas priekšmetiem un 90.2% ar tiem. Performance Tas konsekventi izvilka kopsummas, datumus, rēķinu numurus un pārdevēja vārdus – pat tad, ja formāts mainījās vai lauki netika kārtīgi marķēti. kļūdas bija nelielas: dublētas vērtības, nepareizi izlasīti nodokļu lauki, gadījuma papildu simbols. Tabulās Gemini pārsniedza visus citus modeļus. tas sasniedza 94,2% precizitāti, kas vada kritēriju. AWS un Azure sekoja ar 82,1% un 81.5%, bet GPT-4o atpalika no 38,5%. Gemini analizēja vairāku līmeņu virsrakstus, apvienotas šūnas un nevienmērīgas rindas struktūras ar mazāk kļūdām un labāku strukturālo izpratni. : Pastāvīgi ātri. vidēji 3-4 sekundes uz lapu. Ātrāk nekā GPT-4o, nedaudz aiz AWS, bez neparedzamiem palēninājumiem. Speed : Aprēķināts 4–5 ASV dolāri par 1000 lapām, izmantojot Gemini API tikai ar tekstu eksperimentālā režīmā. Cost : Gemini nodrošina augstu precizitāti gan rēķinos, gan tabulās, neprasot redzes ievadi vai sarežģītu iestatījumu. Verdict Vislabāk izmantot, ja vēlaties ražošanas līmeņa rezultātus no nesaskaņotiem dokumentiem un var kontrolēt ievades formātu. Uzticams zem spiediena - bez drāmas, tikai iznākums. Rezultāti Pieci modeļi. vienādi uzdevumi. vienādi dokumenti. ļoti atšķirīgi rezultāti. Gemini bija vislabākais visapkārt - ātrs, precīzs un asu struktūru. GPT-4o rēķini ar nagiem, nosmakti uz galdiem. AWS Textract bija ātrs, stingrs un grūti pārtraukt. Azure ieguva pamatus pareizi, bet nekas vairāk. Google cīnījās ar visu, kas nebija tīrs un marķēts. Neviens modelis visu apstrādāja.Daži pietiekami apstrādāti.Ja jūs veidojat ar AI, vispirms izmēģiniet - vai plānojiet tīrīt vēlāk.