El Yazılı Formlar Neden Hala “Akıllı” AI'yi Kırıyor Herkes temiz demoları sever. Mükemmel bir şekilde ayarlanmış PDF'ler. Makine yazdırılmış metin. Kontrol edilen bir ortamda %100'e yakın çıkarma doğruluğu. Her şey belge otomasyonunun çözüldüğü gibi görünüyor. Gerçeklik çarpıyor sonra. Gerçek işletme iş akışlarında, el yazılmış formlar, yapay zekaya dayalı belge işleme için en sert başarısızlık noktalarından biri olmaya devam etmektedir.Küçük kutulara basılı, sıkı sayılarla yazılmış isimler, alan sınırlarını aşan notlar: bu veri şirketlerinin sağlık, lojistik, sigorta ve hükümet iş akışlarında aslında karşılaştığı türdür. Söz ve gerçeklik arasındaki bu boşluk, el yazılı belge çıkarma konusuna daha yakından ve daha pratik bir şekilde bakmamızı sağladı. Bu benchmark, 7 popüler AI modeli içerir: Azure Hakkında AWS Hakkında Google ile Claude Güneş İkizler 2.5 Flash Lite GPT-5 Mini Hakkında Çanakkale 4 Bu benchmarkın arkasındaki “neden” Belge AI için çoğu benchmark, temiz veritabanlarına ve sentetik örneklere odaklanmaktadır.Onlar model geliştirme için yararlıdır, ancak işletmeler için gerçekten önemli olan soruya cevap vermezler: Kötü, gerçek dünya el yazılı formlarda hangi modeller güvenebilirsiniz? Bir model bir ismi yanlış okuduğunda, bir ID'deki rakamları değiştirdiğinde veya bir alanı tamamen geçirdiğinde, "küçük bir OCR sorunu" değildir: manuel bir inceleme maliyeti, bozuk bir iş akışı veya, düzenlenmiş endüstrilerde, bir uyumluluk riski haline gelir. Bu nedenle bu benchmark basit bir prensip etrafında tasarlanmıştır: test models the way they are actually used in production. Bu demektir ki: Kurulan örnekler yerine gerçek, el ile doldurulmuş tarama formları kullanın. İsimler, tarihler, adresler ve tanımlayıcılar gibi iş kritik alanlarda modeller değerlendirmek. Sadece metin benzerliğinin değil, çıkarılan verilerin gerçek bir iş akışında kullanılabilir olup olmadığını da değerlendirmek. Modeller Nasıl Test Edildi (ve Neden Metodoloji Leaderboards'tan Daha Önemli) Gerçek belgeler, gerçek sorunlar Operasyonel iş akışlarından taranan gerçek, el ile doldurulmuş kağıt formlarının ortak bir setinde çeşitli önde gelen AI modellerini değerlendirdik. Farklı layout yapıları ve alan organizasyonları Karışık el yazma tarzları (block, cursive ve hibritler) Değişen metin yoğunluğu ve uzantısı Adlar, tarihler, adresler ve sayısal tanımlayıcılar gibi işle ilgili alan türleri İş düzeyinde doğruluk, kozmetik benzerlik değil Bir karakter düzeyinde “teksten ne kadar yakın görünüyor” için optimize etmedik. Bunun yerine, çıkışın gerçek bir iş akışında kullanıma uygun olup olmadığına bağlı olarak alan düzeyinde çıkarma puanlar verdik. Küçük biçimlendirme farklılıkları tolere edildi. kritik alanlarda semantik hatalar yoktu. Uygulamada, bu, belge otomasyonunun üretimde nasıl değerlendirildiğini yansıtır: Bir isimde biraz farklı bir uzantı kabul edilebilir. Bir ID veya tarihte yanlış bir rakam kırık bir kayıttır. Neden 95%+ doğruluk hala sert bir tavan En güçlü modellerde bile, el yazılı form çıkarma nadiren gerçek dünya koşullarında% 95 iş doğruluğu eşiğini aşar. El yazısı tutarsız ve belirsizdir. Formlar, basılı şablonları serbest form insan girişiyle birleştirir. Hatalar segmentasyon, tanıma ve alan haritası boyunca karıştırılır. Bu benchmark bu sınırları açıkça yüzeye çıkarmak için tasarlanmıştır. modellerin iyi görünmesini sağlamak için değil, gerçek dünyadaki davranışlarını görülebilir hale getirmek için. Sonuçlar: Hangi Modeller Gerçekten Üretimde Çalışıyor (ve Hangi Değil) Öncü AI modellerini gerçek el yazılı formlarla birlikte yerleştirdiğimizde, performans farkını göz ardı etmek mümkün değildi. İki model, farklı el yazma tarzları, düzenlemeler ve alan türleri boyunca gerisini sürekli olarak üstlendi: En İyi Sonuçlar: GPT-5 Mini, Gemini 2.5 Flash Lite ve Her ikisi de test ettiğimiz diğer modellerden çok daha az kritik hatalarla isimler, tarihler, adresler ve sayısal tanımlayıcılar çıkarabildi. GPT-5 Mini Gemini 2.5 Flash Lite İkinci seviye: Azure, AWS ve Claude Sonnet ve ve Düzenli, kullanışlı performans gösterdi, ancak yoğun düzenlemelerde, kurşunlu el yazımı ve çarpışma alanlarında belirgin bir bozulma gösterdi.Bu modeller genellikle temiz, yapılandırılmış formlarda iyi çalıştı, ancak doğrulukları belgeye göre önemli ölçüde değişiyordu. Azure AWS Claude Sonnet Etiket Arşivi: Google, Grok 4 ve Gerçek el yazılı verilerde üretim düzeyinde güvenilirlik sağlanamadı.Sık sık alan eksikliği, semantik açıdan hassas alanlarda karakter düzeyinde hatalar ve gerçek iş akışlarında ağır manuel düzeltmelere ihtiyaç duyacak düzenleme ile ilgili hatalar gözlemledik.Şu anda yapılandırmalarında, bu modeller işleyiş açısından kritik el yazılı belge işleme için uygun değildir. Google Grok 4 Önemli bir gerçeklik kontrolü: Bu, model spesifik bir zayıflık değildir: yapısal olarak el yazılmış belge ekstraksiyonunun üretim koşullarında ne kadar sert olduğunu yansıtmaktadır. Even the best-performing models in our benchmark struggled to consistently exceed 95% business-level accuracy Pratik çözüm basittir: tüm “kurumsal hazır” AI modelleri aslında karmaşık, insan dolu belgeler için hazır değildir. kabul edilebilir demo ve üretim düzeyinde güvenilirlik arasındaki fark hala çok gerçektir. Doğruluk, Hız ve Maliyet: Gerçek Geliştirmeleri Belirleyen Anlaşmalar Deneylerden üretime geçtikten sonra, hassasiyet kararın sadece bir parçasıdır. Benchmark, bu boyutlarda modeller arasındaki dramatik farklılıkları ortaya koydu: Maliyet verimliliği büyüklüğe göre değişir Model Average cost per 1000 forms Azure $10 Aws $65 Google $30 Claude Sonnet $18.7 Gemini 2.5 Flash Lite $0.37 GPT 5 Mini $5.06 Grok 4 $11.5 Azure Hakkında 10 dolar avuçlar 65 dolar Google ile 30 dolar Claude Güneş Doları 18.7 İkizler 2.5 Flash Lite Doları 0.37 GPT 5 Mini Hakkında Altın 5,06 Çanakkale 4 11,5 dolar Yüksek hacimli işleme için, ekonomi her şeyi değiştirir: Gemini 2.5 Flash Lite, el yazılmış formları 1.000 belge başına yaklaşık $0.37'de işledi, bu da referansta en maliyetli seçenek haline geldi. GPT-5 Mini, en yüksek hassasiyet sunarken, 1000 belge başına yaklaşık 5 $ maliyeti, hala yüksek faizli iş akışları için makul, ancak Gemini Flash Lite'dan daha pahalı bir düzen. Buna karşılık, bazı bulut OCR/IDP teklifleri, 1.000 form başına 10 ila 65 $ maliyetine ulaştı, karmaşık el yazımı üzerinde daha iyi hassasiyet sunmadan büyük ölçekli dağıtımları önemli ölçüde daha pahalı hale getirdi. Üretim borularında yavaşlık farklılıkları Model Average processing time per form, s Azure 6.588 Aws 4.845 Google 5.633 Claude Sonnet 15.488 Gemini 2.5 Flash Lite 5.484 GPT 5 Mini 32.179 Grok 4 129.257 Azure Hakkında 6.588 avuçlar 4.845 Google ile 5.633 Claude Güneş 15.488 İkizler 2.5 Flash Lite 5.484 GPT 5 Mini Hakkında 32.179 Çanakkale 4 129.257 İşleme hızı da aynı derecede değişti: Gemini 2.5 Flash Lite, bir formun ortalama 5-6 saniyede işlenmesi, neredeyse gerçek zamanlı veya yüksek verimlilikteki iş akışları için uygundur. GPT-5 Mini, form başına ortalama 32 saniyedir, bu, yüksek değerli belgelerin seri işleme için kabul edilebilir, ancak zaman duyarlı borularda şişmanlık haline gelir. Grok 4, form başına ortalama iki dakikayı aşan ortalama işleme süresi ile aşırı bir dışlayıcıydı, bu da doğruluğu ne olursa olsun çoğu üretim kullanım vakası için pratik değildir. “En İyi” Evrensel Model Yok Benchmark, bir şeyi çok netleştirir: “en iyi” model, ne için optimize ediyorsunuzuna bağlıdır. İş akışınız doğruluk açısından kritikse (örneğin, sağlık, yasal, düzenlenmiş ortamlar), daha yüksek güvenilirlikle daha yavaş ve daha pahalı modeller haklı olabilir. Ayda milyonlarca form işlerken, belge başına maliyet ve gecikme farklılıkları büyük operasyonel etkilere dönüşür ve Gemini 2.5 Flash Lite gibi modeller göz ardı edilmek zordur. Üretimde, model seçimi, teorik kaliteden daha az, doğruluk, hız ve maliyetlerin büyüklüğünde nasıl oluştuğundan daha fazladır. Şaşırtıcı Sonuç: Daha küçük, daha ucuz modeller daha büyük modellerden üstün Bu referans noktasına girerken, normal sonucu bekliyorduk: daha büyük, daha pahalı modeller karmaşık el yazılı formlara hakim olacak ve daha hafif modeller geride kalacak. Olduğu şey bu değil. Gerçek el yazılı belgelerin tam bir dizi boyunca, iki nispeten kompakt ve maliyet verimli model sürekli olarak en yüksek çıkarma hassasiyetini sağladı: ve Çeşitli el yazma tarzları, düzenlemeleri ve alan türlerini, birkaç daha büyük ve daha pahalı alternatiften daha az kritik hata ile ele aldılar. GPT-5 Mini Gemini 2.5 Flash Lite Bu sonuç iki nedenden dolayı önemlidir: Doküman AI’da “daha büyük her zaman daha iyidir” varsayımına meydan okuyor. El yazılı form çıkarma sadece bir dil sorunu değildir. Bu, çok aşamalı bir algı sorunu: görsel segmentasyon, karakter tanıma, alan ilişkileri ve semantik doğrulama hepsi etkileşime girer. Bu belirli boru hattı için optimize edilmiş modeller, diğer görevlerde parlayan daha genel, ağır modellerin üstesinden gelebilir. First: Bu, belge otomasyonunun ekonomisini değiştirir. Daha küçük modeller karşılaştırılabilir ve bazı durumlarda daha iyi, iş düzeyinde doğruluk sağlarken, maliyet, gecikme ve güvenilirlik arasındaki kompromis dramatik olarak değişir. Yüksek hacimli iş akışları için, “ maliyetin bir parçası için neredeyse iyi” ve “küçükçe daha iyi ama çok daha yavaş ve daha pahalı” arasındaki fark teorik değildir. Second: Başka bir deyişle, benchmark sadece bir lider tablosu üretmedi. daha rahatsız edici ama yararlı bir soru zorladı: Belgelerinizdeki gerçek performanslarına veya itibarlarına göre modelleri seçiyor musunuz? Doğru Modeli Nasıl Seçilir (Kendinizi Aldatmadan) Benchmarks, oluşturduğunuz yöntemi değiştirmedikçe önemli değildir.En sık gördüğümüz hata, takımların önce bir model seçmeleri ve ancak daha sonra bu modelin işletme gerçekliğine uygun olmadığını keşfetmeleridir.Doğru yaklaşım risk, ölçek ve başarısızlık toleransı ile başlar. 1. Yüksek bahis verileri → Doğruluk için ödeme İsimler, tarihler veya tanımlayıcılardaki hatalar uyumluluk sorunlarına, finansal risklere veya müşteri hasarlarına neden olabilirse, doğruluk diğer her şeyi aşar. Karmaşık el yazılı formlarda en güvenilir seçenektir. Daha yavaş ve daha pahalıdır, ancak tek bir yanlış rakam bir iş akışını kırdığında, hataların maliyeti varsayım maliyetini küçülür. GPT-5 Mini 2. Yüksek hacim → Çıkış ve maliyet için optimize Ayda yüz binlerce veya milyonlarca belgeyi işliyor iseniz, gecikme ve maliyetlerde küçük farklılıklar hızlı bir şekilde karıştırılır. Fiyatın yarısından fazlası (1,000 form başına 0,37 $) ve düşük gecikme (form başına 5-6 saniye) ile neredeyse en yüksek hassasiyet sunar. Ölçekte, bu, ekonomik olarak otomatikleştirmek için mümkün olan şeyi değiştirir. Gemini 2.5 Flash Lite 3. Temiz Formlar – Overengineer Değil Belgeleriniz çoğunlukla yapılandırılmış ve açıkça yazılmışsa, her yerde “maksimum doğruluk” için ödeme yapmanıza gerek yok. Orta ölçekli çözümler ve Temiz, blok tarzı el yazma üzerinde yeterince iyi performans gösterdi. Daha akıllı tasarım seçeneği genellikle tüm boru hattınızı azaltan geri dönüşleri sağlayan daha pahalı bir model için yükseltmek yerine, bu modellerin kritik alanlarda hedeflenen insan incelemesi ile birleştirilmesidır. Azure AWS 4. Kişisel Verileriniz Benchmark Model sıralamaları evrensel gerçekler değildir. Benchmark'ta, performans, düzen yoğunluğuna ve el yazma tarzına göre belirgin bir şekilde değişti. belgelerin kendi tuhaflıkları olacak. 20 ila 50 gerçek formda bile küçük bir iç benchmark çalıştırmak genellikle hangi modelin başarısızlık modlarını tolere edebileceğinizi ve hangi modların iş akışınızı sessizce sabote edeceğinizi ortaya çıkarmak için yeterlidir.