Mengapa Formulir Tulis Tangan Masih Memecahkan AI “Cerdas” Semua orang suka demo bersih. PDF yang sempurna. teks cetak mesin. Hampir 100% akurasi ekstraksi dalam lingkungan terkontrol. Semuanya tampak seperti otomatisasi dokumen adalah masalah yang terselesaikan. Setelah itu realitas memukul. Dalam alur kerja bisnis nyata, formulir tertulis tangan tetap menjadi salah satu titik kegagalan yang paling keras kepala untuk pemrosesan dokumen yang didukung oleh AI. Nama yang ditulis dalam angka yang kurus, ketat dicampur ke dalam kotak kecil, catatan melintasi batas lapangan: ini adalah jenis perusahaan data yang sebenarnya berurusan dengan dalam perawatan kesehatan, logistik, asuransi, dan alur kerja pemerintah. Jarak antara janji dan realitas adalah apa yang memotivasi kami untuk mengambil lebih dekat, lebih praktis melihat ekstraksi dokumen tertulis tangan. Benchmark ini mencakup 7 model AI populer: Azure yang AWS yang Google yang oleh Claude Sonnet Spesifikasi Gemini 2.5 Flash Lite Spesifikasi GPT-5 Mini Gokil 4 “Mengapa” di balik benchmark ini Sebagian besar referensi untuk dokumen AI berfokus pada set data bersih dan contoh sintetis. mereka berguna untuk pengembangan model, tetapi mereka tidak menjawab pertanyaan yang benar-benar penting bagi bisnis: Model mana yang dapat Anda percayai pada bentuk tulisan tangan dunia nyata yang membingungkan? Ketika sebuah model salah membaca nama, bertukar digit dalam ID, atau melewatkan bidang sepenuhnya, itu bukan “masalah OCR kecil”: itu menjadi biaya review manual, alur kerja yang rusak, atau, dalam industri yang diatur, risiko kepatuhan. Jadi benchmark ini dirancang di sekitar prinsip sederhana: test models the way they are actually used in production. Itu artinya : Menggunakan bentuk-bentuk yang benar-benar, diisi dengan tangan, dan bukan sampel yang dikurasi. Mengevaluasi model di bidang kritis bisnis seperti nama, tanggal, alamat, dan identifier. Menilai tidak hanya kesamaan teks, tetapi juga apakah data yang diekstrak akan dapat digunakan dalam alur kerja nyata. Bagaimana Model Diuji (dan Mengapa Metodologi Penting Lebih dari Leaderboards) Masalah nyata, masalah nyata Kami mengevaluasi beberapa model AI terkemuka pada satu set formulir kertas nyata yang diisi dengan tangan yang dibagikan secara bersama-sama dari alur kerja operasional. Struktur tata letak yang berbeda dan organisasi lapangan Gaya tulisan tangan campuran (block, cursive, dan hybrid) Perbedaan densitas teks dan spacing Jenis bidang yang relevan dengan bisnis seperti nama, tanggal, alamat, dan pengidentifikasi numerik Koreksi tingkat bisnis, bukan kesamaan kosmetik Kami tidak mengoptimalkan untuk “seberapa dekat tampilan teks” pada tingkat karakter. sebaliknya, kami mencetak ekstraksi pada tingkat bidang berdasarkan apakah output benar-benar dapat digunakan dalam alur kerja nyata. perbedaan pemformatan kecil ditoleransi. kesalahan semantik di bidang kritis tidak. Dalam prakteknya, ini mencerminkan bagaimana otomatisasi dokumen dinilai dalam produksi: Spasi yang sedikit berbeda dalam satu nama dapat diterima. Angka yang salah dalam ID atau tanggal adalah catatan yang rusak. Mengapa akurasi 95%+ masih menjadi langit-langit keras Bahkan dengan model terkuat, ekstraksi bentuk tertulis tangan jarang melampaui ambang akurasi bisnis 95% dalam kondisi dunia nyata. Tulisan tangan tidak konsisten dan ambigu. Formulir menggabungkan template cetak dengan input manusia bentuk bebas. Kesalahan komposit di segmen, pengenalan, dan peta lapangan. Benchmark ini dirancang untuk menutupi batas-batas tersebut dengan jelas. tidak untuk membuat model terlihat bagus, tetapi untuk membuat perilaku dunia nyata mereka terlihat. Hasil: Model mana yang benar-benar bekerja dalam produksi (dan yang tidak) Ketika kami menempatkan model AI terkemuka bersebelahan dengan formulir tertulis tangan nyata, kesenjangan kinerja tidak mungkin diabaikan. Dua model secara konsisten unggul atas sisanya di berbagai gaya tulisan tangan, tata letak, dan jenis bidang: Hasil terbaik: GPT-5 Mini, Gemini 2.5 Flash Lite dan Keduanya mampu mengekstrak nama, tanggal, alamat, dan identifikasi numerik dengan kesalahan kritis yang jauh lebih sedikit daripada model lain yang kami uji. GPT-5 Mini Gemini 2.5 Flash Lite Tingkat kedua: Azure, AWS, dan Claude Sonnet , yang dan menunjukkan kinerja moderat, yang dapat digunakan, tetapi dengan degradasi yang terlihat pada tata letak padat, tulisan tangan kursif, dan bidang tumpang tindih. model ini sering bekerja dengan baik pada bentuk bersih, terstruktur, tetapi akurasi mereka berfluktuasi secara signifikan dari dokumen ke dokumen. Azure AWS Claude Sonnet Spesifikasi Google, Grok 4 dan Kami mengamati sering kelalaian lapangan, kesalahan tingkat karakter di bidang sensitif semantik, dan kegagalan yang terkait dengan tata letak yang akan memerlukan koreksi manual yang berat dalam alur kerja nyata. Google Grok 4 Periksa realitas yang penting: Ini bukan kelemahan spesifik model: ini mencerminkan bagaimana ekstraksi dokumen tertulis secara struktural tetap dalam kondisi produksi. Even the best-performing models in our benchmark struggled to consistently exceed 95% business-level accuracy Langkah praktisnya sederhana: tidak semua model AI “siap perusahaan” benar-benar siap untuk dokumen yang membingungkan dan penuh dengan manusia. Akurasi, Kecepatan, dan Biaya: Kesepakatan yang Mendefinisikan Pengembangan Real Setelah Anda pindah dari eksperimen ke produksi, akurasi mentah hanyalah salah satu bagian dari keputusan. latensi dan biaya cepat menjadi sama pentingnya, terutama dalam skala. Benchmark kami mengungkapkan perbedaan dramatis antara model pada dimensi-dimensi ini: Efisiensi biaya bervariasi menurut ukuran Model Average cost per 1000 forms Azure $10 Aws $65 Google $30 Claude Sonnet $18.7 Gemini 2.5 Flash Lite $0.37 GPT 5 Mini $5.06 Grok 4 $11.5 Azure yang 10 Dolar Aws 65 juta Google yang Dolar 30 oleh Claude Sonnet dari 18,7 Spesifikasi Gemini 2.5 Flash Lite dari 0,37 Spesifikasi GPT 5 Mini dari 5.06 Gokil 4 dari 11,5 Untuk pengolahan volume tinggi, ekonomi mengubah segalanya: Gemini 2.5 Flash Lite memproses formulir tertulis tangan dengan harga sekitar $ 0,37 per 1.000 dokumen, menjadikannya pilihan paling hemat biaya dalam benchmark. GPT-5 Mini, sementara memberikan akurasi tertinggi, biaya sekitar $ 5 per 1.000 dokumen, masih masuk akal untuk alur kerja yang tinggi, tetapi ukuran lebih mahal daripada Gemini Flash Lite. Sebaliknya, beberapa penawaran cloud OCR / IDP mencapai biaya $ 10 - $ 65 per 1.000 formulir, membuat penyebaran skala besar jauh lebih mahal tanpa memberikan akurasi yang lebih baik pada penulisan tangan yang kompleks. Perbedaan latensi dalam pipa produksi Model Average processing time per form, s Azure 6.588 Aws 4.845 Google 5.633 Claude Sonnet 15.488 Gemini 2.5 Flash Lite 5.484 GPT 5 Mini 32.179 Grok 4 129.257 Azure yang 6.588 Aws 4.845 Google yang 5.633 oleh Claude Sonnet 15.488 Spesifikasi Gemini 2.5 Flash Lite 5.484 Spesifikasi GPT 5 Mini 32.179 Gokil 4 129.257 Kecepatan pemrosesan bervariasi sama luasnya: Gemini 2.5 Flash Lite memproses formulir dalam waktu sekitar 5-6 detik rata-rata, menjadikannya cocok untuk alur kerja hampir real-time atau high-throughput. GPT-5 Mini rata-rata sekitar 32 detik per formulir, yang dapat diterima untuk pengolahan batch dokumen bernilai tinggi, tetapi menjadi hambatan dalam pipa sensitif waktu. Grok 4 adalah outlier ekstrem, dengan waktu pemrosesan rata-rata melebihi dua menit per bentuk, membuatnya tidak praktis untuk sebagian besar kasus penggunaan produksi terlepas dari akurasi. Tidak Ada Model “Best” Universal Benchmark membuat satu hal yang sangat jelas: model “yang terbaik” tergantung pada apa yang Anda optimalkan. Jika alur kerja Anda kritis untuk akurasi (misalnya, perawatan kesehatan, lingkungan hukum, diatur), model yang lebih lambat dan lebih mahal dengan keandalan yang lebih tinggi dapat dibenarkan. Jika Anda memproses jutaan formulir per bulan, perbedaan kecil dalam biaya per dokumen dan latensi diterjemahkan ke dalam dampak operasional yang besar, dan model seperti Gemini 2.5 Flash Lite menjadi sulit untuk diabaikan. Dalam produksi, pemilihan model kurang tentang kualitas teoritis dan lebih tentang bagaimana akurasi, kecepatan, dan biaya berskala. Hasil yang mengejutkan: Model yang lebih kecil, lebih murah melampaui yang lebih besar Melangkah ke benchmark ini, kami mengharapkan hasil yang biasa: model yang lebih besar, lebih mahal akan mendominasi bentuk tertulis tangan yang kompleks, dan model yang lebih ringan akan mengikuti. Bukan itu yang terjadi. Di seluruh set dokumen tertulis tangan nyata, dua model yang relatif kompak dan hemat biaya secara konsisten memberikan akurasi ekstraksi tertinggi: dan Mereka menangani berbagai gaya tulisan tangan, tata letak, dan jenis bidang dengan lebih sedikit kesalahan kritis daripada beberapa alternatif yang lebih besar dan lebih mahal. GPT-5 Mini Gemini 2.5 Flash Lite Hasil ini penting karena dua alasan: Ini menantang asumsi default bahwa “lebih besar selalu lebih baik” dalam dokumen AI. ekstraksi formulir tertulis tangan bukan hanya masalah bahasa. Ini adalah masalah persepsi multi-tahap: segmentasi visual, pengenalan karakter, asosiasi medan, dan validasi semantik semua berinteraksi. model yang dioptimalkan untuk pipa spesifik ini dapat melampaui model yang lebih umum, berat yang bersinar dalam tugas lain. First: Ini mengubah ekonomi otomatisasi dokumen. Ketika model yang lebih kecil memberikan ketepatan yang sebanding, dan dalam beberapa kasus lebih baik, pada tingkat bisnis, kompromi antara biaya, latensi, dan keandalan berubah secara dramatis. Untuk alur kerja volume tinggi, perbedaan antara “hampir sama baik untuk sebagian biaya” dan “sangat lebih baik tetapi jauh lebih lambat dan lebih mahal” tidak secara teoritis. Second: Dengan kata lain, benchmark tidak hanya menghasilkan tabel teratas. itu memaksa pertanyaan yang lebih tidak nyaman tetapi berguna: Apakah Anda memilih model berdasarkan kinerja nyata mereka pada dokumen Anda, atau pada reputasi mereka? Cara Memilih Model yang Tepat (tanpa Menipu Diri Sendiri) Benchmarks tidak penting kecuali mereka mengubah cara Anda membangun. kesalahan yang paling sering kita lihat adalah tim memilih model pertama - dan hanya kemudian menemukan itu tidak sesuai dengan realitas operasional mereka. pendekatan yang tepat dimulai dengan risiko, skala, dan toleransi kegagalan. Data tingkat tinggi → Bayar untuk akurasi Jika kesalahan dalam nama, tanggal, atau identifikasi dapat memicu masalah kepatuhan, risiko keuangan, atau kerusakan pelanggan, akurasi mengalahkan segalanya. Ini lebih lambat dan lebih mahal, tetapi ketika satu digit yang salah dapat mengganggu alur kerja, biaya kesalahan menendang biaya inferensi. GPT-5 Mini Volume tinggi → Optimisasi untuk output dan biaya Jika Anda memproses ratusan ribu atau jutaan dokumen per bulan, perbedaan kecil dalam latensi dan biaya menyusut dengan cepat. memberikan akurasi hampir puncak pada sebagian harga (~ $ 0,37 per 1.000 formulir) dan dengan latensi rendah (~ 5-6 detik per formulir). pada skala, ini mengubah apa yang secara ekonomi memungkinkan untuk mengotomatisasi sama sekali. Gemini 2.5 Flash Lite Formulir Bersih – Jangan Overengineer Jika dokumen Anda sebagian besar terstruktur dan ditulis dengan jelas, Anda tidak perlu membayar untuk “keakuratan maksimum” di mana-mana. Solusi tingkat menengah seperti dan Pilihan desain yang lebih cerdas seringkali adalah untuk menggabungkan model ini dengan ulasan manusia yang ditargetkan pada bidang kritis, daripada meningkatkan seluruh pipa Anda ke model yang lebih mahal yang memberikan pengembalian yang menurun. Azure AWS Data Anda, Benchmark Anda Peringkat model bukanlah kebenaran universal. Dalam benchmark kami, kinerja bergeser secara signifikan berdasarkan kepadatan tata letak dan gaya tulisan tangan. dokumen Anda akan memiliki keanehan mereka sendiri. Mengoperasikan benchmark internal kecil pada bahkan 20–50 formulir nyata seringkali cukup untuk mengungkap mod kegagalan model mana yang dapat Anda toleransi, dan mana yang akan secara diam-diam sabotasi alur kerja Anda.