Tại sao các hình thức viết tay vẫn phá vỡ AI “thông minh” Mọi người đều thích Demo sạch sẽ. PDF được sắp xếp hoàn hảo. Văn bản được in bằng máy. Gần 100% độ chính xác trích xuất trong một môi trường được kiểm soát. Mọi thứ trông giống như tự động hóa tài liệu là một vấn đề đã được giải quyết. Sau đó thực tế đập. Trong các dòng công việc kinh doanh thực sự, các biểu mẫu viết tay vẫn là một trong những điểm thất bại cứng đầu nhất cho việc xử lý tài liệu được hỗ trợ bởi AI. Tên được viết bằng những con số ngắn gọn, chặt chẽ được ép vào các hộp nhỏ, ghi chú vượt qua ranh giới lĩnh vực: đây là loại dữ liệu mà các công ty thực sự đối phó trong các dòng công việc y tế, hậu cần, bảo hiểm và chính phủ. Khoảng cách giữa lời hứa và thực tế là những gì thúc đẩy chúng tôi để có một cái nhìn gần gũi hơn, thực tế hơn về khai thác tài liệu viết tay. Điểm chuẩn này bao gồm 7 mô hình AI phổ biến: Azure AWS google bởi Claude Sonnet Đánh giá Gemini 2.5 Flash Lite Đánh giá GPT-5 Mini Góc 4 “Tại sao” đằng sau tiêu chuẩn này Hầu hết các tiêu chuẩn cho tài liệu AI tập trung vào các bộ dữ liệu sạch và các ví dụ tổng hợp. chúng hữu ích cho việc phát triển mô hình, nhưng chúng không trả lời câu hỏi thực sự quan trọng đối với các doanh nghiệp: Những mô hình nào bạn có thể tin tưởng trên các hình thức viết tay thế giới thực, lộn xộn? Khi một mô hình đọc nhầm một tên, trao đổi số trong một ID, hoặc bỏ qua một trường hoàn toàn, nó không phải là một "vấn đề OCR nhỏ": nó trở thành một chi phí xem xét thủ công, một dòng công việc bị hỏng, hoặc, trong các ngành công nghiệp được quy định, một rủi ro tuân thủ. Vì vậy, tiêu chuẩn này được thiết kế xung quanh một nguyên tắc đơn giản: test models the way they are actually used in production. Điều đó có nghĩa: Sử dụng các biểu mẫu được quét thực tế, được điền bằng tay thay vì các mẫu được thu thập. Đánh giá các mô hình trên các lĩnh vực kinh doanh quan trọng như tên, ngày, địa chỉ và định danh. Đánh giá không chỉ sự giống nhau của văn bản, mà còn liệu dữ liệu được trích xuất có thể được sử dụng trong một dòng công việc thực sự hay không. Làm thế nào các mô hình đã được thử nghiệm (và tại sao phương pháp quan trọng hơn các bảng dẫn đầu) Những vấn đề thực sự, những vấn đề thực sự Chúng tôi đã đánh giá nhiều mô hình AI hàng đầu trên một tập hợp các biểu mẫu giấy thực tế, được điền bằng tay được quét từ các dòng công việc hoạt động. Các cấu trúc bố trí khác nhau và các tổ chức lĩnh vực Phong cách viết tay hỗn hợp (block, cursive và hybrid) Biến đổi mật độ văn bản và khoảng cách Các loại trường có liên quan đến doanh nghiệp như tên, ngày, địa chỉ và định danh số Sự chính xác cấp độ kinh doanh, không phải là sự tương đồng mỹ phẩm Thay vào đó, chúng tôi đã ghi điểm trích xuất ở cấp trường dựa trên việc liệu đầu ra có thực sự có thể sử dụng được trong một dòng công việc thực sự hay không. Sự khác biệt định dạng nhỏ được chấp nhận. Trong thực tế, điều này phản ánh cách tự động hóa tài liệu được đánh giá trong sản xuất: Một khoảng cách hơi khác nhau trong một tên là chấp nhận được. Một chữ số sai trong ID hoặc ngày là một bản ghi bị hỏng. Tại sao 95% + độ chính xác vẫn là một trần cứng Ngay cả với các mô hình mạnh nhất, khai thác hình thức viết tay hiếm khi vượt qua ngưỡng chính xác kinh doanh 95% trong điều kiện thế giới thực. Viết bằng tay là không nhất quán và mơ hồ. Các biểu mẫu kết hợp các mẫu in với đầu vào tự do của con người. Lỗi kết hợp qua phân đoạn, nhận dạng và bản đồ lĩnh vực. Điểm chuẩn này được thiết kế để bề mặt những giới hạn rõ ràng. không phải để làm cho các mô hình trông tốt, nhưng để làm cho hành vi thế giới thực của họ hiển thị. Kết quả: Những mô hình nào thực sự hoạt động trong sản xuất (và những mô hình nào không) Khi chúng tôi đặt các mô hình AI hàng đầu bên cạnh các hình thức viết tay thực sự, khoảng cách hiệu suất là không thể bỏ qua. Hai mô hình liên tục vượt trội so với phần còn lại trên các phong cách viết tay khác nhau, bố trí và loại trường: Kết quả tốt nhất: GPT-5 Mini, Gemini 2.5 Flash Lite và Cả hai đều có thể trích xuất tên, ngày, địa chỉ và định danh số với ít lỗi quan trọng hơn nhiều so với các mô hình khác mà chúng tôi đã thử nghiệm. GPT-5 Mini Gemini 2.5 Flash Lite Lớp thứ hai: Azure, AWS và Claude Sonnet , và Hiển thị hiệu suất vừa phải, có thể sử dụng, nhưng với sự suy giảm đáng chú ý trên bố trí dày đặc, chữ viết tay và các trường trùng lặp. những mô hình này thường làm việc tốt trên các biểu mẫu sạch, có cấu trúc, nhưng độ chính xác của chúng dao động đáng kể từ tài liệu này sang tài liệu khác. Azure AWS Claude Sonnet Tên sản phẩm: Google, Grok 4 và Không đạt được độ tin cậy cấp độ sản xuất trên dữ liệu viết tay thực sự.Chúng tôi quan sát thấy các trường bỏ qua thường xuyên, lỗi cấp ký tự trong các trường nhạy cảm ngữ nghĩa, và các lỗi liên quan đến bố trí mà sẽ đòi hỏi sự điều chỉnh bằng tay nặng trong các dòng công việc thực tế.Trong cấu hình hiện tại của họ, các mô hình này không phù hợp với xử lý tài liệu viết tay quan trọng đối với doanh nghiệp. Google Grok 4 Kiểm tra thực tế quan trọng: Đây không phải là một điểm yếu cụ thể của mô hình: nó phản ánh việc khai thác tài liệu viết tay có cấu trúc cứng như thế nào trong điều kiện sản xuất. Even the best-performing models in our benchmark struggled to consistently exceed 95% business-level accuracy Việc thực hiện thực tế rất đơn giản: không phải tất cả các mô hình AI “sẵn sàng cho doanh nghiệp” thực sự sẵn sàng cho các tài liệu lộn xộn, đầy người. Độ chính xác, tốc độ và chi phí: Các thỏa thuận xác định triển khai thực tế Một khi bạn chuyển từ thí nghiệm sang sản xuất, độ chính xác thô chỉ là một phần của quyết định. sự chậm trễ và chi phí nhanh chóng trở nên quan trọng, đặc biệt là về quy mô. Điểm chuẩn của chúng tôi cho thấy sự khác biệt đáng kể giữa các mô hình về các kích thước này: Hiệu quả chi phí khác nhau theo thứ tự quy mô Model Average cost per 1000 forms Azure $10 Aws $65 Google $30 Claude Sonnet $18.7 Gemini 2.5 Flash Lite $0.37 GPT 5 Mini $5.06 Grok 4 $11.5 Azure 10 Đô Aws 65 Đô google 30 Đô bởi Claude Sonnet 18,7 triệu Đánh giá Gemini 2.5 Flash Lite 0,37 đồng Đánh giá GPT 5 Mini 5.06 đồng Góc 4 11,5 triệu Đối với chế biến khối lượng cao, nền kinh tế thay đổi mọi thứ: Gemini 2.5 Flash Lite xử lý các biểu mẫu viết tay với giá khoảng 0,37 đô la cho mỗi 1.000 tài liệu, làm cho nó trở thành lựa chọn hiệu quả nhất về chi phí trong tiêu chuẩn. GPT-5 Mini, trong khi cung cấp độ chính xác cao nhất, chi phí khoảng 5 đô la cho mỗi 1.000 tài liệu, vẫn hợp lý cho các dòng công việc cao, nhưng một thứ tự lớn đắt hơn Gemini Flash Lite. Ngược lại, một số dịch vụ OCR/IDP đám mây đạt mức chi phí từ $10-$65 cho mỗi 1.000 biểu mẫu, làm cho việc triển khai quy mô lớn tốn kém hơn đáng kể mà không cung cấp độ chính xác tốt hơn cho việc viết tay phức tạp. Sự khác biệt về độ trễ trong đường ống dẫn sản xuất Model Average processing time per form, s Azure 6.588 Aws 4.845 Google 5.633 Claude Sonnet 15.488 Gemini 2.5 Flash Lite 5.484 GPT 5 Mini 32.179 Grok 4 129.257 Azure 6.588 Aws 4.845 google 5.633 bởi Claude Sonnet 15.488 Đánh giá Gemini 2.5 Flash Lite 5.484 Đánh giá GPT 5 Mini 32.179 Góc 4 129.257 Tốc độ xử lý cũng khác nhau rất nhiều: Gemini 2.5 Flash Lite xử lý một biểu mẫu trong khoảng 5-6 giây trung bình, làm cho nó phù hợp cho các dòng công việc gần thời gian thực hoặc công suất cao. GPT-5 Mini trung bình khoảng 32 giây cho mỗi biểu mẫu, điều này là chấp nhận được cho việc xử lý hàng loạt các tài liệu có giá trị cao, nhưng trở thành một chướng ngại vật trong các đường ống nhạy cảm với thời gian. Grok 4 là một outlier cực đoan, với thời gian xử lý trung bình vượt quá hai phút cho mỗi biểu mẫu, làm cho nó không thực tế cho hầu hết các trường hợp sử dụng sản xuất bất kể độ chính xác. Không có mô hình “tốt nhất” phổ quát Điểm chuẩn làm cho một điều rất rõ ràng: mô hình “tốt nhất” phụ thuộc vào những gì bạn đang tối ưu hóa. Nếu quy trình làm việc của bạn là chính xác quan trọng (ví dụ, chăm sóc sức khỏe, môi trường pháp lý, quy định), các mô hình chậm hơn và đắt hơn với độ tin cậy cao hơn có thể được biện minh. Nếu bạn đang xử lý hàng triệu biểu mẫu mỗi tháng, sự khác biệt nhỏ về chi phí và thời gian trễ cho mỗi tài liệu chuyển thành tác động hoạt động lớn, và các mô hình như Gemini 2.5 Flash Lite trở nên khó bỏ qua. Trong sản xuất, lựa chọn mô hình là ít về chất lượng lý thuyết và nhiều hơn về cách độ chính xác, tốc độ và chi phí kết hợp trên quy mô. Kết quả đáng ngạc nhiên: Các mô hình nhỏ hơn, rẻ hơn vượt qua những mô hình lớn hơn Đi vào tiêu chuẩn này, chúng tôi mong đợi kết quả thông thường: các mô hình lớn hơn, đắt hơn sẽ thống trị các hình thức viết tay phức tạp, và các mô hình nhẹ hơn sẽ theo sau. Đó không phải là những gì đã xảy ra. Trên toàn bộ bộ các tài liệu viết tay thực sự, hai mô hình tương đối nhỏ gọn và hiệu quả về chi phí liên tục cung cấp độ chính xác khai thác cao nhất: và Họ xử lý một loạt các phong cách viết tay, bố trí và loại trường với ít lỗi quan trọng hơn nhiều lựa chọn thay thế lớn hơn và tốn kém hơn. GPT-5 Mini Gemini 2.5 Flash Lite Kết quả này quan trọng vì hai lý do: Nó thách thức giả định mặc định rằng "lớn hơn luôn luôn tốt hơn" trong tài liệu AI. Trích xuất biểu mẫu bằng tay không chỉ là một vấn đề ngôn ngữ. Nó là một vấn đề nhận thức nhiều giai đoạn: phân đoạn thị giác, nhận dạng ký tự, liên kết trường và xác nhận ngữ nghĩa tất cả tương tác. các mô hình được tối ưu hóa cho đường ống cụ thể này có thể vượt qua các mô hình tổng quát, nặng hơn mà tỏa sáng trong các nhiệm vụ khác. First: Nó thay đổi nền kinh tế của tự động hóa tài liệu. Khi các mô hình nhỏ hơn cung cấp độ chính xác tương đương, và trong một số trường hợp tốt hơn, cấp độ kinh doanh, sự thỏa hiệp giữa chi phí, độ trễ và độ tin cậy thay đổi đáng kể. Đối với quy trình làm việc khối lượng lớn, sự khác biệt giữa “gần như tốt cho một phần chi phí” và “một chút tốt hơn nhưng chậm hơn và đắt hơn nhiều” không phải là lý thuyết. Second: Nói cách khác, tiêu chuẩn không chỉ tạo ra một bảng xếp hạng hàng đầu. nó buộc một câu hỏi khó chịu nhưng hữu ích hơn: Bạn đang chọn các mô hình dựa trên hiệu suất thực tế của họ trên tài liệu của bạn, hoặc trên danh tiếng của họ? Làm thế nào để chọn đúng mô hình (không lừa bản thân) Điểm chuẩn không quan trọng trừ khi chúng thay đổi cách bạn xây dựng. sai lầm chúng ta thường thấy là các nhóm chọn một mô hình đầu tiên - và chỉ sau đó phát hiện ra nó không phù hợp với thực tế hoạt động của họ. 1.High-Stakes dữ liệu → trả tiền cho độ chính xác Nếu sai sót trong tên, ngày tháng hoặc mã định danh có thể gây ra các vấn đề tuân thủ, rủi ro tài chính hoặc thiệt hại cho khách hàng, độ chính xác sẽ đánh bại mọi thứ khác. Nó chậm hơn và đắt hơn, nhưng khi một con số sai duy nhất có thể phá vỡ một quy trình làm việc, chi phí của lỗi làm giảm chi phí suy luận. GPT-5 Mini 2. High Volume → Tối ưu hóa cho thông lượng và chi phí Nếu bạn đang xử lý hàng trăm ngàn hoặc hàng triệu tài liệu mỗi tháng, sự khác biệt nhỏ về độ trễ và chi phí sẽ trở nên nhanh chóng. cung cấp độ chính xác gần như cao ở một phần của giá (~ $ 0,37 mỗi 1.000 biểu mẫu) và với độ trễ thấp (~ 5-6 giây mỗi biểu mẫu). ở quy mô, điều này thay đổi những gì là khả thi về kinh tế để tự động hóa ở tất cả. Gemini 2.5 Flash Lite Lời bài hát: Clean Forms Don't Overengineer Nếu tài liệu của bạn chủ yếu được cấu trúc và viết rõ ràng, bạn không cần phải trả tiền cho "độ chính xác tối đa" ở khắp mọi nơi. Các giải pháp trung bình như và Lựa chọn thiết kế thông minh hơn thường là kết hợp các mô hình này với đánh giá con người nhắm mục tiêu về các lĩnh vực quan trọng, thay vì nâng cấp toàn bộ đường ống của bạn thành một mô hình đắt tiền hơn mang lại lợi nhuận giảm dần. Azure AWS Dữ liệu của bạn – Benchmark của bạn Xếp hạng mô hình không phải là sự thật phổ quát. Trong tiêu chuẩn của chúng tôi, hiệu suất thay đổi đáng chú ý dựa trên mật độ bố trí và phong cách viết tay. tài liệu của bạn sẽ có những điều kỳ lạ của riêng họ. Chạy một tiêu chuẩn nội bộ nhỏ trên thậm chí 20–50 biểu mẫu thực tế thường là đủ để phơi bày chế độ thất bại của mô hình mà bạn có thể chịu đựng, và những gì sẽ lặng lẽ phá hoại quy trình làm việc của bạn.