Các mô hình AI rất giỏi trong việc viết bài thơ, tóm tắt email, hoặc giả vờ là triết gia.Nhưng họ có thể trích xuất một ngày hết hạn từ hóa đơn không?Họ có thể hiểu một bảng bị hỏng với các tế bào sáp nhập và tiêu đề nửa thiếu không? Đó là những gì tôi muốn tìm ra. Vì vậy, tôi đã thử nghiệm 5 mô hình AI phổ biến - từ các API đám mây đến các LLM cạnh máu - trên hai nhiệm vụ nhàm chán và hữu ích nhất trong các dòng công việc kinh doanh thực tế: (1) trích xuất trường hóa đơn và (2) phân tích bảng có cấu trúc. Thiết lập rất đơn giản: 20 hóa đơn thực và 20 bảng được lấy từ các tài liệu kinh doanh thực. Một số sạch sẽ, hầu hết không. Tôi đã xem xét cách mỗi mô hình xử lý dữ liệu bị thiếu, bố trí không nhất quán, hiện vật OCR và cấu trúc dệt. Độ chính xác, tốc độ, chi phí và sự ổn định dưới đầu vào lộn xộn. Mỗi mô hình phải xử lý 20 hóa đơn và 20 bảng, và trả về kết quả có cấu trúc: tổng số, ngày hóa đơn, tên nhà cung cấp, trường thuế và giá trị cấp hàng. Các đầu vào được cung cấp dưới dạng văn bản OCR đơn giản, không được đánh dấu trước hoặc điều chỉnh tốt. điều duy nhất mà các mô hình phải làm việc với là nội dung thô, cộng với một lời nhắc. Một số mô hình gây ấn tượng. những người khác ảo giác tổng số hoặc bỏ qua tiêu đề. Những gì sau đây là một hướng dẫn lĩnh vực cho những gì mỗi mô hình này thực sự và làm – nếu bạn đang có kế hoạch sử dụng chúng trong sản xuất, đây là những gì bạn cần biết. Có thể không thể AWS Textract: Nhanh chóng, ổn định, theo quyển sách : Textract cung cấp kết quả đáng tin cậy về khai thác hóa đơn. nó ghi được 91.3% mà không có các mặt hàng dòng và 91.1% với chúng. Performance Nó xử lý tốt các trường tiêu chuẩn - tổng số, số hóa đơn, ngày - và không ảo giác giá trị hoặc tạo ra cấu trúc.Nếu đầu vào rõ ràng, nó hoạt động nhất quán.Nếu một trường bị thiếu hoặc mơ hồ, nó để trống mà không đoán. Trên các bảng, Textract đạt độ chính xác 82,1%, vượt qua GPT-4o và giảm nhẹ so với Azure. Nó xử lý các cấu trúc phẳng một cách trơn tru và tạo ra ít lỗi cấu trúc hơn so với các mô hình dựa trên lý luận tạo. Nhưng nó phải vật lộn với các tiêu đề được niêm phong sâu hoặc sự sắp xếp tế bào không nhất quán. Khi định dạng bảng bị hỏng, Textract trả về các đầu ra một phần hoặc phẳng hơn là cố gắng giải thích ý định. Nó cũng xử lý quét độ phân giải thấp (200-300 DPI) mà không làm giảm hiệu suất, giữ độ chính xác trường ổn định ngay cả khi tài liệu hơi mờ. Thời gian xử lý trung bình: 2,1 giây mỗi trang, làm cho nó mô hình nhanh nhất được kiểm tra với độ chính xác nhất quán. Speed : thấp. $10 mỗi 1.000 trang sử dụng điểm cuối AnalyzeExpense, như được báo cáo trong tiêu chuẩn. giá thẳng, không token, không bất ngờ. Cost : Textract được xây dựng cho quy mô. Nó không sáng tạo, nhưng đó chính xác là điểm. Nó sẽ không suy ra cấu trúc hoặc thích nghi với sự hỗn loạn, nhưng nó cũng sẽ không phá vỡ dưới áp lực. Verdict Tốt nhất được sử dụng trong các đường ống nơi định dạng tài liệu được kiểm soát, và bạn cần kết quả có thể dự đoán được với tốc độ. Đối với bố trí lộn xộn hoặc bảng bất thường, bạn sẽ cần phải tìm ở nơi khác - nhưng đối với các tài liệu kinh doanh được hình thành tốt, nó là một trong những công cụ hiệu quả nhất có sẵn. Azure Document Intelligence: Output sạch, dây thần kinh hạn chế Azure xử lý hóa đơn một cách đáng tin cậy, đạt điểm chính xác 85,8% không có mục dòng và 85,7% với chúng. Nó liên tục trích xuất các trường cốt lõi – số hóa đơn, ngày, tổng – nhưng thường bỏ lỡ các trường hợp cạnh như tên nhà cung cấp chia hoặc nhãn ít phổ biến hơn. Performance Nó đã phải vật lộn với mô tả các mục đa từ trong bảng hóa đơn - chẳng hạn như tên đầy đủ của nhân viên hoặc các dòng dịch vụ dài - khiến độ chính xác sụp đổ trong một số trường hợp. Trên bảng, nó đạt độ chính xác 81.5%, chỉ đứng sau AWS và thấp hơn nhiều so với Gemini. Nó hoạt động tốt trên bố trí phẳng, thường xuyên, đọc hàng và cột mà không có lỗi lớn. nhưng nó phải vật lộn với sự phức tạp về cấu trúc - các tế bào sáp nhập, tiêu đề xếp chồng lên nhau, hoặc sự sắp xếp không nhất quán dẫn đến các giá trị bị giảm hoặc các cột bị phân loại sai. Trung bình khoảng 3,5 giây mỗi trang, chậm hơn một chút so với AWS, nhưng ổn định và sẵn sàng sản xuất. Speed : Khoảng 10 đô la cho mỗi 1.000 trang sử dụng mô hình hóa đơn được xây dựng sẵn. Giá cố định thông qua API của Azure, không cần điều chỉnh. Cost Azure hoàn thành công việc nếu công việc được xác định rõ ràng.Nó là một lựa chọn rủi ro thấp cho hóa đơn có cấu trúc và bảng sạch, nhưng nó không phải là mô hình bạn gọi khi bố trí trở nên lộn xộn. Verdict Nó đáng tin cậy, nhưng nó không đẩy ranh giới - và nó sẽ không theo kịp với các mô hình làm. được sử dụng tốt nhất trong các luồng tài liệu nơi nhất quán đánh bại khả năng thích ứng. Google Document AI: Tuyệt vời khi dễ dàng, bị mất khi không Trên hóa đơn, Google cho thấy hiệu suất không đồng đều. nó đạt độ chính xác 83,8% mà không có các mục dòng nhưng giảm xuống 68,1% khi các bảng được bao gồm Performance Nó xử lý các trường tiêu chuẩn như số hóa đơn và ngày, nhưng thường nhầm nhãn các trường thuế, tổng số trùng lặp hoặc bỏ qua dữ liệu cấp dòng. Google ghi được độ chính xác 38,5% – gắn liền với GPT-4o cho kết quả thấp nhất trong tiêu chuẩn. Nó quản lý sạch, các bảng giống như lưới khá tốt nhưng liên tục thất bại trên các trường hợp thế giới thực với tiêu đề hợp nhất, hàng trống, hoặc bất thường cấu trúc. mối quan hệ tế bào bị phá vỡ, nhãn cột bị mất, và đầu ra cuối cùng thường thiếu cấu trúc có thể sử dụng. Nó cũng trả về các mục dòng dưới dạng các hàng văn bản không có cấu trúc thay vì các trường phân đoạn đúng cách. điều đó làm cho số lượng, giá đơn vị và tổng chiết xuất không đáng tin cậy hoặc không thể xác nhận. Khoảng 5,1 giây mỗi trang, chậm hơn Azure và AWS, nhưng không đáng kể. Speed : Khoảng 10-12 đô la cho mỗi 1.000 trang, tùy thuộc vào cấu hình và khu vực.Giá dựa trên API và có thể dự đoán nhưng khó biện minh hơn ở mức độ chính xác hiện tại. Cost Google Document AI hoạt động khi tài liệu sạch sẽ, có thể dự đoán và có cấu trúc chặt chẽ. Verdict: Khi độ phức tạp của bố trí tăng lên, độ chính xác giảm mạnh.Không thích hợp cho các tác vụ khai thác quan trọng liên quan đến các định dạng động hoặc bảng layered. Được sử dụng tốt nhất trong các dòng công việc nội bộ được kiểm soát, nơi sự biến động đầu vào là tối thiểu và kỳ vọng là khiêm tốn. GPT-4o: Thông minh, chính xác, nhạy cảm với đầu vào GPT-4o xử lý chiết xuất hóa đơn tốt. nó đạt độ chính xác 90.8% mà không có các mục dòng và 86.5% với chúng bằng cách sử dụng đầu vào dựa trên OCR. Performance Khi làm việc với hình ảnh tài liệu, điểm số vẫn ổn định: 88,3% và 89,2%, tương ứng. nó xác định chính xác tổng số, ngày, số hóa đơn và tên nhà cung cấp. Nó cũng là tốt trong việc chọn đúng giá trị khi nhiều tương tự xuất hiện trên trang. Nó xử lý các tài liệu có độ phân giải thấp mà không mất đi độ chính xác đáng kể. tuy nhiên, nó đôi khi đọc sai điểm số - bỏ dấu chấm hoặc đặt sai điểm thập phân trong các trường số. Nhưng phân tích bảng là một câu chuyện khác. GPT-4o chỉ đạt độ chính xác 38,5% - kết quả thấp nhất trong số tất cả các mô hình trong tiêu chuẩn. Trong khi nó tuân theo cấu trúc cơ bản trong các trường hợp đơn giản, nó bị phá vỡ trên tiêu đề sáp nhập, hàng niêm phong và bố trí không đầy đủ. Các mối quan hệ cột thường bị đọc sai, và các giá trị ô bị sai vị trí hoặc bị bỏ hoàn toàn. Nó trông giống như một mô hình văn bản cố gắng suy luận theo cách của nó thông qua một vấn đề thị giác - và thiếu các dấu hiệu chính. : Khoảng 17-20 giây mỗi trang với nhập văn bản OCR. Với đầu vào hình ảnh, độ trễ tăng mạnh - thường là 30 giây hoặc nhiều hơn, tùy thuộc vào kích thước nhanh và tải hệ thống. Speed Khoảng 5-6 đô la cho mỗi 1.000 trang sử dụng GPT-4-turbo (đăng nhập văn bản). Đầu vào dựa trên hình ảnh thông qua API Vision có thể tăng gấp đôi điều đó, tùy thuộc vào chiều dài của prompt và sử dụng token. Cost GPT-4o hoạt động tốt trên hóa đơn và hiểu văn bản có cấu trúc với sắc thái và tính linh hoạt.Nhưng trên các bảng phức tạp về mặt thị giác, nó đấu tranh để duy trì cấu trúc hoặc tạo ra các đầu ra nhất quán. Verdict: Nếu bạn đang làm việc với các tài liệu mà bố trí quan trọng - và độ chính xác không thể giảm xuống dưới 40% - bạn sẽ cần phải tìm nơi khác. Sử dụng nó khi bạn kiểm soát định dạng đầu vào hoặc ưu tiên thông minh cấp hóa đơn so với bố trí tài liệu. Xem thêm: Gemini 1.5 Pro: Quietly Dominant : Gemini xử lý phân tích hóa đơn với độ chính xác ổn định. Nó ghi được độ chính xác 90.0% mà không có các mặt hàng dòng và 90.2% với chúng. Performance Nó liên tục kéo tổng số, ngày tháng, số hóa đơn và tên nhà cung cấp - ngay cả khi định dạng thay đổi hoặc các trường không được dán nhãn gọn gàng. lỗi là nhỏ: giá trị trùng lặp, trường thuế đọc sai, biểu tượng bổ sung thỉnh thoảng. Trên bảng, Gemini vượt qua tất cả các mô hình khác. nó đạt độ chính xác 94,2%, dẫn đầu tiêu chuẩn. AWS và Azure theo sau ở mức 82,1% và 81.5%, trong khi GPT-4o tụt hậu ở mức 38,5%. Gemini phân tích tiêu đề đa cấp, các ô sáp nhập và cấu trúc hàng không đồng đều với ít lỗi hơn và hiểu biết cấu trúc tốt hơn. : Nhanh liên tục. trung bình 3-4 giây mỗi trang. Nhanh hơn GPT-4o, hơi sau AWS, không có sự chậm lại không thể đoán trước. Speed : Ước tính 4–5 đô la cho mỗi 1.000 trang sử dụng API Gemini trong chế độ thử nghiệm chỉ bằng văn bản. Cost : Gemini cung cấp độ chính xác cao trên cả hóa đơn và bảng mà không cần đầu vào tầm nhìn hoặc cài đặt phức tạp. nó nhanh chóng, nhận thức về cấu trúc và có khả năng chống lại các vấn đề bố trí hơn bất kỳ mô hình nào khác được thử nghiệm. Verdict Sử dụng tốt nhất khi bạn muốn kết quả cấp độ sản xuất từ tài liệu không nhất quán và có thể kiểm soát định dạng đầu vào. Đáng tin cậy dưới áp lực - không có kịch tính, chỉ là sản lượng. Kết quả Năm mô hình. cùng một nhiệm vụ. cùng một tài liệu. kết quả rất khác nhau. Gemini là tốt nhất tất cả xung quanh - nhanh chóng, chính xác và sắc nét về cấu trúc. GPT-4o đinh hóa đơn, nghẹt thở trên bàn. AWS Textract nhanh, cứng và khó phá vỡ. Azure đã có những điều cơ bản đúng, nhưng không có gì hơn. Google đã phải vật lộn với bất cứ thứ gì không sạch sẽ và không được dán nhãn. Không có mô hình nào xử lý tất cả mọi thứ. Một vài đã xử lý đủ.Nếu bạn đang xây dựng với AI, hãy thử trước - hoặc lên kế hoạch dọn dẹp sau.