paint-brush
Cách xử lý bản vẽ kỹ thuật bằng AItừ tác giả@olegkokorin
2,709 lượt đọc
2,709 lượt đọc

Cách xử lý bản vẽ kỹ thuật bằng AI

từ tác giả Oleg Kokorin5m2024/08/29
Read on Terminal Reader

dài quá đọc không nổi

Bản vẽ kỹ thuật là những tài liệu phức tạp không có cấu trúc, khiến chúng khó xử lý bằng các phương tiện xử lý tài liệu kỹ thuật số truyền thống. Mặt khác, AI hứa hẹn khả năng trích xuất dữ liệu nhanh chóng và chính xác, đặc biệt là các công cụ AI có sẵn dường như tập trung vào việc xử lý bản vẽ kỹ thuật. Tuy nhiên, trên thực tế, mọi thứ không tốt như vẻ bề ngoài: bản vẽ kỹ thuật đặt ra một thách thức đáng kể đối với các hệ thống AI được tạo sẵn do bản chất không có cấu trúc của chúng. Trong bài viết này, tôi chia sẻ cách AI có thể được sử dụng để tạo ra một hệ thống xử lý bản vẽ kỹ thuật thực sự có chức năng với độ chính xác cao.
featured image - Cách xử lý bản vẽ kỹ thuật bằng AI
Oleg Kokorin HackerNoon profile picture
0-item

Đã từng làm việc trên nhiều dự án xử lý bản vẽ kỹ thuật, chỉ còn là vấn đề thời gian cho đến khi một dự án tự động hóa bản vẽ kỹ thuật xuất hiện. Bạn có hỏi bản vẽ kỹ thuật có gì đặc biệt không?


Chú thích về kích thước hình học và dung sai (GD&T) chính là câu trả lời dành cho bạn. Những nhãn khó chịu này thường gây ra thách thức khi xử lý và trích xuất dữ liệu từ bản vẽ kỹ thuật do vị trí của chúng trên một trang và cấu trúc tổng thể. Nhưng đừng lo lắng — tôi ở đây để chia sẻ cách chúng tôi xử lý chú thích GD&T trên bản vẽ kỹ thuật bằng AI. Tuy nhiên, hãy bắt đầu từ đầu.

Xử lý các tài liệu phi cấu trúc

Tất cả các tài liệu số có thể được chia thành 2 loại: có cấu trúc và không có cấu trúc:


  • Tài liệu có cấu trúc tuân theo một cấu trúc được xác định trước, giúp chúng dễ dàng xử lý và phân tích bằng AI. Các tài liệu như biểu mẫu, hóa đơn, biên lai, khảo sát và hợp đồng đều là ví dụ về tài liệu có cấu trúc.


  • Ngược lại, các tài liệu không có cấu trúc thiếu sự tổ chức nhất quán, khiến chúng vốn khó xử lý tự động. Ví dụ về các tài liệu không có cấu trúc bao gồm báo, bài nghiên cứu và báo cáo kinh doanh.


Như bạn có thể đoán, bản vẽ kỹ thuật là ví dụ điển hình của một tài liệu không có cấu trúc: mặc dù tuân thủ một bộ tiêu chuẩn nghiêm ngặt, mỗi bản vẽ lại khác nhau vì chúng thiếu cấu trúc cứng nhắc. Kết hợp với sự kết hợp giữa dữ liệu văn bản được đánh máy và viết tay, các ký hiệu đặc biệt, bảng tính phức tạp và nhiều chú thích khác nhau, bản vẽ kỹ thuật đặt ra một thách thức thực sự cho việc trích xuất dữ liệu tự động.


Bản chất phức tạp của bản vẽ kỹ thuật khiến chúng trở thành ứng cử viên hoàn hảo cho việc trích xuất dữ liệu AI. Trên thực tế, sử dụng các mô hình nơ-ron để phát hiện và trích xuất nhiều dữ liệu khác nhau từ bản vẽ là cách duy nhất để tự động hóa quá trình xử lý của chúng. Các mô hình thị giác máy tính hiện đại và cách tiếp cận thông minh đối với phát triển sản phẩm có thể tạo ra một công cụ mạnh mẽ để xử lý nhanh chóng bất kỳ bản vẽ kỹ thuật nào.

Một vấn đề với các công cụ làm sẵn

Một tìm kiếm nhanh trên Google sẽ cho bạn thấy ít nhất một vài giải pháp để xử lý bản vẽ kỹ thuật. Hầu như tất cả chúng đều cung cấp chức năng rộng và hứa hẹn xử lý nhanh chóng và chính xác dữ liệu phức tạp.


Thoạt nhìn, điều này có vẻ rất hứa hẹn: trả tiền thuê bao hàng tháng để xử lý bản vẽ kỹ thuật với độ chính xác cao. Tuy nhiên, trên thực tế, mọi thứ thường không suôn sẻ như vậy.


Các công cụ làm sẵn thường gặp khó khăn trong việc phát hiện và xử lý các phần tử xoay vì thuật toán của chúng chỉ được đào tạo để xử lý "mẫu số chung", trong trường hợp của chúng tôi, là bản vẽ kỹ thuật có nhãn và chú thích được đặt theo chiều ngang.

Do đó, sử dụng giải pháp làm sẵn chỉ phù hợp với những người có bản vẽ tương đối đơn giản và chỉ bao gồm dữ liệu chuẩn. Bất kỳ sự sai lệch nào so với “mẫu số chung” sẽ là thách thức đối với công cụ làm sẵn.

Trích xuất tính năng từ bản vẽ kỹ thuật

Tình huống chính xác này đã xảy ra với một trong những khách hàng của chúng tôi: các giải pháp xử lý bản vẽ kỹ thuật trên thị trường không đáp ứng được nhu cầu xử lý các bản vẽ phức tạp hoặc không chuẩn, khiến kết quả nhận dạng dữ liệu kém.


Chú thích GD&T chứa rất nhiều thông tin quan trọng cần trích xuất từ bản vẽ để xử lý thêm, nhưng vị trí của chúng trên trang, trong trường hợp của chúng tôi, được đặt ở một góc, lại gây trở ngại cho quá trình phân tích bản vẽ bằng công cụ AI được thiết kế sẵn.


Đây chính là lúc phát triển AI tùy chỉnh phát huy tác dụng: Các mô hình AI được đào tạo để phát hiện và trích xuất thông tin từ tài liệu cụ thể của bạn có thể giải quyết (gần như) mọi thách thức mà một công cụ làm sẵn gặp phải.


Sau đây là cách chúng tôi giải quyết một trong những thách thức khi xử lý bản vẽ kỹ thuật bằng cách phát triển mô hình AI tùy chỉnh — trích xuất chú thích GD&T được đặt ở một góc.

Bước 1: Phát hiện vị trí chú thích

Bước đầu tiên là xác định vị trí chú thích trên bản vẽ. Các mô hình AI có thể được đào tạo để phát hiện vị trí chú thích bất kể vị trí hoặc góc quay của chúng.


Lưu ý: Tài liệu nhiều trang yêu cầu một bước bổ sung là chia tài liệu thành các trang và phân biệt giữa các bản vẽ kỹ thuật khác nhau. Tương tự đối với các tài liệu bao gồm nhiều bản vẽ trên mỗi trang: trước tiên bạn cần chạy một mô hình để phát hiện từng bản vẽ và trích xuất chúng từ tài liệu.

Bước 2: Phát hiện góc quay

Đây là phần quan trọng: phát hiện cách chú thích được xoay. Mô hình AI cần tính toán góc xoay và xoay chú thích để làm cho nó nằm ngang. Sau đó, PNG cắt ra được chuyển tiếp để xử lý thêm:

Bước 3: Trích xuất dữ liệu từ chú thích

Sau khi tất cả các chú thích được phát hiện, xoay và trích xuất từ bản vẽ, chúng sẽ được chạy qua một công cụ phát hiện ký hiệu. Tesseract là một lựa chọn tốt cho việc này vì nó cung cấp độ chính xác cao về khả năng nhận dạng và có thể hoạt động với văn bản nhiều dòng và ký hiệu có chiều cao khác nhau.


Đầu tiên, bạn cần tìm chính xác khu vực mà văn bản nằm để cải thiện quá trình nhận dạng ký hiệu. Tôi khuyên bạn nên sử dụng OpenCV vì nó xử lý các tác vụ này rất tốt và tương đối dễ sử dụng. Tiếp theo, khu vực văn bản được phát hiện sẽ được chuyển giao cho công cụ OCR để trích xuất tất cả văn bản và ký hiệu.

Bước 4: Phân tích dữ liệu

Một mảng các chữ cái, số và ký hiệu cần được diễn giải để cung cấp dữ liệu "có thể tiêu hóa" mà con người — hoặc hệ thống quản lý dữ liệu — có thể hiểu và xử lý. Các ký hiệu được phát hiện được chia thành các nhóm tạo thành kích thước bộ phận, dung sai, độ vừa vặn và bán kính.

Bước 5: Quản lý dữ liệu

Dữ liệu được trích xuất bởi hệ thống AI cần được trích xuất theo nhu cầu của bạn:


  1. Tệp JSON : Hoàn hảo để nhập dữ liệu vào phần mềm hiện có,
  2. Tệp .XLSX : Định dạng dữ liệu dễ đọc, lý tưởng cho việc thử nghiệm hệ thống hoặc xử lý lượng dữ liệu nhỏ.
  3. Hậu xử lý : Dữ liệu cũng được xử lý để gửi thẳng đến hệ thống xử lý tài liệu kỹ thuật số; rất phù hợp cho những ai đang tìm kiếm giải pháp hoàn chỉnh.

Tóm tắt

  1. Trong khi thị trường có rất nhiều công cụ AI để xử lý tài liệu, chúng chỉ xử lý tốt các tệp đơn giản. Bất kỳ sự sai lệch nào so với "chuẩn mực" đều được xử lý tốt hơn bằng giải pháp tùy chỉnh.


  2. Các mô hình AI tùy chỉnh có thể xử lý hầu như mọi tác vụ trích xuất dữ liệu — nếu có phương pháp tiếp cận phù hợp và kỹ năng của nhà phát triển.


  3. Bản vẽ kỹ thuật không phải là bản vẽ kỹ thuật duy nhất tôi đã viết, hãy xem AI có thể giúp xử lý bản vẽ kiến trúc như thế nào ở đây .