Tác giả : (1) Blnd Yaseen, Đại học Kurdistan Howler, Khu vực Kurdistan - Iraq (blnd.yaseen@ukh.edu.krd); (2) Đại học Hossein Hassani của Kurdistan Howler Kurdistan Region - Iraq (hosseinh@ukh.edu.krd). Authors: (1) Blnd Yaseen, Đại học Kurdistan Howler, Khu vực Kurdistan - Iraq (blnd.yaseen@ukh.edu.krd); (2) Đại học Hossein Hassani của Kurdistan Howler Kurdistan Region - Iraq (hosseinh@ukh.edu.krd). Bàn trái Abstract and 1 - Giới thiệu 1.1 Báo chí in ở Iraq và Iraq Kurdistan 1.2 Thách thức trong các tài liệu lịch sử 1.3 Ngôn ngữ Kurd Related work and 2.1 Arabic/Persian 2.2 Chinese/Japanese and 2.3 Coptic 2.4 Greek 2.5 Latin 2.6 Tamizhi Method and 3.1 Data Collection 3.2 Data Preparation and 3.3 Preprocessing 3.4 Environment Setup, 3.5 Dataset Preparation, and 3.6 Evaluation Experiments, Results, and Discussion and 4.1 Processed Data 4.2 Dataset and 4.3 Experiments 4.4 Results and Evaluation 4.5 Discussion Conclusion 5.1 Challenges and Limitations Online Resources, Acknowledgments, and References Abstracts Thêm vào đó, các thư viện văn bản hiện nay có nhiều ấn phẩm lịch sử được in lại trong những ngày đầu khi các thiết bị in được đưa đến Kurdistan. Có khả năng nhận dạng nhân vật quang học tốt (OCR) để giúp xử lý các ấn phẩm này và đóng góp vào các nguồn tài nguyên của ngôn ngữ Kurd, điều này rất quan trọng vì tiếng Kurd được coi là một ngôn ngữ tài nguyên thấp. Các hệ thống OCR hiện tại không thể trích xuất văn bản từ các tài liệu lịch sử vì chúng có nhiều vấn đề, bao gồm cả bị hư hỏng, rất dễ bị tổn thương, có nhiều dấu hiệu còn lại trên chúng, và thường được viết bằng các phông chữ không chuẩn và nhiều hơn nữa. Đây là một trở ngại lớn trong việc xử lý các tài liệu này vì hiện nay xử lý chúng đòi hỏi phải viết bằng tay rất tốn thời gian. Trong nghiên cứu này 1 Giới thiệu Trong suốt nhiều thế kỷ, kinh nghiệm của con người đã tạo ra những kho báu vô giá dưới dạng các tài liệu lịch sử. Do số lượng lớn công việc cần thiết để ghi chú thủ công và biên dịch các tài liệu lịch sử, nhiều kho lưu trữ tài liệu lịch sử vẫn không thể truy cập được (Ataer và Duygulu, 2007). Thông qua số hóa, các tài liệu này có thể được hiểu và bảo vệ một cách hiệu quả và hiệu quả. Trong quá trình này, tài liệu thực tế được chuyển đổi hệ thống thành hồ sơ kỹ thuật số dựa trên việc nhận dạng chính xác các ký tự trong tài liệu gốc (Yang et al., 2018). Do nhu cầu duy trì và làm cho các tài liệu lịch sử có sẵn cho nghiên cứu mà không làm hỏng các bản sao vật lý, nhiều ngôn ngữ và khu vực bắt đầu thực hành và nghiên cứu số hóa và bảo tồn việc tái tạo kỹ thuật số các tài liệu Ban đầu, các tài liệu lịch sử được tạo ra một cách chăm chỉ bằng tay, dẫn đến sự sẵn có hạn chế và phân phối hạn chế của chúng. Tuy nhiên, sự ra đời của báo chí in bởi Johannes Gutenberg vào năm 1436 ở Đức đánh dấu một cột mốc quan trọng. Báo chí in, một thiết bị cơ khí được thiết kế để in các ấn phẩm có khối lượng lớn, đã cách mạng hóa việc sản xuất các tài liệu lịch sử. Thiết bị này áp dụng áp lực lên một bề mặt mực, như được mô tả trong Hình ???? Báo chí in được công nhận rộng rãi là một trong những thành tựu đáng chú ý nhất trong lịch sử, tạo điều kiện cho sự phổ biến và bảo tồn kiến thức (Qania, 2012). Đối với lịch sử báo chí người Kurd, nó khoảng một thế kỷ tuổi, và các thiết bị được sử dụng để in ấn rất khác với những gì chúng ta có ngày hôm nay. Một trong số đó là thiếu phông chữ tiêu chuẩn để viết, việc sử dụng nhiều phong cách Ả Rập, và trên hết, tất cả các cuốn sách cần phải ở trong hình dạng tốt hơn vì chúng rất mong manh và bị hư hỏng và có nhiều dấu hiệu đáng chú ý trên chúng. Một số hệ thống OCR hiện đang hỗ trợ ngôn ngữ người Kurd, ví dụ như ngôn ngữ của Idrees và Hassani (2021). Tuy nhiên, họ không thể nhận ra các ấn phẩm cũ này do các vấn đề đã đề cập ở trên. Nghiên cứu này tập trung vào việc tăng cường một hệ thống OCR hiện có cho ngôn ngữ người Kurd để chúng ta có thể nhận ra và trích xuất văn bản từ các tài liệu người Kurd lịch sử, làm cho các tài liệu liên quan sẵn sàng để xử lý hơn nữa. Tài liệu này được lưu trữ dưới giấy phép ATTRIBUTION-NONCOMMERCIAL-NODERIVS 4.0 INTERNATIONAL. Bài báo này là Giấy phép ATTRIBUTION-NONCOMMERCIAL-NODERIVS 4.0 INTERNATIONAL Có sẵn trong Archive Có sẵn trong Archive