Autori : (1) Blnd Yaseen, Univerzita Kurdistanu Howler, Kurdská oblasť - Irak (blnd.yaseen@ukh.edu.krd); (2) Hossein Hassani University of Kurdistan Howler Kurdistan Region - Irak (hosseinh@ukh.edu.krd). Authors: (1) Blnd Yaseen, Univerzita Kurdistanu Howler, Kurdská oblasť - Irak (blnd.yaseen@ukh.edu.krd); (2) Hossein Hassani University of Kurdistan Howler Kurdistan Region - Irak (hosseinh@ukh.edu.krd). Stôl vľavo Abstrakt a 1. úvod 1.1 Tlačová tlač v Iraku a irackom Kurdistane 1.2 Výzvy v historických dokumentoch 1.3 Kurdský jazyk Related work and 2.1 Arabic/Persian 2.2 Chinese/Japanese and 2.3 Coptic 2.4 Greek 2.5 Latin 2.6 Tamizhi Method and 3.1 Data Collection 3.2 Data Preparation and 3.3 Preprocessing 3.4 Environment Setup, 3.5 Dataset Preparation, and 3.6 Evaluation Experiments, Results, and Discussion and 4.1 Processed Data 4.2 Dataset and 4.3 Experiments 4.4 Results and Evaluation 4.5 Discussion Conclusion 5.1 Challenges and Limitations Online Resources, Acknowledgments, and References abstraktné V súčasnosti existuje mnoho historických publikácií, ktoré boli vytlačené v skorých dňoch, keď boli do Kurdistanu prinesené tlačové zariadenia. Majúc dobrú funkciu Optical Character Recognition (OCR), ktorá pomáha spracovávať tieto publikácie a prispievať k zdrojom kurdského jazyka, čo je rozhodujúce, pretože kurdčina je považovaná za jazyk s nízkym zdrojom. Súčasné systémy OCR nie sú schopné extrahovať text z historických dokumentov, pretože majú veľa problémov, vrátane toho, že sú poškodené, veľmi krehké, majú na nich veľa značiek a často sú napísané v neštandardných písmach. To je obrovská prekážka pri spracovaní týchto dokumentov, pretože ich spracovanie v súčasnosti vyžaduje manuálne typovanie, ktoré je veľmi časovo náročné. V 1 Úvod V priebehu storočí ľudská skúsenosť vytvorila neoceniteľné poklady vo forme historických dokumentov. V dôsledku veľkého množstva práce potrebnej na ručné poznámky a prepisovanie historických dokumentov, mnohé archívy historických dokumentov zostávajú neprístupné (Ataer a Duygulu, 2007). Prostredníctvom digitalizácie sa tieto dokumenty môžu chápať a chrániť efektívne a efektívne. V tomto procese sa skutočné dokumenty systematicky premieňajú na digitálne záznamy založené na presnom rozpoznávaní znakov v pôvodnom dokumente (Yang et al., 2018). Vzhľadom na dopyt po udržiavaní a sprístupnení historických dokumentov na výskum bez poškodenia fyzických kópií, mnohé jazyky a regióny začali praktizovať a Spočiatku boli historické dokumenty starostlivo vytvárané ručne, čo viedlo k ich obmedzenej dostupnosti a obmedzenej distribúcii. Avšak zavedenie tlačovej tlače Johannesom Gutenbergom v roku 1436 v Nemecku znamenalo významný míľnik. Tlačová tlačiareň, mechanické zariadenie určené na tlač veľkých objemov publikácií, revolúciu vo výrobe historických dokumentov. Tento prístroj vyvíja tlak na atramentový povrch, ako je znázornené na obrázku ???? Tlačová tlačiareň je široko uznávaná ako jeden z najpozoruhodnejších úspechov v histórii, uľahčujúci rozšírené šírenie a zachovanie vedomostí (Qania, 2012). Pokiaľ ide o kurdskú tlačovú históriu, je to asi storočie stará a zariadenia používané na tlač boli veľmi odlišné od toho, čo máme dnes. Jedným z nich je nedostatok štandardného písma na písanie, používanie mnohých arabských štýlov a na vrchole nich musia byť všetky knihy v lepšej forme, pretože sú veľmi krehké a poškodené a na nich je veľa viditeľných známok. Niekoľko systémov OCR v súčasnosti podporuje kurdský jazyk, napríklad ten od Idrees a Hassani (2021). Napriek tomu nemôžu rozpoznať tieto staré publikácie kvôli vyššie uvedeným problémom. Táto štúdia sa zameriava na posilnenie existujúceho systému OCR pre kurdský jazyk, aby sme mohli rozpoznať a extrahovať text z historických kurdských dokumentov, čo robí súvisiace dokumenty pripravené na ďalšie spracovanie. Tento dokument je k dispozícii v archíve pod licenciou ATTRIBUTION-NONCOMMERCIAL-NODERIVS 4.0 INTERNATIONAL. Tento papier je Medzinárodná licencia ATTRIBUTION-NONCOMMERCIAL-NODERIVS 4.0. Dostupné v archíve Dostupné v archíve