著者: (1) Blnd Yaseen, University of Kurdistan Howler, Kurdistan Region - Iraq (blnd.yaseen@ukh.edu.krd) (2) クルド人のホセイン・ハッサニ大学ハウラー・クルド人の地域 - イラク(hosseinh@ukh.edu.krd) Authors: (1) Blnd Yaseen, University of Kurdistan Howler, Kurdistan Region - Iraq (blnd.yaseen@ukh.edu.krd) (2) クルド人のホセイン・ハッサニ大学ハウラー・クルド人の地域 - イラク(hosseinh@ukh.edu.krd) 左のテーブル 抽象と1 導入 1.1 イラクとイラク・クルド人の印刷新聞 1.2 歴史文書における課題 1.3 クルド語 Related work and 2.1 Arabic/Persian 2.2 Chinese/Japanese and 2.3 Coptic 2.4 Greek 2.5 Latin 2.6 Tamizhi Method and 3.1 Data Collection 3.2 Data Preparation and 3.3 Preprocessing 3.4 Environment Setup, 3.5 Dataset Preparation, and 3.6 Evaluation Experiments, Results, and Discussion and 4.1 Processed Data 4.2 Dataset and 4.3 Experiments 4.4 Results and Evaluation 4.5 Discussion Conclusion 5.1 Challenges and Limitations Online Resources, Acknowledgments, and References 抽象 Addacted 文書は、現在、この文書を作成した文書の間で多くの歴史的出版物があり、印刷装置がクルディスタンに持ち込まれた初期に印刷された。これらの文書を処理するのに役立つ良いオプティカルキャラクター認識(OCR)は、これらの文書を評価し、クルド語の文書のリソースに貢献するのに役立ちますが、これらの文書を処理するのに重要であるため、クルド語は低リソースの言語と考えられています。現在のOCRシステムは、歴史文書からテキストを抽出することはできません。この研究では、GoogleによるオープンソースOCRフレームワークを採用し、非常に脆弱で、それらに多くのマークを評価し、しばしば異なる言語 1 導入 何世紀にもわたって、人間の経験は歴史文書の形で貴重な宝物を生み出しました。歴史文書の手動の注釈と転写に必要な大量の作業のために、歴史文書の多くのアーカイブはアクセスできないままです(Ataer and Duygulu, 2007)。 デジタル化を通じて、これらの文書は理解され、効率的に効果的に保護することができます。 このプロセスでは、実際の文書は、正確な文字認識に基づいてデジタル記録に体系的に変換されます(Yang et al., 2018)。 物理的なコピーを損なうことなく、歴史文書を維持し、研究に利用できるようにするための歴史文書の需要のために、多くの言語と地域は実践し、デジタル化と歴史文書のデジタル再生の保存を研究 最初は、歴史的文書は手で精力的に作成され、その利用可能性が制限され、配布が制限された。しかし、1436年にドイツでヨハネス・グーテンベルグによって印刷印刷が導入されたことは、重要な里程碑となった。大量の出版物を印刷するために設計された機械装置である印刷印刷は、歴史的文書の生産に革命を起こした。この装置は、図に描かれているようにインクの表面に圧力をかけます。印刷印刷は、歴史の中で最も顕著な業績の一つとして広く認められ、知識の広範な拡散と保存を促進しています(カニア、2012年)。 クルドの報道の歴史については、約1世紀にわたるもので、印刷に使われたデバイスは、今日のものとは大きく異なっていた。 印刷機で印刷された出版物にはさまざまな問題があります。そのうちの1つは、書くための標準的なフォントの欠如、多くのアラビア語のスタイルの使用であり、その上に、すべての書籍は非常に脆弱で破損しており、それらに多くの顕著な痕跡があるため、より良い形でなければなりません。 いくつかのOCRシステムは現在、クルド語をサポートしています、例えば、IdreesとHassani(2021年)の言語です。それでも、彼らは上記の問題のためにこれらの古い出版物を認識できません。古い出版物に関しては、私たちが文学レビューの章で検討する他の言語のためにいくつかの作品が行われています。 この研究は、クルド語の既存のOCRシステムの強化に焦点を当て、歴史的クルド文書からテキストを認識し、抽出することができ、それに関連する文書をさらなる処理に備えることを目的としています。 この論文は、ATTRIBUTION-NONCOMMERCIAL-NODERIVS 4.0 INTERNATIONAL ライセンスの下でアーカイブで利用できます。 この紙は ATTRIBUTION-NONCOMMERCIAL-NODERIVS 4.0インターナショナルライセンス ARCHIV で利用可能 ARCHIV で利用可能