paint-brush
机器学习是从大多数文档中提取数据的错误方法经过@sensible
6,089 讀數
6,089 讀數

机器学习是从大多数文档中提取数据的错误方法

经过 Sensible6m2022/07/26
Read on Terminal Reader
Read this story w/o Javascript

太長; 讀書

在 1960 年代后期,第一个 OCR(光学字符识别)技术将扫描的文档转换为原始文本。谷歌、微软和亚马逊提供高质量的 OCR 作为其云服务产品的一部分。但文档在软件工具链中仍未得到充分利用,有价值的数据在 PDF 中也显得乏善可陈。挑战已从识别文档中的文本转变为将其转化为适合基于软件的工作流直接使用或直接存储到记录系统中的结构化数据。将绝大多数文档转换为的最佳方式。结构化数据是使用下一代功能强大、灵活的模板,可以像人一样在文档中查找数据。

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - 机器学习是从大多数文档中提取数据的错误方法
Sensible HackerNoon profile picture
Sensible

Sensible

@sensible

Fast & flexible data extraction from documents.

L O A D I N G
. . . comments & more!

About Author

Sensible HackerNoon profile picture
Sensible@sensible
Fast & flexible data extraction from documents.

標籤

Languages

这篇文章刊登在...

Permanent on Arweave
Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite