L'apprentissage automatique est la mauvaise façon d'extraire des données de la plupart des documentspar@sensible
6,072 lectures
6,072 lectures

L'apprentissage automatique est la mauvaise façon d'extraire des données de la plupart des documents

par Sensible6m2022/07/26
Read on Terminal Reader
Read this story w/o Javascript

Trop long; Pour lire

À la fin des années 1960, les premières techniques d'OCR (reconnaissance optique de caractères) transformaient les documents numérisés en texte brut. Google, Microsoft et Amazon fournissent une OCR de haute qualité dans le cadre de leurs offres de services cloud. Mais les documents restent sous-utilisés dans les chaînes d'outils logiciels et les données précieuses languissent dans les PDF. Le défi est passé de l'identification du texte dans les documents à leur transformation en données structurées pouvant être consommées directement par des workflows logiciels ou stockées directement dans un système d'enregistrement. La meilleure façon de transformer la grande majorité des documents en. données structurées consiste à utiliser une nouvelle génération de modèles puissants et flexibles qui trouvent des données dans un document comme le ferait une personne.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - L'apprentissage automatique est la mauvaise façon d'extraire des données de la plupart des documents
Sensible HackerNoon profile picture
Sensible

Sensible

@sensible

Fast & flexible data extraction from documents.

L O A D I N G
. . . comments & more!

About Author

Sensible HackerNoon profile picture
Sensible@sensible
Fast & flexible data extraction from documents.

ÉTIQUETTES

Languages

CET ARTICLE A ÉTÉ PARU DANS...

Permanent on Arweave
Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite