paint-brush
So verarbeiten Sie technische Zeichnungen mit KIvon@olegkokorin
Neue Geschichte

So verarbeiten Sie technische Zeichnungen mit KI

von Oleg Kokorin5m2024/08/29
Read on Terminal Reader

Zu lang; Lesen

Technische Zeichnungen sind komplexe, unstrukturierte Dokumente, die sich mit herkömmlichen Mitteln zur Verarbeitung digitaler Dokumente nur schwer verarbeiten lassen. KI hingegen verspricht eine schnelle und genaue Datenextraktion, insbesondere vorgefertigte KI-Tools, die scheinbar auf die Verarbeitung technischer Zeichnungen ausgerichtet sind. In der Praxis sieht es jedoch nicht so gut aus, wie es scheint: Aufgrund ihrer unstrukturierten Natur stellen technische Zeichnungen eine erhebliche Herausforderung für vorgefertigte KI-Systeme dar. In diesem Artikel erkläre ich, wie KI verwendet werden kann, um ein wirklich funktionales System zur Verarbeitung technischer Zeichnungen mit hoher Genauigkeit zu erstellen.
featured image - So verarbeiten Sie technische Zeichnungen mit KI
Oleg Kokorin HackerNoon profile picture
0-item

Nachdem wir an mehreren Projekten zur Verarbeitung technischer Zeichnungen gearbeitet hatten, war es eine Frage der Zeit, bis wir an ein Projekt zur Automatisierung technischer Zeichnungen herantraten. Sie fragen sich, was an technischen Zeichnungen so besonders ist?


Die Antwort lautet: Anmerkungen zu geometrischen Bemaßungen und Toleranzen (GD&T). Diese lästigen Beschriftungen stellen aufgrund ihrer Position auf einer Seite und ihrer Gesamtstruktur häufig eine Herausforderung bei der Verarbeitung und Datenextraktion aus technischen Zeichnungen dar. Aber keine Sorge – ich möchte Ihnen hier zeigen, wie wir es geschafft haben, GD&T-Anmerkungen auf technischen Zeichnungen mithilfe von KI zu verarbeiten. Aber beginnen wir von vorne.

Verarbeitung unstrukturierter Dokumente

Alle digitalen Dokumente können in zwei Typen unterteilt werden: strukturiert und unstrukturiert:


  • Strukturierte Dokumente folgen einer vordefinierten Struktur, sodass sie mithilfe von KI leicht verarbeitet und analysiert werden können. Dokumente wie Formulare, Rechnungen, Quittungen, Umfragen und Verträge sind allesamt Beispiele für strukturierte Dokumente.


  • Im Gegensatz dazu fehlt unstrukturierten Dokumenten eine einheitliche Organisation, was ihre automatische Verarbeitung von Natur aus schwierig macht. Beispiele für unstrukturierte Dokumente sind Zeitungen, Forschungsarbeiten und Geschäftsberichte.


Wie Sie vielleicht schon vermutet haben, sind technische Zeichnungen ein klassisches Beispiel für ein unstrukturiertes Dokument: Obwohl sie strengen Standards entsprechen, unterscheidet sich jede Zeichnung von den anderen, da ihnen eine starre Struktur fehlt. In Verbindung mit einer Mischung aus getippten und handgeschriebenen Textdaten, Sonderzeichen, komplexen Tabellen und verschiedenen Anmerkungen stellen technische Zeichnungen eine echte Herausforderung für die automatische Datenextraktion dar.


Aufgrund ihrer Komplexität sind technische Zeichnungen der perfekte Kandidat für die KI-Datenextraktion. Tatsächlich ist die Verwendung neuronaler Modelle zum Erkennen und Extrahieren verschiedener Daten aus den Zeichnungen die einzige Möglichkeit, ihre Verarbeitung zu automatisieren. Moderne Computer-Vision-Modelle und ein intelligenter Ansatz bei der Produktentwicklung können ein leistungsstarkes Tool für die schnelle Verarbeitung jeder technischen Zeichnung hervorbringen.

Ein Problem mit vorgefertigten Werkzeugen

Eine schnelle Google-Suche zeigt Ihnen mindestens ein paar Lösungen zur Verarbeitung von technischen Zeichnungen. Fast alle bieten umfangreiche Funktionen und versprechen eine schnelle und genaue Verarbeitung komplexer Daten.


Auf den ersten Blick klingt das vielversprechend: Man zahlt für ein monatliches Abonnement hochpräzise verfahrenstechnische Zeichnungen. In der Praxis läuft es jedoch oft nicht so reibungslos.


Fertige Tools haben häufig Probleme, gedrehte Elemente zu erkennen und zu verarbeiten, da ihre Algorithmen nur auf die Verarbeitung des „gemeinsamen Nenners“ trainiert sind. In unserem Fall ist dies eine technische Zeichnung mit horizontal angeordneten Beschriftungen und Anmerkungen.

Daher ist die Verwendung einer vorgefertigten Lösung nur für diejenigen geeignet, deren Zeichnungen relativ einfach sind und nur Standarddaten enthalten. Jede Abweichung vom „gemeinsamen Nenner“ stellt für ein vorgefertigtes Tool eine Herausforderung dar.

Merkmalsextraktion aus technischen Zeichnungen

Genau diese Situation ist einem unserer Kunden passiert: Die auf dem Markt erhältlichen Lösungen zur Verarbeitung von technischen Zeichnungen erfüllen nicht die Anforderungen an die Verarbeitung komplexer oder nicht standardisierter Zeichnungen und erzielen daher mangelhafte Datenerkennungsergebnisse.


GD&T-Anmerkungen enthalten zahlreiche wichtige Informationen, die unbedingt aus der Zeichnung extrahiert werden müssen, um sie weiter zu verarbeiten. Ihre Position auf der Seite (in unserem Fall die schräge Anordnung) erschwert jedoch die Analyse der Zeichnungen durch ein vorgefertigtes KI-Tool.


Hier kommt die kundenspezifische KI-Entwicklung ins Spiel: KI-Modelle, die darauf trainiert sind, Informationen aus Ihrem spezifischen Dokument zu erkennen und zu extrahieren, können (fast) jede Herausforderung lösen, mit der ein vorgefertigtes Tool zu kämpfen hat.


So haben wir eine der Herausforderungen bei der Verarbeitung von technischen Zeichnungen mithilfe der benutzerdefinierten KI-Modellentwicklung gelöst: die Extraktion von schräg platzierten GD&T-Anmerkungen.

Schritt 1: Erkennen der Annotationsposition

Der erste Schritt besteht darin, die Position der Anmerkungen auf der Zeichnung zu lokalisieren. KI-Modelle können trainiert werden, um die Position von Anmerkungen unabhängig von ihrer Position oder ihrem Drehwinkel zu erkennen.


Hinweis: Mehrseitige Dokumente erfordern einen zusätzlichen Schritt, bei dem das Dokument in Seiten unterteilt und zwischen verschiedenen technischen Zeichnungen unterschieden wird. Dasselbe gilt für Dokumente, die mehrere Zeichnungen auf jeder Seite enthalten: Sie müssen zuerst ein Modell ausführen, um jede Zeichnung zu erkennen und aus dem Dokument zu extrahieren.

Schritt 2: Drehwinkel ermitteln

Hier kommt der wichtige Teil: Erkennen, wie die Annotation gedreht wird. Das KI-Modell muss den Drehwinkel berechnen und die Annotation drehen, um sie horizontal zu machen. Die ausgeschnittenen PNGs werden dann zur weiteren Verarbeitung weitergegeben:

Schritt 3: Daten aus Anmerkungen extrahieren

Nachdem alle Anmerkungen erkannt, gedreht und aus der Zeichnung extrahiert wurden, werden sie durch eine Symbolerkennungs-Engine geleitet. Tesseract ist hierfür eine gute Wahl, da es eine hohe Erkennungsgenauigkeit bietet und mit mehrzeiligem Text und Symbolen unterschiedlicher Höhe arbeiten kann.


Um die Symbolerkennung zu verbessern, müssen Sie zunächst den genauen Bereich finden, in dem sich der Text befindet. Ich würde OpenCV empfehlen, da es diese Aufgaben sehr gut bewältigt und relativ einfach zu handhaben ist. Anschließend wird der erkannte Textbereich an die OCR-Engine übergeben, um alle Texte und Symbole zu extrahieren.

Schritt 4: Daten analysieren

Eine Reihe von Buchstaben, Zahlen und Symbolen muss interpretiert werden, um „verdauliche“ Daten bereitzustellen, die Menschen – oder ein Datenverwaltungssystem – verstehen und verarbeiten können. Erkannte Symbole werden in Gruppen unterteilt, die Teileabmessungen, Toleranzen, Passungen und Radien bilden.

Schritt 5: Datenmanagement

Von einem KI-System extrahierte Daten müssen entsprechend Ihren Anforderungen extrahiert werden:


  1. JSON-Dateien : Perfekt für den Import der Daten in bestehende Software,
  2. .XLSX-Dateien : Ein leicht lesbares Datenformat, das sich perfekt für Systemtests oder kleine Datenmengen eignet.
  3. Nachbearbeitung : Die Daten werden zusätzlich bearbeitet, um sie direkt an ein digitales Dokumentenbearbeitungssystem zu senden; ideal für alle, die eine Komplettlösung suchen.

Zusammenfassung

  1. Obwohl es auf dem Markt viele KI-Tools zur Dokumentenverarbeitung gibt, kommen diese nur mit einfachen Dateien gut zurecht. Jede Abweichung von der „Norm“ lässt sich besser mit einer benutzerdefinierten Lösung verarbeiten.


  2. Benutzerdefinierte KI-Modelle können praktisch alle Datenextraktionsaufgaben bewältigen – mit dem richtigen Ansatz und den richtigen Entwicklerkenntnissen.


  3. Technische Zeichnungen sind nicht die einzigen technischen Zeichnungen, über die ich geschrieben habe. Schauen Sie sich wie KI bei der Bearbeitung von Architekturzeichnungen helfen kann, erfahren Sie hier .