CEO of Businessware Technologies, machine learning engineer
This story contains new, firsthand information uncovered by the writer.
Nachdem wir an mehreren Projekten zur Verarbeitung technischer Zeichnungen gearbeitet hatten, war es eine Frage der Zeit, bis wir an ein Projekt zur Automatisierung technischer Zeichnungen herantraten. Sie fragen sich, was an technischen Zeichnungen so besonders ist?
Die Antwort lautet: Anmerkungen zu geometrischen Bemaßungen und Toleranzen (GD&T). Diese lästigen Beschriftungen stellen aufgrund ihrer Position auf einer Seite und ihrer Gesamtstruktur häufig eine Herausforderung bei der Verarbeitung und Datenextraktion aus technischen Zeichnungen dar. Aber keine Sorge – ich möchte Ihnen hier zeigen, wie wir es geschafft haben, GD&T-Anmerkungen auf technischen Zeichnungen mithilfe von KI zu verarbeiten. Aber beginnen wir von vorne.
Alle digitalen Dokumente können in zwei Typen unterteilt werden: strukturiert und unstrukturiert:
Wie Sie vielleicht schon vermutet haben, sind technische Zeichnungen ein klassisches Beispiel für ein unstrukturiertes Dokument: Obwohl sie strengen Standards entsprechen, unterscheidet sich jede Zeichnung von den anderen, da ihnen eine starre Struktur fehlt. In Verbindung mit einer Mischung aus getippten und handgeschriebenen Textdaten, Sonderzeichen, komplexen Tabellen und verschiedenen Anmerkungen stellen technische Zeichnungen eine echte Herausforderung für die automatische Datenextraktion dar.
Aufgrund ihrer Komplexität sind technische Zeichnungen der perfekte Kandidat für die KI-Datenextraktion. Tatsächlich ist die Verwendung neuronaler Modelle zum Erkennen und Extrahieren verschiedener Daten aus den Zeichnungen die einzige Möglichkeit, ihre Verarbeitung zu automatisieren. Moderne Computer-Vision-Modelle und ein intelligenter Ansatz bei der Produktentwicklung können ein leistungsstarkes Tool für die schnelle Verarbeitung jeder technischen Zeichnung hervorbringen.
Eine schnelle Google-Suche zeigt Ihnen mindestens ein paar Lösungen zur Verarbeitung von technischen Zeichnungen. Fast alle bieten umfangreiche Funktionen und versprechen eine schnelle und genaue Verarbeitung komplexer Daten.
Auf den ersten Blick klingt das vielversprechend: Man zahlt für ein monatliches Abonnement hochpräzise verfahrenstechnische Zeichnungen. In der Praxis läuft es jedoch oft nicht so reibungslos.
Fertige Tools haben häufig Probleme, gedrehte Elemente zu erkennen und zu verarbeiten, da ihre Algorithmen nur auf die Verarbeitung des „gemeinsamen Nenners“ trainiert sind. In unserem Fall ist dies eine technische Zeichnung mit horizontal angeordneten Beschriftungen und Anmerkungen.
Daher ist die Verwendung einer vorgefertigten Lösung nur für diejenigen geeignet, deren Zeichnungen relativ einfach sind und nur Standarddaten enthalten. Jede Abweichung vom „gemeinsamen Nenner“ stellt für ein vorgefertigtes Tool eine Herausforderung dar.
Genau diese Situation ist einem unserer Kunden passiert: Die auf dem Markt erhältlichen Lösungen zur Verarbeitung von technischen Zeichnungen erfüllen nicht die Anforderungen an die Verarbeitung komplexer oder nicht standardisierter Zeichnungen und erzielen daher mangelhafte Datenerkennungsergebnisse.
GD&T-Anmerkungen enthalten zahlreiche wichtige Informationen, die unbedingt aus der Zeichnung extrahiert werden müssen, um sie weiter zu verarbeiten. Ihre Position auf der Seite (in unserem Fall die schräge Anordnung) erschwert jedoch die Analyse der Zeichnungen durch ein vorgefertigtes KI-Tool.
Hier kommt die kundenspezifische KI-Entwicklung ins Spiel: KI-Modelle, die darauf trainiert sind, Informationen aus Ihrem spezifischen Dokument zu erkennen und zu extrahieren, können (fast) jede Herausforderung lösen, mit der ein vorgefertigtes Tool zu kämpfen hat.
So haben wir eine der Herausforderungen bei der Verarbeitung von technischen Zeichnungen mithilfe der benutzerdefinierten KI-Modellentwicklung gelöst: die Extraktion von schräg platzierten GD&T-Anmerkungen.
Der erste Schritt besteht darin, die Position der Anmerkungen auf der Zeichnung zu lokalisieren. KI-Modelle können trainiert werden, um die Position von Anmerkungen unabhängig von ihrer Position oder ihrem Drehwinkel zu erkennen.
Hinweis: Mehrseitige Dokumente erfordern einen zusätzlichen Schritt, bei dem das Dokument in Seiten unterteilt und zwischen verschiedenen technischen Zeichnungen unterschieden wird. Dasselbe gilt für Dokumente, die mehrere Zeichnungen auf jeder Seite enthalten: Sie müssen zuerst ein Modell ausführen, um jede Zeichnung zu erkennen und aus dem Dokument zu extrahieren.
Hier kommt der wichtige Teil: Erkennen, wie die Annotation gedreht wird. Das KI-Modell muss den Drehwinkel berechnen und die Annotation drehen, um sie horizontal zu machen. Die ausgeschnittenen PNGs werden dann zur weiteren Verarbeitung weitergegeben:
Nachdem alle Anmerkungen erkannt, gedreht und aus der Zeichnung extrahiert wurden, werden sie durch eine Symbolerkennungs-Engine geleitet. Tesseract ist hierfür eine gute Wahl, da es eine hohe Erkennungsgenauigkeit bietet und mit mehrzeiligem Text und Symbolen unterschiedlicher Höhe arbeiten kann.
Um die Symbolerkennung zu verbessern, müssen Sie zunächst den genauen Bereich finden, in dem sich der Text befindet. Ich würde OpenCV empfehlen, da es diese Aufgaben sehr gut bewältigt und relativ einfach zu handhaben ist. Anschließend wird der erkannte Textbereich an die OCR-Engine übergeben, um alle Texte und Symbole zu extrahieren.
Eine Reihe von Buchstaben, Zahlen und Symbolen muss interpretiert werden, um „verdauliche“ Daten bereitzustellen, die Menschen – oder ein Datenverwaltungssystem – verstehen und verarbeiten können. Erkannte Symbole werden in Gruppen unterteilt, die Teileabmessungen, Toleranzen, Passungen und Radien bilden.
Von einem KI-System extrahierte Daten müssen entsprechend Ihren Anforderungen extrahiert werden:
Obwohl es auf dem Markt viele KI-Tools zur Dokumentenverarbeitung gibt, kommen diese nur mit einfachen Dateien gut zurecht. Jede Abweichung von der „Norm“ lässt sich besser mit einer benutzerdefinierten Lösung verarbeiten.
Benutzerdefinierte KI-Modelle können praktisch alle Datenextraktionsaufgaben bewältigen – mit dem richtigen Ansatz und den richtigen Entwicklerkenntnissen.
Technische Zeichnungen sind nicht die einzigen technischen Zeichnungen, über die ich geschrieben habe. Schauen Sie sich
So verarbeiten Sie technische Zeichnungen mit KI | HackerNoon