paint-brush
Auf dem Weg zur automatischen Generierung von Bildunterschriften für Satellitenbilder mithilfe von LLMs: Methodikvon@fewshot
177 Lesungen

Auf dem Weg zur automatischen Generierung von Bildunterschriften für Satellitenbilder mithilfe von LLMs: Methodik

Zu lang; Lesen

Forscher präsentieren ARSIC, eine Methode zur Beschriftung von Fernerkundungsbildern unter Verwendung von LLMs und APIs, die die Genauigkeit verbessert und den Bedarf menschlicher Anmerkungen reduziert.
featured image - Auf dem Weg zur automatischen Generierung von Bildunterschriften für Satellitenbilder mithilfe von LLMs: Methodik
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Autoren:

(1) Yingxu He, Institut für Informatik, Nationaluniversität Singapur {[email protected]};

(2) Qiqi Sun, Hochschule für Biowissenschaften der Nankai-Universität {[email protected]}.

Linktabelle

2. Methodik

In diesem Abschnitt beschreiben wir unseren vorgeschlagenen Ansatz zum automatischen Sammeln von Bildunterschriften für Fernerkundungsbilder, indem wir LLMs anleiten, ihre Objektanmerkungen zu beschreiben. In dieser Arbeit begrenzen wir die Anzahl der Objekte in jedem Bild auf nicht mehr als 15, was eine relativ einfache räumliche Anordnung für das LLM gewährleistet. Unser Ansatz besteht aus drei Hauptschritten: (1) Entwicklung von APIs zur Durchführung geografischer Analysen und Beschreibung räumlicher Beziehungen zwischen Objekten, (2) Aufforderung an die API, mit Hilfe von APIs Bildunterschriften zu generieren, und (3) Auswertung und Auswahl von Bildunterschriften. Im Folgenden erläutern wir jeden Schritt im Detail.

2.1 APIs für räumliche Beziehungen

LLM ist nicht in der Lage, zweidimensionale geografische Informationen zu verarbeiten, daher haben wir mehrere analytische Ansätze implementiert, um die räumlichen Beziehungen zwischen Objekten zu analysieren. Inspiriert von den Überschriften im RSICD-Artikel haben wir uns nur auf die Analyse der Entfernungen zwischen Objekten, der Konzentration von Objektstandorten, der von Objektgruppen gebildeten Formen und der signifikanten Beziehungen zwischen Objekten konzentriert.

2.1.1 Entfernung

In den Xview- und Dota-Datensätzen variiert die Größe der Objekte stark. Daher ist es ungeeignet, die Distanz zwischen Mittelpunkten für die Distanzen zwischen Objekten zu verwenden. Obwohl beispielsweise die Mittelpunkte zweier großer Gebäude ziemlich weit voneinander entfernt sein können, sind ihre Innenwände möglicherweise nur wenige Schritte voneinander entfernt. Daher betrachten wir die kürzesten Distanzen zwischen Begrenzungsrahmen als ihre Distanz. Für die Distanz zwischen zwei Objektgruppen stellen wir sie mit der Distanz zwischen ihrem nächsten Element dar, was im Bereich des Clusterings normalerweise als Single Linkage-Maß bezeichnet wird.

2.1.2 Clustering

Eines der wichtigsten Merkmale, das das menschliche Auge wahrnimmt, ist die Konzentration von Objekten basierend auf ihrem Standort und Typ. So kann man beispielsweise ein Fahrzeug auf einer Autobahn leicht von mehreren Gebäuden am Straßenrand unterscheiden. Andererseits achten Menschen auch auf den nächsten Nachbarn der Objekte. So zieht beispielsweise ein Pkw neben einem Lkw leichter die Aufmerksamkeit auf sich als ein Gebäude, das relativ weiter vom Lkw entfernt ist. Zu den traditionellen Clustering-Algorithmen des maschinellen Lernens gehören distanzbasierte Algorithmen wie K-Means und hierarchisches Clustering sowie dichtebasiertes Clustering wie DBSCAN und seine Varianten. Der K-Means-Algorithmus kann Ausreißer jedoch häufig nicht von konzentrierten Objekten trennen. Die Vorteile des dichtebasierten Clusterings liegen in diesem Fall möglicherweise nicht, da jedes Bild weniger als zehn Objekte enthält.


In dieser Arbeit verwendeten wir den Minimum Spanning Tree (MST)-Algorithmus, um alle Objekte im Bild zu verbinden und Cluster zu bilden, indem wir signifikant lange Kanten aus dem Graphen entfernten. Kruskals MST-Algorithmus[3] berücksichtigt die nächsten Nachbarn der Objekte und überspringt gleichzeitig vernachlässigbare Verbindungen, um sicherzustellen, dass jede Baumkante dem Beobachtungsverhalten des Menschen entspricht. Wir setzten den Schwellenwert auf das 75. Perzentil der Kantengewichte aus dem gesamten Datensatz. Kanten über diesem Schwellenwert wurden aus dem Graphen entfernt, um Cluster zu bilden, wodurch die Distanzen innerhalb der Cluster minimiert und die Distanzen zwischen den Clustern maximiert wurden. Um die Gruppierung von Objekten desselben Typs im selben Cluster zu fördern, fügten wir den Distanzen zwischen Objekten unterschiedlichen Typs zusätzliche Länge hinzu. Abbildung 1 zeigt eine detaillierte Darstellung des MST-basierten Clusteralgorithmus. Dieser Ansatz könnte Objekte präzise nach Typ, Standort und Nähe aufteilen, was der nachfolgenden geografischen Analyse zugutekommt.


Abbildung 1: Illustration des MST-basierten Clusteralgorithmus. Abbildung (1) zeigt den erstellten Graphen, der den minimalen Spannbaum darstellt. Der Abstand zwischen Objekten unterschiedlichen Typs wird durch zusätzliche Länge vergrößert. Abbildung (2) zeigt die Cluster, die durch das Abschneiden langer Kanten gebildet werden. Abbildung (3) projiziert die Position der Objekte auf das reale Bild.

2.1.3 Geometrische Form

Inspiriert durch die Bildunterschriften im RSICD-Datensatz wird die Linienform als die grundlegende Form betrachtet, die in dieser Arbeit erkannt werden soll. Sie erscheint dem menschlichen Auge am ansprechendsten und ist das Grundelement vieler anderer komplizierter Formen. Beispielsweise ist das quadratische Straßenraster eines der beliebtesten Straßenmuster in Städten, bei denen Gebäudereihen die grundlegendsten Elemente sind. Unbestreitbar könnten auch andere Formen leicht die Aufmerksamkeit der Menschen auf sich ziehen, wie etwa Kreise und Quadrate. Im Rahmen dieser Arbeit, in der jedes Bild höchstens 15 Objekte enthält, sind sie jedoch weniger offensichtlich und schwieriger zu erkennen. Daher haben wir lediglich eine Methode implementiert, um Linienformen aus Objektgruppen zu erkennen, indem wir prüfen, ob die von den Ecken der Begrenzungsrahmen gebildeten Linien parallel sind.

2.1.4 Geometrische Beziehung

Wir überprüfen einige im RSICD-Artikel [6] aufgeführte Beziehungen und erstellen eine Liste von Beziehungen, die in die Bildunterschriften aufgenommen werden sollen: „steht allein“, „nahe“, „in einer Reihe“, „umgeben von“, „zwischen“ und „auf zwei Seiten von“. Wir haben die Beziehung „in Reihen“ aus dem RSICD-Artikel in „in einer Reihe“ geändert, da Objekte in verschiedenen Reihen in verschiedene Gruppen gruppiert werden können, wie in Abschnitt 2.1.2 beschrieben, und jede mögliche Linienform vom in Abschnitt 2.1.3 beschriebenen Formerkennungsalgorithmus erkannt wird. Zusätzlich schlagen wir eine Beziehung „zwischen“ als Kehrseite von „auf zwei Seiten von“ vor, um die Situation zu unterscheiden, in der sich nur Objekte auf beiden Seiten anderer befinden, von Objekten, die andere um 360° umkreisen. In dieser Arbeit können die oben beschriebenen Ansätze die Beziehungen „steht allein“, „nahe“ und „in einer Reihe“ behandeln. Die Beziehung „umgeben von“ wird nur berücksichtigt, wenn sich bestimmte Objekte innerhalb der Grenze einer anderen Objektgruppe befinden. Die detaillierte Funktion wird erreicht, indem Verbindungen von den Kästen in der Mitte zu den äußeren gezogen und die Winkel zwischen ihnen berechnet werden. Die Implementierung der Beziehungen „zwischen“ und „auf zwei Seiten von“ bleibt zukünftigen Arbeiten überlassen.

2.2 LLM-Eingabeaufforderung

Der zweite Schritt unseres Ansatzes besteht darin, Eingabeaufforderungen zu verwenden, um das LLM dazu zu bringen, eine Überschrift nach einem ähnlichen Muster zu erstellen. Mit den in Abschnitt 2.1 implementierten APIs gibt es viele Möglichkeiten, das LLM zu veranlassen und es dazu zu bringen, die idealen Überschriften zu generieren. Nach der kürzlich populären Idee, die LLMs als Controller oder Aktionsdispatcher zu behandeln[13], könnte ein Ansatz darin bestehen, dem Sprachmodell zu erlauben, seine Aktionen zu planen und die Funktionen in Sequenzen auszuführen, um hilfreiche geografische Analyseergebnisse zu erhalten. Beispielsweise synergisiert der kürzlich entwickelte ReAct[10]-Ansatz den Denk- und Ausführungsprozess des LLM, um seine Fähigkeit zur Bewältigung komplexer Aufgaben zu verbessern. Er ermöglicht große Flexibilität bei der geografischen Analyse und eine größere Vielfalt bei den generierten Überschriften. Dennoch hat das LLM tendenziell Schwierigkeiten, auffällige geografische Beziehungen zu entdecken, und wird während des Aktionsausführungsprozesses leicht mit weniger wichtigen Informationen überflutet.


Um das Problem zu lösen, haben wir den Vorteil des MST-Algorithmus genutzt, der die wichtigsten Nachbarn sowohl für Cluster als auch für eigenständige Objekte aufdeckt, aus denen wir die signifikanten geografischen Beziehungen leicht extrahieren können. Genauer gesagt listen wir das Vorhandensein jeder Gruppe in jedem Bild mit ihrer Kombination und den erkannten Formen zusammen mit eigenständigen Objekten auf. Die signifikanten geometrischen Beziehungen zwischen den Boxen werden dann bereitgestellt, um dem LLM ein Gefühl für ihre räumlichen Beziehungen zu vermitteln. In diesem Fall stellen wir nur die Kanten dar, die während des Clustering-Schritts (Abschnitt 2.1.2) entfernt wurden und Cluster und eigenständige Objekte verbinden. Eine Darstellung der von LLM dargestellten räumlichen Beziehungen und der von LLM erstellten Bildunterschriften finden Sie in Abbildung 2.

2.2.1 Diversifizierung der Bildunterschriften

Obwohl die Eingabeaufforderung bereits die notwendigen Clusterinformationen und räumlichen Beziehungen zwischen Objekten bereitstellt, soll LLM nicht nur die Clusterinformationen in die räumlichen Beziehungen einbringen und Bildunterschriften erstellen, was bereits mit einer vorlagen- oder regelbasierten Methode erledigt werden kann. Die wichtigste Rolle von LLM besteht darin, die aktuelle räumliche Anordnung zu verstehen und die möglicherweise redundanten oder unbedeutenden Beziehungen in geeignete Bildunterschriften umzuschreiben. In Abbildung 2 (2) beispielsweise erkennt der MST-basierte Algorithmus, dass ein Gebäude einigen Gebäuden näher ist als anderen. Da das gesamte Bild jedoch aus verschiedenen Gebäuden besteht, könnte eine Bildunterschrift, die diese Beziehung wiederholt, bei den nachgelagerten Deep-Learning-Modellen und sogar beim menschlichen Leser Verwirrung und Mehrdeutigkeit stiften. In diesem Fall spielt LLM eine entscheidende Rolle bei der Bewertung der Bedeutung jeder räumlichen Beziehung und der erforderlichen Umschreibung.


In dieser Arbeit wird das zusammenfassende Verhalten von LLM sichergestellt, indem die erforderlichen Beispiele in der Eingabeaufforderung bereitgestellt werden, was häufiger als „Few-Shot“-Eingabeaufforderungstechnik bezeichnet wird. Wir haben mehrere Beispiele bereitgestellt, bei denen LLM die Clusterergebnisse mit den räumlichen Beziehungen synergisieren soll, um Überschriften in eigenen Worten zu erstellen. Andere Eingabeaufforderungstechniken könnten möglicherweise dasselbe Ziel erreichen, z. B. das Hinzufügen von Beschreibungen für die erwarteten Verhaltensweisen oder das Aufschlüsseln des Denkprozesses mithilfe von Gedankenketten- oder Gedankenbaumtechniken. Angesichts der Tatsache, dass das Eingabe- und das erwartete Ausgabeformat bereits kompliziert sind, könnten diese Eingabeaufforderungsstrategien jedoch viel mehr Komplexität und Schwierigkeit in den Eingabeaufforderungsschreibprozess bringen. Darüber hinaus zeigen unsere experimentellen Ergebnisse, dass die Eingabeaufforderung mit wenigen Schüssen stabiler funktioniert als jede der oben genannten Techniken.

2.2.2 Antwortformatierung

Um die Antwort effektiv auf ein computerlesbares Format zu beschränken, weisen wir den LLM explizit an, die Überschriften im Format einer Python-Liste auszugeben, deren detaillierte Informationen bereits im Vortrainingskorpus des LLM enthalten und in seinem parametrischen Speicher gut eingebettet sind, anstatt


Abbildung 2: Beispiele für geografische Analyseinformationen und Bildunterschriften, die von LLM generiert werden. Für jedes Beispiel werden Objektinformationen und geografische Muster von unseren implementierten APIs bereitgestellt und dem LLM als Eingabe übergeben.


als andere benutzerdefinierte Formate, die zusätzliche Erklärungen erfordern. Es ist erwünscht, keine IDs der Objektgruppen in der LLM-Antwort zu haben, was wiederum durch die Bereitstellung von Beispielen in der Eingabeaufforderung erreicht wird, wie im vorherigen Abschnitt erläutert. In vielen aktuellen Forschungsarbeiten wurde festgestellt, dass die Eingabeaufforderung mit wenigen Versuchen besser funktioniert als die Eingabeaufforderung mit Null-Show und langen Anweisungen[11]. Die detaillierten Verfahren sind in Abbildung 3 dargestellt.

2.3 Auswertung und Auswahl der Untertitel

Der dritte Schritt unseres Ansatzes besteht darin, für jedes Bild die beste Bildunterschrift zu bewerten und auszuwählen. Wir verwenden zwei Kriterien, um die Qualität der Bildunterschriften zu bewerten: (a) Bildunterschriftenqualität, die angibt, wie gut die Bildunterschrift mit der Ground-Truth-Annotation übereinstimmt, und (b) Bildunterschriftenvielfalt, die angibt, wie sehr sich die Bildunterschrift von anderen Bildunterschriften unterscheidet, die aus anderen Bildern generiert wurden. Wir verwenden das folgende Verfahren:


• Wir filtern Überschriften heraus, die unerwünschte Schlüsselwörter enthalten, wie etwa die Gruppen-ID (z. B. „Gruppe 0“) oder die Reihenfolge der Gruppe (z. B. „die erste Gruppe“), was zu Verwirrung führen könnte.


• Wir verwenden vorab trainiertes CLIP, um für jede Bildunterschrift eine Punktzahl zu berechnen, die auf ihrer Übereinstimmung mit dem Eingabebild basiert. Der Bewerter wird anhand eines umfangreichen Bildunterschriften-Datensatzes trainiert, der verschiedene Bereiche und Szenarien abdeckt.


• Wir verwenden ein Ähnlichkeitsmaß, um für jede Bildunterschrift basierend auf der Vielfalt der Bildunterschriften eine Punktzahl zu berechnen. Das Ähnlichkeitsmaß vergleicht jede Bildunterschrift mit Bildunterschriften, die aus anderen Bildern generiert wurden, um zu vage und weit gefasste Beschreibungen zu vermeiden.


• Wir kombinieren beide Bewertungen mithilfe einer gewichteten Durchschnittsformel, um eine endgültige Bewertung für jede Beschriftung zu erhalten.


• Wir wählen die Beschriftung mit der höchsten Endpunktzahl als beste Beschriftung für jedes Bild aus.


Abbildung 3: Darstellung der Struktur unserer Eingabeaufforderung und der Ausgabe von LLM. In der Eingabeaufforderung werden dem LLM weitere Beispiele gegeben, während hier nur eines zur Demonstration enthalten ist.