Autoren:
(1) Yingxu He, Institut für Informatik, Nationaluniversität Singapur {[email protected]};
(2) Qiqi Sun, Hochschule für Biowissenschaften der Nankai-Universität {[email protected]}.
Die automatische Bildbeschriftung ist eine vielversprechende Technik zur Vermittlung visueller Informationen in natürlicher Sprache. Sie kann bei verschiedenen Aufgaben der Satellitenfernerkundung hilfreich sein, beispielsweise bei der Umweltüberwachung, Ressourcenverwaltung, Katastrophenmanagement usw. Eine der größten Herausforderungen in diesem Bereich ist jedoch der Mangel an groß angelegten Bildbeschriftungs-Datensätzen, da ihre Erstellung viel menschliches Fachwissen und Aufwand erfordert. Aktuelle Forschungen zu großen Sprachmodellen (LLMs) haben ihre beeindruckende Leistung beim Verstehen und Generieren natürlicher Sprache unter Beweis gestellt. Die meisten von ihnen können jedoch keine Bilder verarbeiten (GPT-3.5, Falcon, Claude usw.), während herkömmliche Beschriftungsmodelle, die mit allgemeinen Bodenansichtsbildern vortrainiert wurden, häufig keine detaillierten und genauen Beschriftungen für Luftbilder erstellen (BLIP, GIT, CM3, CM3Leon usw.). Um dieses Problem zu lösen, schlagen wir einen neuartigen Ansatz vor: Automatische Bildbeschriftung für Fernerkundungsbilder (ARSIC) zur automatischen Erfassung von Beschriftungen für Fernerkundungsbilder, indem LLMs bei der Beschreibung ihrer Objektanmerkungen angeleitet werden. Wir präsentieren außerdem ein Benchmark-Modell, das das vorab trainierte generative Bild-zu-Text-Modell (GIT) anpasst, um qualitativ hochwertige Bildunterschriften für Fernerkundungsbilder zu generieren. Unsere Auswertung zeigt die Wirksamkeit unseres Ansatzes zum Sammeln von Bildunterschriften für Fernerkundungsbilder.
Viele frühere Studien haben gezeigt, dass LLMs wie GPT-3.5 und GPT-4 zwar gut darin sind, Semantik zu verstehen, aber mit numerischen Daten und komplexen Schlussfolgerungen zu kämpfen haben. Um diese Einschränkung zu überwinden, nutzt ARSIC externe APIs, um einfache geografische Analysen von Bildern durchzuführen, wie z. B. Objektbeziehungen und Clustering. Wir führen Clustering für die Objekte durch und präsentieren die signifikanten geometrischen Beziehungen, damit LLM Zusammenfassungen erstellen kann. Die endgültige Ausgabe des LLM sind mehrere Bildunterschriften, die das Bild beschreiben, das dann anhand der Sprachkompetenz und der Übereinstimmung mit dem Originalbild weiter bewertet und in die engere Auswahl genommen wird.
Wir optimieren ein vorab trainiertes generatives Bild-zu-Text-Modell (GIT) anhand von 7.000 und 2.000 Bildunterschriftenpaaren aus den Xview- und DOTA-Datensätzen, die Satellitenbilder mit Begrenzungsrahmenanmerkungen für verschiedene Objekte wie Fahrzeuge, Bauwerke, Schiffe usw. enthalten. Wir evaluieren unseren Ansatz anhand des RSICD-Datensatzes, einem Benchmark-Datensatz für die Beschriftung von Satellitenbildern mit 10.892 Bildern und 31.783 von menschlichen Experten annotierten Beschriftungen. Wir entfernen Beschriftungen mit unsichtbaren Objekttypen aus den Trainingsdaten und erhalten 1746 Bilder mit mehr als 5.000 Beschriftungen, bei denen wir einen CIDEr-D-Score von 85,93 erreichen, was die Wirksamkeit und das Potenzial unseres Ansatzes für die automatische Bildbeschriftung in der Satellitenfernerkundung demonstriert. Insgesamt stellt diese Arbeit eine praktikable Möglichkeit dar, sie bei der Interpretation georäumlicher Datensätze anzuleiten und genaue Bildbeschriftungen für das Training durchgängiger Bildbeschriftungsmodelle zu generieren. Unser Ansatz reduziert den Bedarf an menschlichen Anmerkungen und kann leicht auf Datensätze oder Domänen angewendet werden.
Satellitenfernerkundung ist in zahlreichen Bereichen unverzichtbar, beispielsweise im Katastrophenmanagement, in der Umweltüberwachung und im Ressourcenmanagement. Dabei werden aus dem Weltraum aufgenommene Bilder analysiert, wobei der Schwerpunkt auf der Erkennung und Klassifizierung von Objekten auf der Erdoberfläche liegt, um nützliche räumliche Informationen zu erhalten. Da diese Bilder eine große Datenmenge enthalten können, hat sich die automatische Bildunterschrift als effiziente Methode erwiesen, um die visuellen Informationen in diesen Bildern in natürlicher Sprache zu interpretieren und zu vermitteln.
Trotz des großen Potenzials dieser Methode ist die große Herausforderung bei der automatischen Bildunterschrift für Satellitenfernerkundungsbilder der Mangel an großflächigen Bildunterschrift-Datensätzen. Die Erstellung solcher Datensätze ist arbeitsintensiv und erfordert erhebliches menschliches Fachwissen. Oftmals sind bereits vorhandene Modelle wie GPT3.5[7], Falcon und Claude nicht in ihrer Anwendbarkeit mangelhaft, da sie nicht in der Lage sind, numerische Daten zu interpretieren oder komplexe Schlussfolgerungen zu ziehen. Ebenso haben Modelle wie BLIP[5], GIT[9], CM3[1] und CM3Leon[12], die mit allgemeinen Bodenaufnahmen vortrainiert sind, Schwierigkeiten, präzise Bildunterschriften für Luftbilder zu erstellen. Diese Einschränkungen machen es schwierig, hochwertige automatische Bildunterschriften für Fernerkundungsbilder zu erstellen.
Um dieses Problem anzugehen, schlagen wir in dieser Studie einen neuartigen Ansatz vor: Automatische Beschriftung von Fernerkundungsbildern (Automatic Remote Sensing Image Captioning, ARSIC), der sowohl große Sprachmodelle als auch Satellitendaten nutzt, um qualitativ hochwertige Beschriftungen für Fernerkundungsbilder effizient zu generieren. Unsere Beiträge sind dreifach. Erstens entwickeln wir mehrere APIs für die geografische Analyse, um Cluster zu erkennen, von Objekten gebildete Formen zu identifizieren und Entfernungen zu berechnen, um ein besseres Verständnis des Bildes zu ermöglichen. Zweitens automatisieren wir den Prozess der Beschriftungserfassung, indem wir große Sprachmodelle anleiten, die Ergebnisse der geografischen APIs in Beschriftungen zusammenzufassen. Dadurch wird der Bedarf an menschlichen Anmerkungen erheblich reduziert. Schließlich liefern wir einen Benchmark, indem wir ein generatives Image2Text-Modell (GIT) an Bild-Beschriftungs-Paaren optimieren, die nach unserem ARSIC-Ansatz aus den Datensätzen Xview[4] und DOTA[2] gesammelt und darauf zugeschnitten wurden, qualitativ hochwertige und genaue Beschriftungen für Luftbilder zu generieren.
Die Wirksamkeit unseres Ansatzes wird durch strenge Tests mit dem RSICD[6]-Testdatensatz bestätigt, der einen neuen CIDEr-D[8]-Benchmark-Score in diesem Bereich setzt. Zusammenfassend stellt unsere Arbeit einen innovativen Ansatz zur Interpretation und Beschriftung von Fernerkundungsbildern dar - eine Methode, die nicht nur vielversprechend für die Optimierung von End-to-End-Bildbeschriftungsmodellen ist, sondern auch flexibel genug, um über Datensätze oder Domänen hinweg angewendet zu werden.
Dieses Dokument ist auf arxiv unter der Lizenz CC BY-NC-SA 4.0 DEED verfügbar .