Auteurs:
(1) Yingxu He, Département d'informatique de l'Université nationale de Singapour {[email protected]} ;
(2) Qiqi Sun, Collège des sciences de la vie de l'Université de Nankai {[email protected]}.
Le sous-titrage automatique des images est une technique prometteuse pour transmettre des informations visuelles en langage naturel. Cela peut être utile à diverses tâches de télédétection par satellite, telles que la surveillance de l'environnement, la gestion des ressources, la gestion des catastrophes, etc. Cependant, l'un des principaux défis dans ce domaine est le manque d'ensembles de données de légendes d'images à grande échelle, car ils nécessitent beaucoup de l'expertise humaine et de l'effort de création. Des recherches récentes sur les grands modèles de langage (LLM) ont démontré leurs performances impressionnantes dans les tâches de compréhension et de génération du langage naturel. Néanmoins, la plupart d'entre eux ne peuvent pas gérer les images (GPT-3.5, Falcon, Claude, etc.), tandis que les modèles de sous-titres conventionnels pré-entraînés sur des images générales vues du sol ne parviennent souvent pas à produire des légendes détaillées et précises pour les images aériennes (BLIP, GIT, CM3, CM3Léon, etc.). Pour résoudre ce problème, nous proposons une nouvelle approche : le sous-titrage automatique des images de télédétection (ARSIC) pour collecter automatiquement les légendes des images de télédétection en guidant les LLM pour décrire leurs annotations d'objets. Nous présentons également un modèle de référence qui adapte le modèle génératif image2text (GIT) pré-entraîné pour générer des légendes de haute qualité pour les images de télédétection. Notre évaluation démontre l'efficacité de notre approche pour collecter des légendes pour les images de télédétection.
De nombreuses études antérieures ont montré que les LLM tels que GPT-3.5 et GPT-4 sont bons pour comprendre la sémantique mais ont du mal avec les données numériques et les raisonnements complexes. Pour surmonter cette limitation, ARSIC exploite des API externes pour effectuer une analyse géographique simple des images, telle que les relations entre objets et le clustering. Nous effectuons un clustering sur les objets et présentons les relations géométriques significatives pour que LLM puisse réaliser des résumés. Le résultat final du LLM consiste en plusieurs légendes décrivant l'image, qui seront ensuite classées et présélectionnées en fonction de la maîtrise de la langue et de la cohérence avec l'image originale.
Nous affinons un modèle génératif image2text (GIT) pré-entraîné sur 7 000 et 2 000 paires d'images-légendes des ensembles de données Xview et DOTA, qui contiennent des images satellite avec des annotations de cadre de délimitation pour divers objets, tels que des véhicules, des constructions, des navires. , etc. Nous évaluons notre approche sur le jeu de données RSICD, un jeu de données de référence pour le sous-titrage d'images satellite avec 10 892 images et 31 783 légendes annotées par des experts humains. Nous supprimons des données de formation les légendes avec des types d'objets invisibles et obtenons 1 746 images avec plus de 5 000 légendes, où nous obtenons un score CIDEr-D de 85,93, démontrant l'efficacité et le potentiel de notre approche de sous-titrage automatique d'images dans la télédétection par satellite. Dans l’ensemble, ce travail présente un moyen réalisable de les guider dans l’interprétation des ensembles de données géospatiales et la génération de légendes d’images précises pour la formation de modèles de sous-titrage d’images de bout en bout. Notre approche réduit le besoin d’annotation humaine et peut être facilement appliquée à des ensembles de données ou à des domaines.
La télédétection par satellite est essentielle dans de nombreux domaines, tels que la gestion des catastrophes, la surveillance environnementale et la gestion des ressources. Il s'agit d'analyser des images capturées depuis l'espace, en se concentrant sur la détection et la classification des objets à la surface de la Terre pour produire des informations spatiales utiles. Comme ces images peuvent contenir une grande quantité de données, le sous-titrage automatique des images est apparu comme une méthode efficace pour interpréter et transmettre les informations visuelles contenues dans ces images en utilisant le langage naturel.
Malgré son potentiel important, un défi majeur dans le sous-titrage automatique des images de télédétection par satellite est la rareté des ensembles de données de légende d’images à grande échelle. La création de tels ensembles de données demande beaucoup de main-d’œuvre et nécessite une expertise humaine importante. Souvent, les modèles préexistants, tels que GPT3.5[7], Falcon et Claude, ne sont pas suffisamment applicables car ils ne sont pas équipés pour interpréter des données numériques ou effectuer des raisonnements complexes. De même, des modèles comme BLIP[5], GIT[9], CM3[1] et CM3Leon[12] qui sont pré-entraînés sur des images générales vues du sol ont du mal à générer des légendes précises pour les images aériennes. Ces limitations rendent difficile la réalisation d’un sous-titrage automatique de haute qualité pour les images de télédétection.
Pour faire face à ce problème, dans cette étude, nous proposons une nouvelle approche : le sous-titrage automatique des images de télédétection (ARSIC), qui exploite à la fois de grands modèles linguistiques et des données satellite pour générer efficacement des sous-titres de haute qualité pour les images de télédétection. Nos contributions sont triples. Tout d’abord, nous développons plusieurs API d’analyse géographique pour détecter des clusters, identifier les formes formées par les objets et calculer les distances pour offrir une meilleure compréhension de l’image. Deuxièmement, nous automatisons le processus de collecte de légendes en guidant de grands modèles linguistiques pour résumer les résultats des API géographiques en légendes. Cela réduit considérablement le besoin d’annotation humaine. Enfin, nous fournissons une référence en affinant un modèle génératif image2text (GIT) sur les paires image-légende collectées suite à notre approche ARSIC à partir des ensembles de données Xview[4] et DOTA[2] et adapté pour générer des légendes précises et de haute qualité pour les images aériennes. .
L'efficacité de notre approche est validée par des tests rigoureux sur l'ensemble de données de test RSICD[6], établissant un nouveau score de référence CIDEr-D[8] dans le domaine. En résumé, notre travail présente une approche innovante en matière d'interprétation et de sous-titrage des images de télédétection - une méthode non seulement prometteuse pour optimiser les modèles de sous-titrage d'images de bout en bout, mais également suffisamment flexible pour être appliquée à des ensembles de données ou à des domaines.
Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.