paint-brush
Vers la génération automatique de légendes d'images satellites à l'aide de LLM : méthodologiepar@fewshot
131 lectures

Vers la génération automatique de légendes d'images satellites à l'aide de LLM : méthodologie

Trop long; Pour lire

Les chercheurs présentent ARSIC, une méthode de sous-titrage d’images de télédétection utilisant des LLM et des API, améliorant la précision et réduisant les besoins d’annotation humaine.
featured image - Vers la génération automatique de légendes d'images satellites à l'aide de LLM : méthodologie
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Auteurs:

(1) Yingxu He, Département d'informatique de l'Université nationale de Singapour {[email protected]} ;

(2) Qiqi Sun, Collège des sciences de la vie de l'Université de Nankai {[email protected]}.

Tableau des liens

2. Méthodologie

Dans cette section, nous décrivons notre approche proposée pour collecter automatiquement des légendes pour les images de télédétection en guidant les LLM pour décrire leurs annotations d'objets. Dans ce travail, nous limitons le nombre d'objets dans chaque image à 15 au maximum, ce qui garantit une disposition spatiale relativement simple pour le LLM. Notre approche comprend trois étapes principales : (1) développer des API pour effectuer une analyse géographique et décrire les relations spatiales entre les objets, (2) inciter l'API à générer des légendes à l'aide des API, et (3) évaluer et sélectionner les légendes. Nous expliquons chaque étape en détail ci-dessous.

2.1 API de relations spatiales

LLM est incompétent pour traiter les informations géographiques bidimensionnelles, nous avons donc mis en œuvre plusieurs approches analytiques pour analyser les relations spatiales entre les objets. Inspirés par les légendes fournies par l'article RSICD, nous nous sommes concentrés uniquement sur l'analyse des distances entre les objets, la concentration des emplacements d'objets, les formes formées par des groupes d'objets et les relations significatives entre les objets.

2.1.1 Distances

Dans les jeux de données Xview et Dota, la taille des objets varie beaucoup. Par conséquent, l’utilisation de la distance entre centres n’est pas appropriée pour les distances entre objets. Par exemple, même si les centres de deux grands bâtiments peuvent être assez éloignés l’un de l’autre, leurs murs intérieurs peuvent n’être qu’à quelques pas. Par conséquent, nous considérons les distances les plus courtes entre les boîtes englobantes comme leur distance. Pour la distance entre deux groupes d'objets, nous la représentons par la distance entre leur élément le plus proche, ce que l'on appelle normalement la mesure Single Linkage dans le domaine du clustering.

2.1.2 Regroupement

L'une des caractéristiques les plus importantes capturées par l'œil humain est la concentration d'objets en fonction de leur emplacement et de leur type. Par exemple, on a tendance à différencier facilement un véhicule circulant sur une autoroute de plusieurs bâtiments situés au bord de la route. D'un autre côté, les gens ont également tendance à prêter attention au voisin le plus proche des objets, par exemple, une voiture de tourisme à côté d'un camion est plus facile à attirer l'attention des gens qu'un bâtiment relativement plus éloigné du camion. Les algorithmes de clustering d'apprentissage automatique traditionnels incluent des algorithmes basés sur la distance tels que K-Means et le clustering hiérarchique, ainsi que le clustering basé sur la densité tel que DBSCAN et ses variantes. Cependant, l'algorithme K-Means ne parvient souvent pas à séparer les valeurs aberrantes des objets concentrés, alors que les avantages du clustering basé sur la densité pourraient être enterrés dans ce cas, où chaque image ne contient que moins de dix objets.


Dans ce travail, nous avons utilisé l'algorithme Minimum Spanning Tree (MST) pour connecter tous les objets de l'image et former des clusters en supprimant les arêtes considérablement longues du graphique. L'algorithme MST de Kruskal[3] prend en compte les voisins les plus proches des objets et ignore simultanément les connexions négligeables, garantissant que chaque bord d'arbre est aligné sur le comportement d'observation des humains. Nous avons fixé le seuil au 75 centile des pondérations de bord de l'ensemble de données. Les bords au-dessus de ce seuil ont été supprimés du graphique pour former des clusters, minimisant ainsi les distances intra-clusters et maximisant les distances inter-clusters. Pour encourager le regroupement d'objets du même type dans le même cluster, nous ajoutons une longueur supplémentaire aux distances entre les objets de types différents. La figure 1 donne une illustration détaillée de l'algorithme de clustering basé sur MST. Cette approche pourrait diviser précisément les objets par type, emplacement et proximité, ce qui profiterait à l'analyse géographique ultérieure.


Figure 1 : Illustration de l'algorithme de clustering basé sur MST. La figure (1) montre le graphique créé représentant l'arbre couvrant minimal. Une longueur supplémentaire est ajoutée à la distance entre les objets de différents types. La figure (2) montre les grappes formées en coupant des bords longs. La figure (3) projette l'emplacement des objets sur l'image réelle.

2.1.3 Forme géométrique

Inspirée par les légendes fournies dans l'ensemble de données RSICD, la forme de la ligne est considérée comme la forme fondamentale à détecter dans ce travail. Il semble très attrayant aux yeux humains et constitue l’élément de base de nombreuses autres formes complexes. Par exemple, le modèle de rue à grille carrée est l’un des modèles de rue les plus populaires utilisés dans les villes, où les lignes de bâtiments sont les éléments les plus fondamentaux. Indéniablement, d’autres formes pourraient également facilement attirer l’attention des gens, comme les cercles et les carrés. Néanmoins, dans le cadre de cette œuvre, où chaque image contient au maximum 15 objets, ceux-ci sont moins évidents et plus difficiles à détecter. Par conséquent, nous avons uniquement implémenté une méthode pour détecter les formes de lignes à partir de groupes d’objets en vérifiant si les lignes formées par les coins des cadres de délimitation sont parallèles.

2.1.4 Relation géométrique

Nous passons en revue certaines relations répertoriées dans l'article RSICD[6] et dressons notre liste de relations à inclure dans les légendes des images : "se tient seul", "à proximité", "dans une rangée", "entouré par", "entre ", et " des deux côtés de ". Nous avons modifié la relation "en lignes" du papier RSICD en "en ligne", car les objets dans différentes lignes peuvent être regroupés en différents groupes comme décrit dans la section 2.1.2, et toute forme de ligne possible sera détectée par l'identification de forme. algorithme décrit à la section 2.1.3. De plus, nous proposons une relation "entre" comme l'envers de "dans deux côtés de" pour différencier la situation où il n'y a que des objets des deux côtés des autres des objets encerclant les autres à 360◦. Dans ce travail, les approches décrites ci-dessus peuvent aborder les relations « autonomes », « proches » et « en ligne ». La relation « entouré de » n'est considérée que lorsque certains objets sont situés à l'intérieur de la frontière d'un autre groupe d'objets. La fonction détaillée est obtenue en traçant des liens entre les cases du milieu et celles extérieures et en calculant les angles entre elles. La mise en œuvre des relations « entre » et « dans les deux côtés de » est laissée aux travaux futurs.

2.2 Invite LLM

La deuxième étape de notre approche consiste à utiliser des invites pour guider le LLM afin de produire une légende suivant un modèle similaire. Avec les API implémentées dans la section 2.1, il existe de nombreuses options pour inciter le LLM et le guider pour générer les sous-titres idéaux. Suivant l’idée récemment populaire de traiter les LLM comme un contrôleur ou un répartiteur d’actions[13], une approche pourrait consister à permettre au modèle de langage de planifier ses actions et d’exécuter les fonctions dans des séquences pour obtenir des résultats d’analyse géographique utiles. Par exemple, l'approche ReAct[10] récemment développée met en synergie le processus de raisonnement et d'exécution du LLM pour améliorer sa capacité à gérer des tâches complexes. Il permet une grande flexibilité dans l'analyse géographique et une plus grande diversité dans les légendes générées. Néanmoins, le LLM a tendance à éprouver des difficultés à découvrir des relations géographiques accrocheuses et est facilement inondé d'informations moins importantes reçues au cours du processus d'exécution de l'action.


Pour résoudre le problème, nous avons adopté l'avantage de l'algorithme MST, qui révèle les voisins les plus importants pour les clusters et les objets autonomes, d'où nous pouvons facilement extraire les relations géographiques significatives. Plus précisément, nous répertorions la présence de chaque groupe dans chaque image avec leur combinaison et leurs formes détectées, ainsi que les objets autonomes. Les relations géométriques significatives entre les boîtes sont ensuite fournies pour donner au LLM une idée de leurs relations spatiales. Dans ce cas, nous présentons uniquement les arêtes supprimées lors de l’étape de clustering (section 2.1.2) qui connecte les clusters et les objets autonomes. Une illustration des relations spatiales présentées et des légendes créées par LLM est fournie dans la figure 2.

2.2.1 Diversification des sous-titres

Bien que l'invite fournisse déjà les informations de clustering nécessaires et les relations spatiales entre les objets, LLM n'est pas censé uniquement intégrer les informations de clustering dans les relations spatiales et créer des légendes, ce qui peut déjà être fait par une méthode basée sur un modèle ou sur des règles. Le rôle le plus important joué par LLM est de comprendre la disposition spatiale actuelle et de paraphraser les relations potentiellement redondantes ou insignifiantes dans des légendes appropriées. Par exemple, dans la figure 2 (2), l'algorithme basé sur MST détecte qu'un bâtiment est plus proche de certains bâtiments que d'autres. Cependant, comme l’ensemble de l’image est occupé par différents bâtiments, une légende répétant cette relation pourrait apporter confusion et ambiguïté aux modèles d’apprentissage profond en aval et même aux lecteurs humains. Dans ce cas, LLM joue un rôle essentiel dans l’évaluation de la signification de chaque relation spatiale et dans la paraphrase nécessaire.


Dans ce travail, le comportement de synthèse de LLM est assuré en fournissant les exemples nécessaires dans l'invite, qui est plus fréquemment appelée technique d'invite « Few-Shot ». Nous avons fourni plusieurs exemples dans lesquels LLM est censé mettre en synergie les résultats du clustering avec les relations spatiales pour créer des légendes dans ses propres mots. D'autres techniques d'incitation pourraient potentiellement atteindre le même objectif, comme l'ajout de descriptions pour les comportements attendus ou la décomposition du processus de raisonnement à l'aide des techniques de chaîne de pensée ou d'arbre de pensée. Néanmoins, étant donné que le format d’entrée et le format de sortie attendu sont déjà compliqués, ces stratégies d’incitation pourraient apporter beaucoup plus de complexité et de difficulté au processus d’écriture d’invite. De plus, nos résultats expérimentaux montrent que l’incitation à quelques tirs fonctionne de manière plus stable que n’importe laquelle des techniques mentionnées ci-dessus.

2.2.2 Formatage des réponses

De plus, pour limiter efficacement la réponse à un format lisible par ordinateur, nous demandons explicitement au LLM de générer les légendes au format d'une liste Python, dont les informations détaillées ont déjà été incluses dans le corpus de pré-formation du LLM et bien intégrées dans son paramétrique. la mémoire, plutôt


Figure 2 : Exemples d’informations d’analyse géographique et de légendes générées par LLM. Pour chaque exemple, les informations sur les objets et les modèles géographiques sont fournis par nos API implémentées et transmises au LLM en entrée.


que tout autre format personnalisé qui nécessite des explications supplémentaires. Il est souhaité qu'il n'y ait aucun identifiant des groupes d'objets dans la réponse LLM, ce qui est à nouveau réalisé en fournissant des exemples dans l'invite, comme introduit dans la section précédente. Il a été indiqué dans de nombreux travaux de recherche récents que l'invite à quelques tirs fonctionne mieux que l'invite à présentation nulle avec des instructions prolongées[11]. Les procédures détaillées peuvent être présentées dans la figure 3.

2.3 Évaluation et sélection des sous-titres

La troisième étape de notre approche consiste à évaluer et sélectionner la meilleure légende pour chaque image. Nous utilisons deux critères pour évaluer la qualité des légendes : (a) la qualité des légendes, qui mesure dans quelle mesure la légende correspond à l'annotation de vérité terrain, et (b) la diversité des légendes, qui mesure la différence entre la légende et les autres légendes générées à partir d'autres images. . Nous utilisons la procédure suivante :


• Nous filtrons les légendes contenant des mots-clés indésirables tels que l'identifiant du groupe, comme « groupe 0 » ou l'ordre du groupe, comme « le premier groupe », ce qui pourrait prêter à confusion.


• Nous utilisons CLIP pré-entraîné pour calculer un score pour chaque légende en fonction de sa correspondance avec l'image d'entrée. L'évaluateur est formé sur un ensemble de données de légendes d'images à grande échelle qui couvre divers domaines et scénarios.


• Nous utilisons une mesure de similarité pour calculer un score pour chaque légende en fonction de la diversité des légendes. La mesure de similarité compare chaque légende avec les légendes générées à partir d'autres images pour éviter des descriptions trop vagues et trop larges.


• Nous combinons les deux scores en utilisant une formule de moyenne pondérée pour obtenir un score final pour chaque légende.


• Nous sélectionnons la légende avec le score final le plus élevé comme meilleure légende pour chaque image.


Figure 3 : Illustration de la structure de notre invite et du résultat de LLM. D'autres exemples sont donnés au LLM dans l'invite, alors qu'un seul est inclus ici à des fins de démonstration.



Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.