paint-brush
Hacia la generación automática de subtítulos de imágenes satelitales mediante LLM: metodologíapor@fewshot
131 lecturas

Hacia la generación automática de subtítulos de imágenes satelitales mediante LLM: metodología

Demasiado Largo; Para Leer

Los investigadores presentan ARSIC, un método para el subtitulado de imágenes mediante teledetección utilizando LLM y API, que mejora la precisión y reduce las necesidades de anotaciones humanas.
featured image - Hacia la generación automática de subtítulos de imágenes satelitales mediante LLM: metodología
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Autores:

(1) Yingxu He, Departamento de Ciencias de la Computación de la Universidad Nacional de Singapur {[email protected]};

(2) Qiqi Sun, Facultad de Ciencias Biológicas de la Universidad de Nankai {[email protected]}.

Tabla de enlaces

2. Metodología

En esta sección, describimos nuestro enfoque propuesto para recopilar automáticamente subtítulos para imágenes de detección remota guiando a los LLM para que describan las anotaciones de sus objetos. En este trabajo, limitamos la cantidad de objetos en cada imagen a no más de 15, lo que garantiza un diseño espacial relativamente simple para el LLM. Nuestro enfoque consta de tres pasos principales: (1) desarrollar API para realizar análisis geográficos y describir relaciones espaciales entre objetos, (2) solicitar a la API que genere subtítulos con la ayuda de las API y (3) evaluación y selección de subtítulos. Te explicamos cada paso en detalle a continuación.

2.1 API de relaciones espaciales

LLM es incompetente en el procesamiento de información geográfica bidimensional, por lo que implementamos varios enfoques analíticos para analizar las relaciones espaciales entre objetos. Inspirándonos en los títulos proporcionados por el artículo de RSICD, solo nos centramos en analizar las distancias entre objetos, la concentración de ubicaciones de objetos, las formas formadas por grupos de objetos y las relaciones significativas entre objetos.

2.1.1 Distancia

En los conjuntos de datos de Xview y Dota, el tamaño de los objetos varía mucho. Por tanto, utilizar la distancia entre centros no es apropiado para las distancias entre objetos. Por ejemplo, aunque los centros de dos grandes edificios pueden estar bastante separados, sus paredes interiores pueden estar a sólo unos pasos de distancia. Por lo tanto, consideramos las distancias más cortas entre cuadros delimitadores como su distancia. Para la distancia entre dos grupos de objetos, la representamos con la distancia entre su elemento más cercano, que normalmente se conoce como medida de vínculo único en el campo de la agrupación.

2.1.2 Agrupación

Una de las características más importantes captadas por el ojo humano es la concentración de objetos según su ubicación y tipo; por ejemplo, se tiende a diferenciar fácilmente un vehículo que circula por una autopista de varios edificios que se encuentran junto a la misma. Por otro lado, las personas también tienden a prestar atención al vecino más cercano a los objetos, por ejemplo, es más fácil llamar la atención de un automóvil junto a un camión que de un edificio relativamente más alejado del camión. Los algoritmos de agrupamiento de aprendizaje automático tradicionales incluyen algoritmos basados en la distancia, como K-Means y agrupamiento jerárquico, y agrupamientos basados en densidad, como DBSCAN y sus variantes. Sin embargo, el algoritmo K-Means a menudo no logra separar los valores atípicos de los objetos concentrados, mientras que los beneficios de la agrupación basada en la densidad podrían quedar ocultos en este caso, donde cada imagen solo contiene menos de diez objetos.


En este trabajo, utilizamos el algoritmo de árbol de expansión mínima (MST) para conectar todos los objetos en la imagen y formar grupos eliminando bordes significativamente largos del gráfico. El algoritmo MST de Kruskal[3] considera los vecinos más cercanos de los objetos y simultáneamente omite conexiones insignificantes, asegurando que cada borde del árbol esté alineado con el comportamiento de observación de los humanos. Establecimos el umbral en el percentil 75 de los pesos de los bordes de todo el conjunto de datos. Los bordes por encima de este umbral se eliminaron del gráfico para formar grupos, minimizando las distancias entre grupos y maximizando las distancias entre grupos. Para fomentar la agrupación de objetos del mismo tipo en el mismo grupo, agregamos longitud adicional a las distancias entre objetos de diferentes tipos. La Figura 1 ofrece una ilustración detallada del algoritmo de agrupamiento basado en MST. Este enfoque podría dividir con precisión los objetos por tipo, ubicación y proximidad, lo que beneficia el análisis geográfico posterior.


Figura 1: Ilustración del algoritmo de agrupamiento basado en MST. La Figura (1) muestra el gráfico creado que representa el árbol de expansión mínimo. Se agrega longitud adicional a la distancia entre objetos de diferentes tipos. La Figura (2) muestra los grupos formados cortando bordes largos. La figura (3) proyecta la ubicación de los objetos en la imagen real.

2.1.3 Forma geométrica

Inspirándose en los títulos proporcionados en el conjunto de datos RSICD, la forma de la línea se considera la forma fundamental que se detectará en este trabajo. Parece más atractivo para los ojos humanos y el elemento básico de muchas otras formas complicadas. Por ejemplo, el patrón de calles en cuadrícula cuadrada es uno de los patrones de calles más populares utilizados en las ciudades, donde las líneas de edificios son los elementos más fundamentales. Sin lugar a dudas, otras formas también podrían atraer fácilmente la atención de las personas, como círculos y cuadrados. Sin embargo, en el contexto de este trabajo, donde cada imagen contiene como máximo 15 objetos, son menos evidentes y más difíciles de detectar. Por lo tanto, solo implementamos un método para detectar formas de líneas de grupos de objetos inspeccionando si las líneas formadas por las esquinas de los cuadros delimitadores son paralelas.

2.1.4 Relación geométrica

Revisamos algunas relaciones enumeradas en el documento RSICD[6] y presentamos nuestra lista de relaciones que se incluirán en los títulos de las imágenes: "está solo", "cerca", "en una fila", "rodeado de", "entre ", y "en dos lados de". Modificamos la relación "en filas" del papel RSICD a "en una fila", ya que los objetos en diferentes filas se pueden agrupar en diferentes grupos como se describe en la sección 2.1.2, y cualquier posible forma de línea será detectada por la identificación de forma. algoritmo descrito en la sección 2.1.3. Además, proponemos una relación "entre" como la otra cara de "en dos lados de" para diferenciar la situación en la que solo hay objetos en los dos lados de otros de los objetos que rodean a otros 360◦. En este trabajo, los enfoques descritos anteriormente pueden abordar las relaciones "independientes", "cercanas" y "en una fila". La relación "rodeado de" sólo se considera cuando ciertos objetos se ubican dentro de la frontera de otro grupo de objetos. La función detallada se logra dibujando enlaces desde los cuadros del medio hasta los exteriores y calculando los ángulos entre ellos. La aplicación de las relaciones "entre" y "en dos partes de" queda para trabajos futuros.

2.2 Solicitudes de LLM

El segundo paso de nuestro enfoque es utilizar indicaciones para guiar al LLM a producir un título siguiendo un patrón similar. Con las API implementadas en la sección 2.1, hay muchas opciones para solicitar al LLM y guiarlo para que genere los subtítulos ideales. Siguiendo la idea recientemente popular de tratar a los LLM como un controlador o despachador de acciones[13], un enfoque podría ser permitir que el modelo de lenguaje planifique sus acciones y ejecute las funciones en secuencias para obtener resultados útiles de análisis geográfico. Por ejemplo, el enfoque ReAct[10] desarrollado recientemente crea sinergias entre el proceso de razonamiento y ejecución de LLM para mejorar su capacidad de manejar tareas complejas. Permite una gran flexibilidad en el análisis geográfico y una mayor diversidad en los subtítulos generados. No obstante, el LLM tiende a experimentar dificultades para descubrir relaciones geográficas llamativas y se ve fácilmente inundado de información menos importante recibida durante el proceso de ejecución de la acción.


Para resolver el problema, adoptamos la ventaja del algoritmo MST, que revela los vecinos más importantes tanto para grupos como para objetos independientes, de donde podemos extraer fácilmente las relaciones geográficas significativas. Más específicamente, enumeramos la presencia de cada grupo en cada imagen con su combinación y formas detectadas, junto con objetos independientes. Luego se proporcionan las relaciones geométricas significativas entre las cajas para darle al LLM una idea de sus relaciones espaciales. En este caso, solo presentamos los bordes eliminados durante el paso de agrupación (sección 2.1.2) que conecta grupos y objetos independientes. En la figura 2 se proporciona una ilustración de las relaciones espaciales presentadas y los subtítulos creados por LLM.

2.2.1 Diversificación de subtítulos

Aunque el mensaje ya proporcionó la información de agrupación y las relaciones espaciales necesarias entre objetos, se supone que LLM no solo debe incorporar la información de agrupación a las relaciones espaciales y crear leyendas, lo que ya se puede hacer mediante un método basado en plantillas o reglas. El papel más importante que desempeña LLM es comprender la distribución espacial actual y parafrasear las relaciones potencialmente redundantes o insignificantes en leyendas apropiadas. Por ejemplo, en la figura 2 (2), el algoritmo basado en MST detecta que un edificio está más cerca de algunos edificios que de otros. Sin embargo, como toda la imagen está ocupada por diferentes edificios, una leyenda que repita esa relación podría generar confusión y ambigüedad en los modelos de aprendizaje profundo posteriores e incluso en los lectores humanos. En este caso, LLM juega un papel vital al evaluar la importancia de cada relación espacial y realizar la paráfrasis necesaria.


En este trabajo, el comportamiento de resumen de LLM se garantiza proporcionando los ejemplos necesarios en la indicación, que se conoce más frecuentemente como la técnica de indicación "Few-Shot". Proporcionamos varios ejemplos en los que se supone que LLM debe sinergizar los resultados de la agrupación con las relaciones espaciales para crear títulos en sus propias palabras. Otras técnicas de estimulación podrían potencialmente lograr el mismo objetivo, como agregar descripciones de los comportamientos esperados o descomponer el proceso de razonamiento utilizando técnicas de Cadena de Pensamiento o Árbol de Pensamiento. No obstante, dado que el formato de entrada y salida esperado ya es complicado, estas estrategias de estímulo podrían traer mucha más complejidad y dificultad al proceso de escritura de estímulos. Además, nuestros resultados experimentales muestran que las indicaciones de pocos disparos funcionan de manera más estable que cualquiera de las técnicas mencionadas anteriormente.

2.2.2 Formato de respuesta

Además, para restringir efectivamente la respuesta a un formato legible por computadora, le indicamos explícitamente al LLM que genere los subtítulos en el formato de una lista de Python, cuya información detallada ya se ha incluido en el corpus de preentrenamiento del LLM y está bien integrada en su sistema paramétrico. memoria, más bien


Figura 2: Ejemplos de información de análisis geográfico y subtítulos generados por LLM. Para cada ejemplo, nuestras API implementadas proporcionan información de objetos y patrones geográficos y se entregan al LLM como entrada.


que otros formatos personalizados que requieren explicaciones adicionales. Se desea no tener ninguna identificación de los grupos de objetos en la respuesta de LLM, lo que se logra nuevamente proporcionando ejemplos en el mensaje, como se presentó en la sección anterior. En muchos trabajos de investigación recientes se ha afirmado que las indicaciones con pocos disparos funcionan mejor que las indicaciones sin espectáculo con instrucciones prolongadas [11]. Los procedimientos detallados se pueden mostrar en la figura 3.

2.3 Evaluación y selección de títulos

El tercer paso de nuestro enfoque es evaluar y seleccionar el mejor título para cada imagen. Utilizamos dos criterios para evaluar la calidad de los subtítulos: (a) calidad de los subtítulos, que mide qué tan bien coincide el subtítulo con la anotación de verdad fundamental, y (b) diversidad de subtítulos, que mide qué tan diferente es el subtítulo de otros subtítulos generados a partir de otras imágenes. . Utilizamos el siguiente procedimiento:


• Filtramos subtítulos que contienen palabras clave no deseadas como la identificación del grupo, como "grupo 0" o el orden del grupo, como "el primer grupo", lo que podría generar confusión.


• Usamos CLIP previamente entrenado para calcular una puntuación para cada título en función de su coincidencia con la imagen de entrada. El evaluador está capacitado en un conjunto de datos de leyendas de imágenes a gran escala que cubre varios dominios y escenarios.


• Usamos una medida de similitud para calcular una puntuación para cada título en función de la diversidad de los títulos. La medida de similitud compara cada título con títulos generados a partir de otras imágenes para evitar descripciones que sean demasiado vagas y amplias.


• Combinamos ambas puntuaciones mediante una fórmula de promedio ponderado para obtener una puntuación final para cada título.


• Seleccionamos el título con mayor puntuación final como mejor título para cada imagen.


Figura 3: Ilustración de la estructura de nuestro mensaje y resultado de LLM. Se brindan más ejemplos al LLM en el mensaje, mientras que aquí solo se incluye uno para demostración.



Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.