paint-brush
Hacia la generación automática de subtítulos de imágenes satelitales mediante LLM: resumen e introducciónpor@fewshot
171 lecturas

Hacia la generación automática de subtítulos de imágenes satelitales mediante LLM: resumen e introducción

Demasiado Largo; Para Leer

Los investigadores presentan ARSIC, un método para el subtitulado de imágenes mediante teledetección mediante LLM y API, que mejora la precisión y reduce las necesidades de anotaciones humanas.
featured image - Hacia la generación automática de subtítulos de imágenes satelitales mediante LLM: resumen e introducción
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Autores:

(1) Yingxu He, Departamento de Ciencias de la Computación de la Universidad Nacional de Singapur {[email protected]};

(2) Qiqi Sun, Facultad de Ciencias Biológicas de la Universidad de Nankai {[email protected]}.

Tabla de enlaces

Abstracto

Los subtítulos automáticos de imágenes son una técnica prometedora para transmitir información visual utilizando lenguaje natural. Puede beneficiar a diversas tareas de la teledetección por satélite, como la vigilancia ambiental, la gestión de recursos, la gestión de desastres, etc. Sin embargo, uno de los principales desafíos en este ámbito es la falta de conjuntos de datos de leyendas de imágenes a gran escala, ya que requieren mucho de experiencia y esfuerzo humano para crear. Investigaciones recientes sobre modelos de lenguaje grande (LLM) han demostrado su impresionante desempeño en tareas de generación y comprensión del lenguaje natural. Sin embargo, la mayoría de ellos no pueden manejar imágenes (GPT-3.5, Falcon, Claude, etc.), mientras que los modelos de subtítulos convencionales previamente entrenados en imágenes generales desde el suelo a menudo no logran producir subtítulos detallados y precisos para imágenes aéreas (BLIP, GIT, CM3, CM3León, etc.). Para abordar este problema, proponemos un enfoque novedoso: subtítulos automáticos de imágenes de teledetección (ARSIC) para recopilar automáticamente subtítulos para imágenes de teledetección guiando a los LLM para que describan las anotaciones de sus objetos. También presentamos un modelo de referencia que adapta el modelo generativo de imagen2texto (GIT) previamente entrenado para generar subtítulos de alta calidad para imágenes de teledetección. Nuestra evaluación demuestra la eficacia de nuestro enfoque para recopilar subtítulos para imágenes de teledetección.


Muchos estudios anteriores han demostrado que los LLM como GPT-3.5 y GPT-4 son buenos para comprender la semántica, pero tienen dificultades con datos numéricos y razonamiento complejo. Para superar esta limitación, ARSIC aprovecha las API externas para realizar análisis geográficos simples de imágenes, como relaciones de objetos y agrupaciones. Realizamos agrupaciones de los objetos y presentamos las relaciones geométricas significativas para que LLM haga resúmenes. El resultado final del LLM son varios subtítulos que describen la imagen, que se clasificarán y preseleccionarán en función de la fluidez del lenguaje y la coherencia con la imagen original.


Ajustamos un modelo generativo de imagen2texto (GIT) previamente entrenado en 7 mil y 2 mil pares de imágenes-títulos de los conjuntos de datos Xview y DOTA, que contienen imágenes de satélite con anotaciones de cuadros delimitadores para varios objetos, como vehículos, construcciones, barcos. , etc. Evaluamos nuestro enfoque en el conjunto de datos RSICD, un conjunto de datos de referencia para subtítulos de imágenes satelitales con 10,892 imágenes y 31,783 subtítulos anotados por expertos humanos. Eliminamos subtítulos con tipos de objetos invisibles de los datos de entrenamiento y obtenemos 1746 imágenes con más de 5 mil subtítulos, donde logramos una puntuación CIDEr-D de 85,93, lo que demuestra la efectividad y el potencial de nuestro enfoque para el subtitulado automático de imágenes en teledetección por satélite. En general, este trabajo presenta una forma viable de guiarlos para interpretar conjuntos de datos geoespaciales y generar títulos de imágenes precisos para entrenar modelos de subtítulos de imágenes de un extremo a otro. Nuestro enfoque reduce la necesidad de anotaciones humanas y se puede aplicar fácilmente a conjuntos de datos o dominios.

1. Introducción

La teledetección por satélite es esencial en numerosos campos, como la gestión de desastres, la vigilancia medioambiental y la gestión de recursos. Se trata de analizar imágenes capturadas desde el espacio, centrándose en detectar y clasificar objetos en la superficie de la Tierra para producir información espacial útil. Como estas imágenes pueden contener una gran cantidad de datos, los subtítulos automáticos de imágenes han surgido como un método eficaz para interpretar y transmitir la información visual de estas imágenes utilizando un lenguaje natural.


A pesar de su importante potencial, un desafío importante en el subtitulado automático de imágenes en imágenes de teledetección por satélite es la escasez de conjuntos de datos de subtítulos de imágenes a gran escala. La creación de tales conjuntos de datos requiere mucha mano de obra y exige una gran experiencia humana. A menudo, los modelos preexistentes, como GPT3.5[7], Falcon y Claude, no alcanzan su aplicabilidad ya que no están equipados para interpretar datos numéricos o llevar a cabo razonamientos complejos. De manera similar, modelos como BLIP[5], GIT[9], CM3[1] y CM3Leon[12] que están previamente entrenados en imágenes generales desde el suelo tienen dificultades para generar leyendas precisas para imágenes aéreas. Estas limitaciones dificultan la obtención de subtítulos automáticos de alta calidad para imágenes de teledetección.


Para enfrentar este problema, en este estudio proponemos un enfoque novedoso: subtítulos automáticos de imágenes de teledetección (ARSIC), que aprovecha tanto modelos de lenguaje grandes como datos satelitales para generar subtítulos de alta calidad para imágenes de teledetección de manera eficiente. Nuestras contribuciones son triples. Primero, desarrollamos varias API de análisis geográfico para detectar grupos, identificar formas formadas por objetos y calcular distancias para ofrecer una mejor comprensión de la imagen. En segundo lugar, automatizamos el proceso de recopilación de subtítulos guiando grandes modelos de lenguaje para resumir los resultados de las API geográficas en subtítulos. Esto reduce considerablemente la necesidad de anotaciones humanas. Por último, proporcionamos un punto de referencia al ajustar un modelo generativo de imagen2texto (GIT) en pares de imagen-título recopilados siguiendo nuestro enfoque ARSIC a partir de los conjuntos de datos Xview[4] y DOTA[2] y adaptados para generar subtítulos precisos y de alta calidad para imágenes aéreas. .


La eficacia de nuestro enfoque se valida mediante pruebas rigurosas en el conjunto de datos de prueba RSICD[6], estableciendo una nueva puntuación de referencia CIDEr-D[8] en el campo. En resumen, nuestro trabajo presenta un enfoque innovador para interpretar y subtitular imágenes de sensores remotos, un método que no solo es prometedor para optimizar los modelos de subtítulos de imágenes de un extremo a otro, sino que también es lo suficientemente flexible como para aplicarse en conjuntos de datos o dominios.


Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.