Autores:  (1) Yingxu He, Departamento de Ciencias de la Computación de la Universidad Nacional de Singapur {e0139128@u.nus.edu};  (2) Qiqi Sun, Facultad de Ciencias Biológicas de la Universidad de Nankai {sunqiqi1018@gmail.com}.  Tabla de enlaces   Resumen e introducción   Metodología   Referencias  Abstracto  Los subtítulos automáticos de imágenes son una técnica prometedora para transmitir información visual utilizando lenguaje natural. Puede beneficiar a diversas tareas de la teledetección por satélite, como la vigilancia ambiental, la gestión de recursos, la gestión de desastres, etc. Sin embargo, uno de los principales desafíos en este ámbito es la falta de conjuntos de datos de leyendas de imágenes a gran escala, ya que requieren mucho de experiencia y esfuerzo humano para crear. Investigaciones recientes sobre modelos de lenguaje grande (LLM) han demostrado su impresionante desempeño en tareas de generación y comprensión del lenguaje natural. Sin embargo, la mayoría de ellos no pueden manejar imágenes (GPT-3.5, Falcon, Claude, etc.), mientras que los modelos de subtítulos convencionales previamente entrenados en imágenes generales desde el suelo a menudo no logran producir subtítulos detallados y precisos para imágenes aéreas (BLIP, GIT, CM3, CM3León, etc.). Para abordar este problema, proponemos un enfoque novedoso: subtítulos automáticos de imágenes de teledetección (ARSIC) para recopilar automáticamente subtítulos para imágenes de teledetección guiando a los LLM para que describan las anotaciones de sus objetos. También presentamos un modelo de referencia que adapta el modelo generativo de imagen2texto (GIT) previamente entrenado para generar subtítulos de alta calidad para imágenes de teledetección. Nuestra evaluación demuestra la eficacia de nuestro enfoque para recopilar subtítulos para imágenes de teledetección.  Muchos estudios anteriores han demostrado que los LLM como GPT-3.5 y GPT-4 son buenos para comprender la semántica, pero tienen dificultades con datos numéricos y razonamiento complejo. Para superar esta limitación, ARSIC aprovecha las API externas para realizar análisis geográficos simples de imágenes, como relaciones de objetos y agrupaciones. Realizamos agrupaciones de los objetos y presentamos las relaciones geométricas significativas para que LLM haga resúmenes. El resultado final del LLM son varios subtítulos que describen la imagen, que se clasificarán y preseleccionarán en función de la fluidez del lenguaje y la coherencia con la imagen original.  Ajustamos un modelo generativo de imagen2texto (GIT) previamente entrenado en 7 mil y 2 mil pares de imágenes-títulos de los conjuntos de datos Xview y DOTA, que contienen imágenes de satélite con anotaciones de cuadros delimitadores para varios objetos, como vehículos, construcciones, barcos. , etc. Evaluamos nuestro enfoque en el conjunto de datos RSICD, un conjunto de datos de referencia para subtítulos de imágenes satelitales con 10,892 imágenes y 31,783 subtítulos anotados por expertos humanos. Eliminamos subtítulos con tipos de objetos invisibles de los datos de entrenamiento y obtenemos 1746 imágenes con más de 5 mil subtítulos, donde logramos una puntuación CIDEr-D de 85,93, lo que demuestra la efectividad y el potencial de nuestro enfoque para el subtitulado automático de imágenes en teledetección por satélite. En general, este trabajo presenta una forma viable de guiarlos para interpretar conjuntos de datos geoespaciales y generar títulos de imágenes precisos para entrenar modelos de subtítulos de imágenes de un extremo a otro. Nuestro enfoque reduce la necesidad de anotaciones humanas y se puede aplicar fácilmente a conjuntos de datos o dominios.  1. Introducción  La teledetección por satélite es esencial en numerosos campos, como la gestión de desastres, la vigilancia medioambiental y la gestión de recursos. Se trata de analizar imágenes capturadas desde el espacio, centrándose en detectar y clasificar objetos en la superficie de la Tierra para producir información espacial útil. Como estas imágenes pueden contener una gran cantidad de datos, los subtítulos automáticos de imágenes han surgido como un método eficaz para interpretar y transmitir la información visual de estas imágenes utilizando un lenguaje natural.  A pesar de su importante potencial, un desafío importante en el subtitulado automático de imágenes en imágenes de teledetección por satélite es la escasez de conjuntos de datos de subtítulos de imágenes a gran escala. La creación de tales conjuntos de datos requiere mucha mano de obra y exige una gran experiencia humana. A menudo, los modelos preexistentes, como GPT3.5[7], Falcon y Claude, no alcanzan su aplicabilidad ya que no están equipados para interpretar datos numéricos o llevar a cabo razonamientos complejos. De manera similar, modelos como BLIP[5], GIT[9], CM3[1] y CM3Leon[12] que están previamente entrenados en imágenes generales desde el suelo tienen dificultades para generar leyendas precisas para imágenes aéreas. Estas limitaciones dificultan la obtención de subtítulos automáticos de alta calidad para imágenes de teledetección.  Para enfrentar este problema, en este estudio proponemos un enfoque novedoso: subtítulos automáticos de imágenes de teledetección (ARSIC), que aprovecha tanto modelos de lenguaje grandes como datos satelitales para generar subtítulos de alta calidad para imágenes de teledetección de manera eficiente. Nuestras contribuciones son triples. Primero, desarrollamos varias API de análisis geográfico para detectar grupos, identificar formas formadas por objetos y calcular distancias para ofrecer una mejor comprensión de la imagen. En segundo lugar, automatizamos el proceso de recopilación de subtítulos guiando grandes modelos de lenguaje para resumir los resultados de las API geográficas en subtítulos. Esto reduce considerablemente la necesidad de anotaciones humanas. Por último, proporcionamos un punto de referencia al ajustar un modelo generativo de imagen2texto (GIT) en pares de imagen-título recopilados siguiendo nuestro enfoque ARSIC a partir de los conjuntos de datos Xview[4] y DOTA[2] y adaptados para generar subtítulos precisos y de alta calidad para imágenes aéreas. .  La eficacia de nuestro enfoque se valida mediante pruebas rigurosas en el conjunto de datos de prueba RSICD[6], estableciendo una nueva puntuación de referencia CIDEr-D[8] en el campo. En resumen, nuestro trabajo presenta un enfoque innovador para interpretar y subtitular imágenes de sensores remotos, un método que no solo es prometedor para optimizar los modelos de subtítulos de imágenes de un extremo a otro, sino que también es lo suficientemente flexible como para aplicarse en conjuntos de datos o dominios.  Este documento está   bajo licencia CC BY-NC-SA 4.0 DEED. disponible en arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

FEW SHOT .tech

Este audio es producido en el idioma original de la historia!

Hacia la generación automática de subtítulos de imágenes satelitales mediante LLM: resumen e introducción

About Author

COMENTARIOS

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN

Related Stories

Creación de productos criptográficos centrados en el usuario: la importancia de los comentarios de los clientes

El modelo Bitcoin UTXO, impulsando un ecosistema único

La fuga rápida del sistema Claude Sonnet 3.5: un análisis forense

De los foros a los feeds: cómo los algoritmos de las redes sociales influyen en la interacción digital

Creación de productos criptográficos centrados en el usuario: la importancia de los comentarios de los clientes

El modelo Bitcoin UTXO, impulsando un ecosistema único

La fuga rápida del sistema Claude Sonnet 3.5: un análisis forense

De los foros a los feeds: cómo los algoritmos de las redes sociales influyen en la interacción digital

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps