paint-brush
Rumo à geração automática de legendas de imagens de satélite usando LLMs: Resumo e introduçãopor@fewshot
197 leituras

Rumo à geração automática de legendas de imagens de satélite usando LLMs: Resumo e introdução

Muito longo; Para ler

Os pesquisadores apresentam o ARSIC, um método para legendagem de imagens de sensoriamento remoto usando LLMs e APIs, melhorando a precisão e reduzindo as necessidades de anotação humana.
featured image - Rumo à geração automática de legendas de imagens de satélite usando LLMs: Resumo e introdução
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Autores:

(1) Yingxu He, Departamento de Ciência da Computação da Universidade Nacional de Cingapura {[email protected]};

(2) Qiqi Sun, Faculdade de Ciências da Vida da Universidade de Nankai {[email protected]}.

Tabela de links

Abstrato

A legendagem automática de imagens é uma técnica promissora para transmitir informações visuais usando linguagem natural. Pode beneficiar várias tarefas de detecção remota por satélite, tais como monitorização ambiental, gestão de recursos, gestão de desastres, etc. No entanto, um dos principais desafios neste domínio é a falta de conjuntos de dados de legenda de imagens em grande escala, uma vez que requerem muito de experiência humana e esforço para criar. Pesquisas recentes sobre grandes modelos de linguagem (LLMs) demonstraram seu desempenho impressionante em tarefas de compreensão e geração de linguagem natural. No entanto, a maioria deles não consegue lidar com imagens (GPT-3.5, Falcon, Claude, etc.), enquanto os modelos de legenda convencionais pré-treinados em imagens gerais do solo muitas vezes não conseguem produzir legendas detalhadas e precisas para imagens aéreas (BLIP, GIT, CM3, CM3Leon, etc.). Para resolver este problema, propomos uma nova abordagem: Captioning Automático de Imagens de Sensoriamento Remoto (ARSIC) para coletar automaticamente legendas para imagens de sensoriamento remoto, orientando LLMs para descrever suas anotações de objetos. Apresentamos também um modelo de benchmark que adapta o modelo generativo image2text (GIT) pré-treinado para gerar legendas de alta qualidade para imagens de sensoriamento remoto. Nossa avaliação demonstra a eficácia de nossa abordagem para coleta de legendas para imagens de sensoriamento remoto.


Muitos estudos anteriores mostraram que LLMs como GPT-3.5 e GPT-4 são bons na compreensão da semântica, mas têm dificuldades com dados numéricos e raciocínio complexo. Para superar essa limitação, o ARSIC utiliza APIs externas para realizar análises geográficas simples em imagens, como relações de objetos e clustering. Realizamos agrupamento nos objetos e apresentamos as relações geométricas significativas para o LLM fazer resumos. O resultado final do LLM são várias legendas que descrevem a imagem, que serão posteriormente classificadas e selecionadas com base na fluência do idioma e na consistência com a imagem original.


Ajustamos um modelo image2text (GIT) generativo pré-treinado em 7 mil e 2 mil pares de legendas de imagens dos conjuntos de dados Xview e DOTA, que contêm imagens de satélite com anotações de caixa delimitadora para vários objetos, como veículos, construções, navios , etc. Avaliamos nossa abordagem no conjunto de dados RSICD, um conjunto de dados de referência para legendagem de imagens de satélite com 10.892 imagens e 31.783 legendas anotadas por especialistas humanos. Removemos legendas com tipos de objetos não vistos dos dados de treinamento e obtemos 1.746 imagens com mais de 5 mil legendas, onde alcançamos uma pontuação CIDEr-D de 85,93, demonstrando a eficácia e o potencial de nossa abordagem para legenda automática de imagens em sensoriamento remoto por satélite. No geral, este trabalho apresenta uma maneira viável de orientá-los na interpretação de conjuntos de dados geoespaciais e na geração de legendas de imagens precisas para treinar modelos de legenda de imagens ponta a ponta. Nossa abordagem reduz a necessidade de anotação humana e pode ser facilmente aplicada a conjuntos de dados ou domínios.

1. Introdução

O sensoriamento remoto por satélite é essencial em vários campos, como gestão de desastres, monitoramento ambiental e gestão de recursos. Envolve a análise de imagens capturadas do espaço, com foco na detecção e classificação de objetos na superfície da Terra para produzir informações espaciais úteis. Como essas imagens podem conter uma grande quantidade de dados, a legenda automática de imagens surgiu como um método eficiente para interpretar e transmitir a informação visual nessas imagens usando linguagem natural.


Apesar do seu potencial significativo, um grande desafio na legenda automática de imagens em imagens de sensoriamento remoto por satélite é a escassez de conjuntos de dados de captura de imagens em grande escala. A criação de tais conjuntos de dados exige muito trabalho e conhecimento humano significativo. Muitas vezes, modelos pré-existentes, como GPT3.5[7], Falcon e Claude, ficam aquém da sua aplicabilidade, pois não estão equipados para interpretar dados numéricos ou realizar raciocínios complexos. Da mesma forma, modelos como BLIP[5], GIT[9], CM3[1] e CM3Leon[12] que são pré-treinados em imagens gerais de visão terrestre lutam para gerar legendas precisas para imagens aéreas. Essas limitações tornam difícil obter legendas automáticas de alta qualidade para imagens de sensoriamento remoto.


Para enfrentar esta questão, neste estudo, propomos uma nova abordagem: Captioning Automático de Imagens de Sensoriamento Remoto (ARSIC), que aproveita grandes modelos de linguagem e dados de satélite para gerar legendas de alta qualidade para imagens de sensoriamento remoto de forma eficiente. Nossas contribuições são triplas. Primeiro, desenvolvemos diversas APIs de análise geográfica para detectar clusters, identificar formas formadas por objetos e calcular distâncias para oferecer uma melhor compreensão da imagem. Em segundo lugar, automatizamos o processo de coleta de legendas, orientando grandes modelos de linguagem para resumir os resultados das APIs geográficas em legendas. Isso reduz consideravelmente a necessidade de anotação humana. Por fim, fornecemos uma referência ajustando um modelo generativo image2text (GIT) em pares de imagem-legenda coletados seguindo nossa abordagem ARSIC dos conjuntos de dados Xview[4] e DOTA[2] e adaptados para gerar legendas precisas e de alta qualidade para imagens aéreas .


A eficácia da nossa abordagem é validada através de testes rigorosos no conjunto de dados de teste RSICD[6], estabelecendo uma nova pontuação de referência CIDEr-D[8] no campo. Em resumo, nosso trabalho apresenta uma abordagem inovadora para interpretar e legendar imagens de sensoriamento remoto - um método que não é apenas promissor para otimizar modelos de legenda de imagens de ponta a ponta, mas também flexível o suficiente para ser aplicado em conjuntos de dados ou domínios.


Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.