Autores:
(1) Yingxu He, Departamento de Ciência da Computação da Universidade Nacional de Cingapura {[email protected]};
(2) Qiqi Sun, Faculdade de Ciências da Vida da Universidade de Nankai {[email protected]}.
Nesta seção, descrevemos nossa abordagem proposta para coletar automaticamente legendas para imagens de sensoriamento remoto, orientando LLMs para descrever suas anotações de objetos. Neste trabalho, limitamos o número de objetos em cada imagem a não mais que 15, o que garante um layout espacial relativamente simples para o LLM. Nossa abordagem consiste em três etapas principais: (1) desenvolver APIs para conduzir análises geográficas e descrever relações espaciais entre objetos, (2) solicitar que a API gere legendas com a ajuda de APIs e (3) avaliação e seleção de legendas. Explicamos cada etapa detalhadamente abaixo.
O LLM é incompetente no processamento de informações geográficas bidimensionais, por isso implementamos várias abordagens analíticas para analisar as relações espaciais entre objetos. Inspirados nas legendas fornecidas pelo artigo RSICD, focamos apenas na análise das distâncias entre objetos, na concentração das localizações dos objetos, nas formas formadas por grupos de objetos e nas relações significativas entre os objetos.
Nos conjuntos de dados Xview e Dota, o tamanho dos objetos varia muito. Portanto, utilizar a distância entre centros é inadequado para as distâncias entre objetos. Por exemplo, embora os centros de dois grandes edifícios possam estar bastante distantes um do outro, as suas paredes internas podem estar a apenas alguns passos de distância. Portanto, consideramos as distâncias mais curtas entre as caixas delimitadoras como a distância delas. Para a distância entre dois grupos de objetos, representamos como a distância entre o elemento mais próximo, que normalmente é chamada de medida de ligação única no campo de agrupamento.
Uma das características mais importantes capturadas pelo olho humano é a concentração de objetos com base em suas localizações e tipos, por exemplo, tende-se a diferenciar facilmente um veículo circulando em uma rodovia de vários edifícios parados na estrada. Por outro lado, as pessoas também tendem a prestar atenção ao vizinho mais próximo dos objectos, por exemplo, um automóvel de passageiros ao lado de um camião é mais fácil de chamar a atenção das pessoas do que um edifício relativamente mais afastado do camião. Os algoritmos tradicionais de clustering de aprendizado de máquina incluem algoritmos baseados em distância, como K-Means e clustering hierárquico, e clustering baseado em densidade, como DBSCAN e suas variantes. No entanto, o algoritmo K-Means muitas vezes falha em separar valores discrepantes de objetos concentrados, enquanto os benefícios do agrupamento baseado em densidade podem estar ocultos neste caso, onde cada imagem contém apenas menos de dez objetos.
Neste trabalho, usamos o algoritmo Mínimo Spanning Tree (MST) para conectar todos os objetos na imagem e formar clusters, removendo arestas significativamente longas do gráfico. O algoritmo MST de Kruskal[3] considera os vizinhos mais próximos dos objetos e simultaneamente ignora conexões insignificantes, garantindo que cada borda da árvore esteja alinhada ao comportamento de observação dos humanos. Definimos o limite no percentil 75 dos pesos das arestas de todo o conjunto de dados. As arestas acima desse limite foram removidas do gráfico para formar clusters, minimizando as distâncias intra-cluster e maximizando as distâncias entre clusters. Para encorajar o agrupamento de objetos do mesmo tipo no mesmo cluster, adicionamos comprimento extra às distâncias entre objetos de tipos diferentes. A Figura 1 fornece uma ilustração detalhada do algoritmo de clustering baseado em MST. Esta abordagem poderia dividir com precisão os objetos por tipo, localização e proximidade, o que beneficia a análise geográfica subsequente.
Inspirado nas legendas fornecidas no conjunto de dados RSICD, o formato da linha é considerado o formato fundamental a ser detectado neste trabalho. Parece mais atraente aos olhos humanos e é o elemento básico de muitas outras formas complicadas. Por exemplo, o padrão de rua em grade quadrada é um dos padrões de rua mais populares usados nas cidades, onde as linhas de edifícios são os elementos mais fundamentais. Inegavelmente, outras formas também poderiam facilmente chamar a atenção das pessoas, como círculos e quadrados. Porém, no cenário deste trabalho, onde cada imagem contém no máximo 15 objetos, eles são menos óbvios e mais difíceis de detectar. Portanto, implementamos apenas um método para detectar formas de linhas de grupos de objetos, inspecionando se as linhas formadas pelos cantos das caixas delimitadoras são paralelas.
Revisamos algumas relações listadas no artigo RSICD[6] e apresentamos nossa lista de relações a serem incluídas nas legendas das imagens: "fica sozinho", "próximo", "em linha", "cercado por", "entre " e "nos dois lados de". Modificamos a relação "em linhas" do papel RSICD para "em uma linha", pois os objetos em linhas diferentes podem ser agrupados em grupos diferentes, conforme descrito na seção 2.1.2, e qualquer formato de linha possível será detectado pela identificação da forma. algoritmo descrito na seção 2.1.3. Além disso, propomos uma relação “entre” como o outro lado de “nos dois lados de” para diferenciar a situação em que existem apenas objetos nos dois lados de outros de objetos circulando outros 360◦. Neste trabalho, as abordagens descritas acima podem abordar relações “autônomas”, “próximas” e “em linha”. A relação “cercado por” só é considerada quando determinados objetos estão localizados dentro da fronteira de outro grupo de objetos. A função detalhada é obtida desenhando links das caixas do meio para as externas e calculando os ângulos entre elas. A implementação das relações “entre” e “nos dois lados de” fica para trabalhos futuros.
A segunda etapa de nossa abordagem é usar prompts para orientar o LLM a produzir uma legenda seguindo um padrão semelhante. Com as APIs implementadas na seção 2.1, há muitas opções para solicitar o LLM e orientá-lo para gerar as legendas ideais. Seguindo a ideia recentemente popular de tratar os LLMs como um controlador ou despachante de ação[13], uma abordagem poderia ser permitir que o modelo de linguagem planeje suas ações e execute as funções em sequências para obter resultados úteis de análise geográfica. Por exemplo, a abordagem ReAct[10] recentemente desenvolvida sinergiza o processo de raciocínio e execução do LLM para melhorar a sua capacidade de lidar com tarefas complexas. Permite grande flexibilidade na análise geográfica e maior diversidade nas legendas geradas. No entanto, o LLM tende a ter dificuldade em descobrir relações geográficas atraentes e é facilmente inundado com informações menos importantes recebidas durante o processo de execução da acção.
Para resolver o problema, adotamos a vantagem do algoritmo MST, que revela os vizinhos mais importantes tanto para clusters quanto para objetos independentes, de onde podemos facilmente extrair as relações geográficas significativas. Mais especificamente, listamos a presença de cada grupo em cada imagem com suas combinações e formas detectadas, juntamente com objetos independentes. As relações geométricas significativas entre as caixas são então fornecidas para dar ao LLM uma noção das suas relações espaciais. Neste caso, apresentamos apenas as arestas removidas durante a etapa de agrupamento (seção 2.1.2) que conecta clusters e objetos independentes. Uma ilustração das relações espaciais apresentadas e das legendas criadas pelo LLM é fornecida na figura 2.
Embora o prompt já forneça as informações de agrupamento necessárias e as relações espaciais entre objetos, o LLM não se destina apenas a trazer as informações de agrupamento para as relações espaciais e criar legendas, o que já pode ser feito por um método baseado em modelo ou em regras. O papel mais importante desempenhado pelo LLM é compreender o layout espacial atual e parafrasear as relações potencialmente redundantes ou insignificantes em legendas apropriadas. Por exemplo, na figura 2 (2), o algoritmo baseado em MST detecta que um edifício está mais próximo de alguns edifícios do que de outros. No entanto, como toda a imagem está ocupada por diferentes edifícios, uma legenda repetindo essa relação pode trazer confusão e ambiguidade aos modelos de aprendizagem profunda a jusante e até mesmo aos leitores humanos. Neste caso, o LLM desempenha um papel vital na avaliação do significado de cada relação espacial e na realização da paráfrase necessária.
Neste trabalho, o comportamento resumidor do LLM é garantido pelo fornecimento de exemplos necessários no prompt, que é mais frequentemente referido como técnica de prompt "Few-Shot". Fornecemos vários exemplos em que o LLM deve sinergizar os resultados do agrupamento com as relações espaciais para criar legendas com suas próprias palavras. Outras técnicas de estímulo poderiam potencialmente atingir o mesmo objetivo, como adicionar descrições para os comportamentos esperados ou quebrar o processo de raciocínio usando técnicas de Cadeia de Pensamento ou Árvore de Pensamento. No entanto, dado que o formato de entrada e de saída esperado já é complicado, estas estratégias de estímulo podem trazer muito mais complexidade e dificuldade ao processo de redação do alerta. Além disso, nossos resultados experimentais mostram que a solicitação de poucos disparos tem um desempenho mais estável do que qualquer uma das técnicas mencionadas acima.
Além disso, para restringir efetivamente a resposta a um formato legível por computador, instruímos explicitamente o LLM a produzir as legendas no formato de uma lista Python, cujas informações detalhadas já foram incluídas no corpus de pré-treinamento do LLM e bem incorporadas em seu paramétrico memória, em vez
do que outro formato personalizado que requer explicação extra. É desejado não ter nenhum id dos grupos de objetos na resposta do LLM, o que é conseguido novamente fornecendo exemplos no prompt, conforme apresentado na seção anterior. Foi afirmado em muitos trabalhos de pesquisa recentes que o prompt de poucos disparos funciona melhor do que o prompt de exibição zero com instruções prolongadas [11]. Os procedimentos detalhados podem ser mostrados na figura 3.
A terceira etapa da nossa abordagem é avaliar e selecionar a melhor legenda para cada imagem. Usamos dois critérios para avaliar a qualidade das legendas: (a) qualidade da legenda, que mede o quão bem a legenda corresponde à anotação da verdade, e (b) diversidade da legenda, que mede o quão diferente a legenda é de outras legendas geradas a partir de outras imagens . Usamos o seguinte procedimento:
• Filtramos legendas contendo palavras-chave indesejáveis, como o id do grupo, como "grupo 0", ou a ordem do grupo, como "o primeiro grupo", o que pode causar confusão.
• Usamos CLIP pré-treinado para calcular uma pontuação para cada legenda com base em sua correspondência com a imagem de entrada. O avaliador é treinado em um conjunto de dados de legenda de imagens em grande escala que cobre vários domínios e cenários.
• Usamos uma medida de similaridade para calcular uma pontuação para cada legenda com base na diversidade de legendas. A medida de similaridade compara cada legenda com legendas geradas a partir de outras imagens para evitar descrições muito vagas e amplas.
• Combinamos ambas as pontuações utilizando uma fórmula de média ponderada para obter uma pontuação final para cada legenda.
• Selecionamos a legenda com maior pontuação final como a melhor legenda para cada imagem.
Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.