197 讀數

使用 LLM 自动生成卫星图像标题：摘要与简介

经过 The FewShot Prompting Publication 4m2024/06/16

太長; 讀書

研究人员提出了 ARSIC，一种使用 LLM 和 API 进行遥感图像字幕标注的方法，可以提高准确性并减少人工注释的需求。

featured image - 使用 LLM 自动生成卫星图像标题：摘要与简介

‘satellite images’ Image created by HackerNoon AI Image Generator

作者：

（1）Yingxu He，新加坡国立大学计算机科学系{[email protected]}；

（2）孙琪琪，南开大学生命科学学院{[email protected]}。

链接表

抽象的

自动图像字幕是一种使用自然语言传达视觉信息的有前途的技术。它可以使卫星遥感中的各种任务受益，例如环境监测、资源管理、灾害管理等。然而，该领域的主要挑战之一是缺乏大规模图像字幕数据集，因为它们需要大量的人类专业知识和精力来创建。最近对大型语言模型 (LLM) 的研究已经证明了它们在自然语言理解和生成任务中的出色表现。尽管如此，它们中的大多数都无法处理图像（GPT-3.5、Falcon、Claude 等），而对一般地面视图图像进行预训练的传统字幕模型通常无法为航拍图像生成详细而准确的字幕（BLIP、GIT、CM3、CM3Leon 等）。为了解决这个问题，我们提出了一种新方法：自动遥感图像字幕 (ARSIC)，通过引导 LLM 描述其对象注释来自动收集遥感图像的字幕。我们还提出了一个基准模型，该模型采用预先训练的生成式 image2text 模型 (GIT) 来为遥感图像生成高质量的字幕。我们的评估证明了我们的方法在收集遥感图像字幕方面的有效性。

许多先前的研究表明，GPT-3.5 和 GPT-4 等 LLM 擅长理解语义，但在处理数值数据和复杂推理方面却举步维艰。为了克服这一限制，ARSIC 利用外部 API 对图像执行简单的地理分析，例如对象关系和聚类。我们对对象进行聚类，并呈现重要的几何关系，以供 LLM 进行总结。LLM 的最终输出是描述图像的几个标题，这些标题将根据语言流畅性和与原始图像的一致性进一步排名和入围。

我们对来自 Xview 和 DOTA 数据集的 7,000 和 2,000 个图像-字幕对微调了预先训练的生成式 image2text (GIT) 模型，这些数据集包含带有各种物体（如车辆、建筑物、船舶等）边界框注释的卫星图像。我们在 RSICD 数据集上评估了我们的方法，该数据集是卫星图像字幕的基准数据集，包含 10,892 幅图像和 31,783 条由人类专家注释的字幕。我们从训练数据中删除了带有看不见的对象类型的字幕，并获得 1,746 幅图像和超过 5,000 条字幕，其中我们获得了 85.93 的 CIDEr-D 分数，证明了我们的方法在卫星遥感自动图像字幕方面的有效性和潜力。总的来说，这项工作提出了一种可行的方法来指导他们解释地理空间数据集并生成准确的图像字幕，以训练端到端图像字幕模型。我们的方法减少了对人工注释的需求，可以轻松应用于数据集或领域。

1. 简介

卫星遥感在灾害管理、环境监测和资源管理等众多领域都至关重要。它涉及分析从太空捕获的图像，重点是检测和分类地球表面的物体以产生有用的空间信息。由于这些图像可以包含大量数据，因此自动图像字幕已成为一种使用自然语言解释和传达这些图像中的视觉信息的有效方法。

尽管卫星遥感图像的自动图像字幕制作潜力巨大，但其面临的一个主要挑战是大规模图像字幕数据集的稀缺。创建这样的数据集需要大量劳动力，并且需要大量的人力专业知识。通常，现有的模型（例如 GPT3.5[7]、Falcon 和 Claude）在适用性方面存在不足，因为它们不具备解释数值数据或进行复杂推理的能力。同样，在一般地面视图图像上进行预训练的模型（例如 BLIP[5]、GIT[9]、CM3[1] 和 CM3Leon[12]）也难以为航拍图像生成精确的字幕。这些限制使得实现高质量的遥感图像自动字幕制作变得具有挑战性。

为了解决这个问题，在本研究中，我们提出了一种新方法：自动遥感图像字幕 (ARSIC)，该方法利用大型语言模型和卫星数据高效地为遥感图像生成高质量字幕。我们的贡献有三方面。首先，我们开发了几个地理分析 API 来检测聚类、识别物体形成的形状并计算距离，以增强对图像的理解。其次，我们通过引导大型语言模型将地理 API 的结果汇总为字幕，使字幕收集过程自动化。这大大减少了对人工注释的需求。最后，我们通过对生成式 image2text (GIT) 模型进行微调来提供基准，这些模型是在按照我们的 ARSIC 方法从 Xview[4] 和 DOTA[2] 数据集收集的图像字幕对上进行的，并且经过定制以生成高质量和准确的航拍图像字幕。

我们的方法的有效性已通过 RSICD[6] 测试数据集上的严格测试得到验证，并创下了该领域新的基准 CIDEr-D[8] 分数。总之，我们的工作提出了一种解释和标注遥感图像的创新方法 - 这种方法不仅有望优化端到端图像标注模型，而且足够灵活，可应用于各个数据集或领域。