在本节中,我们将介绍我们提出的通过引导 LLM 描述其对象注释来自动收集遥感图像标题的方法。在这项工作中,我们将每幅图像中的对象数量限制为不超过 15 个,这确保了 LLM 的空间布局相对简单。我们的方法包括三个主要步骤:(1)开发 API 来进行地理分析并描述对象之间的空间关系,(2)在 API 的帮助下提示 API 生成标题,以及(3)标题评估和选择。我们将在下面详细解释每个步骤。
LLM 不擅长处理二维地理信息,因此我们实施了几种分析方法来分析对象之间的空间关系。受 RSICD 论文提供的标题的启发,我们只专注于分析对象之间的距离、对象位置的集中度、对象组形成的形状以及对象之间的重要关系。
在 Xview 和 Dota 数据集中,物体的大小差异很大。因此,使用中心之间的距离来表示物体之间的距离是不合适的。例如,虽然两座大型建筑物的中心可能相距很远,但它们的内墙可能只有几步之遥。因此,我们将边界框之间的最短距离视为它们的距离。对于两组物体之间的距离,我们用它们最近元素之间的距离来表示,这在聚类领域通常称为单链接度量。
人眼捕捉到的最重要的特征之一是物体基于其位置和类型的集中度,例如,人们往往很容易区分高速公路上行驶的车辆和路边的几栋建筑。另一方面,人们也倾向于关注物体的最近邻居,例如,卡车旁边的乘用车比距离卡车较远的建筑物更容易引起人们的注意。传统的机器学习聚类算法包括基于距离的算法,例如 K-Means 和层次聚类,以及基于密度的聚类,例如 DBSCAN 及其变体。然而,K-Means 算法通常无法将异常值与集中对象区分开来,而基于密度的聚类的优势可能会被埋没在这种情况下,每幅图像仅包含不到十个对象。
在本研究中,我们使用最小生成树 (MST) 算法连接图像中的所有对象,并通过从图中删除过长的边来形成聚类。Kruskal 的 MST 算法[3] 考虑对象的最近邻居并同时跳过可忽略不计的连接,确保每条树边都与人类的观察行为保持一致。我们将阈值设置为整个数据集边权重的 75 分位数。高于此阈值的边将从图中删除以形成聚类,从而最小化聚类内距离并最大化聚类间距离。为了鼓励将同一类型的对象分组到同一个聚类中,我们为不同类型的对象之间的距离增加了额外的长度。图 1 详细说明了基于 MST 的聚类算法。这种方法可以按类型、位置和接近度精确地划分对象,这有利于后续的地理分析。
受 RSICD 数据集提供的说明的启发,线条形状被认为是本研究中要检测的基本形状。它对人眼最有吸引力,也是许多其他复杂形状的基本元素。例如,方形网格街道图案是城市中最流行的街道图案之一,建筑物的线条是最基本的元素。不可否认,其他形状也很容易引起人们的注意,比如圆形和正方形。尽管如此,在本研究中,每幅图像最多包含 15 个对象,它们不太明显,也更难检测。因此,我们仅实现了一种通过检查边界框角形成的线是否平行来从对象组中检测线条形状的方法。
我们回顾了 RSICD 论文[6]中列出的一些关系,并列出了要包含在图像标题中的关系列表:“独立”、“附近”、“成一排”、“被包围”、“之间”和“在两侧”。我们将 RSICD 论文中的“成排”关系修改为“成排”,因为不同行中的对象可以聚类为不同的组,如第 2.1.2 节所述,并且任何可能的线形都可以通过第 2.1.3 节中描述的形状识别算法检测出来。此外,我们提出了一种“之间”关系作为“在两侧”的另一面,以区分只有其他对象两侧的对象和 360° 环绕其他对象的对象的情况。在这项工作中,上述方法可以解决“独立”、“附近”和“成一排”的关系。仅当某些对象位于另一组对象的边界内时,才会考虑“被包围”关系。具体功能是通过绘制中间框到外侧框的链接并计算它们之间的角度来实现的。“之间”和“两侧”关系的实现留待以后完成。
我们方法的第二步是使用提示来引导 LLM 按照类似的模式生成标题。使用第 2.1 节中实现的 API,有许多选项可以提示 LLM 并引导它生成理想的标题。根据最近流行的将 LLM 视为控制器或动作调度器的想法[13],一种方法可能是允许语言模型规划其动作并按顺序执行函数以获得有用的地理分析结果。例如,最近开发的 ReAct[10] 方法协同 LLM 的推理和执行过程,以增强其处理复杂任务的能力。它允许在地理分析中具有很大的灵活性,并在生成的标题中具有更大的多样性。尽管如此,LLM 往往难以发现引人注目的地理关系,并且很容易被在动作执行过程中收到的不太重要的信息淹没。
为了解决这个问题,我们利用了 MST 算法的优势,该算法揭示了集群和独立对象的最重要邻居,从中我们可以轻松提取重要的地理关系。更具体地说,我们列出每幅图像中每个组的存在及其组合和检测到的形状,以及独立对象。然后提供框之间的重要几何关系,让 LLM 了解它们的空间关系。在这种情况下,我们仅显示在聚类步骤(第 2.1.2 节)期间删除的连接集群和独立对象的边。图 2 提供了所呈现的空间关系和 LLM 创建的标题的说明。
尽管提示已经提供了必要的聚类信息和对象之间的空间关系,但 LLM 不仅仅应该将聚类信息带入空间关系并创建标题,这些已经可以通过基于模板或基于规则的方法完成。LLM 发挥的最重要的作用是了解当前的空间布局,并将潜在的冗余或不重要的关系解释为适当的标题。例如,在图 2 (2) 中,基于 MST 的算法检测到一栋建筑物比其他建筑物更靠近某些建筑物。然而,由于整幅图像都被不同的建筑物占据,重复该关系的标题可能会给下游的深度学习模型甚至人类读者带来困惑和模糊性。在这种情况下,LLM 在评估每个空间关系的重要性和执行必要的解释方面起着至关重要的作用。
在本研究中,LLM 的总结行为通过在提示中提供必要的示例来确保,这通常被称为“少样本”提示技术。我们提供了一些示例,其中 LLM 应该将聚类结果与空间关系协同起来,以自己的语言创建标题。其他提示技术也可能实现相同的目标,例如添加预期行为的描述或使用思维链或思维树技术分解推理过程。尽管如此,鉴于输入和预期输出格式已经很复杂,这些提示策略可能会给提示编写过程带来更多的复杂性和难度。此外,我们的实验结果表明,少样本提示比上述任何一种技术都更稳定。
此外,为了有效地将响应限制为计算机可读的格式,我们明确指示 LLM 以 Python 列表的格式输出字幕,其详细信息已包含在 LLM 的预训练语料库中,并很好地嵌入在其参数内存中,而不是
比其他需要额外解释的自定义格式更能体现这一点。LLM 的回答中最好不要出现任何对象组的 ID,这可以通过在提示中提供示例来实现,如上一节所述。许多最近的研究工作表明,少样本提示比零样本提示和延长的指令效果更好[11]。详细流程如图 3 所示。
我们方法的第三步是评估并选择每幅图像的最佳标题。我们使用两个标准来评估标题的质量:(a)标题质量,衡量标题与基本事实注释的匹配程度;(b)标题多样性,衡量标题与其他图像生成的标题的差异程度。我们使用以下程序:
• 我们过滤掉包含不良关键字的字幕,例如群组 ID(如“群组 0”)或群组顺序(如“第一群组”),因为这些关键字可能会造成混淆。
• 我们使用预先训练的 CLIP 根据每个标题与输入图像的匹配度计算其分数。评估器在涵盖各种领域和场景的大规模图像标题数据集上进行训练。
• 我们使用相似度测量来根据标题多样性计算每个标题的分数。相似度测量将每个标题与其他图像生成的标题进行比较,以避免描述过于模糊和宽泛。
• 我们使用加权平均公式将两个分数相结合,以获得每个标题的最终分数。
• 我们选择最终得分最高的标题作为每张图片的最佳标题。