저자:
(1) He Yingxu, 싱가포르 국립대학교 컴퓨터과학과 {[email protected]};
(2) 난카이대학교 생명과학대학 Qiqi Sun {[email protected]}.
이 섹션에서는 LLM이 개체 주석을 설명하도록 안내하여 원격 감지 이미지에 대한 캡션을 자동으로 수집하는 제안된 접근 방식을 설명합니다. 이 작업에서는 각 이미지의 개체 수를 15개 이하로 제한하여 LLM에 대한 상대적으로 간단한 공간 레이아웃을 보장합니다. 우리의 접근 방식은 세 가지 주요 단계로 구성됩니다. (1) 지리적 분석을 수행하고 개체 간의 공간 관계를 설명하는 API를 개발하고, (2) API의 도움을 받아 API가 캡션을 생성하도록 유도하고, (3) 캡션 평가 및 선택입니다. 아래에서 각 단계를 자세히 설명합니다.
LLM은 2차원 지리 정보를 처리하는 데 능숙하지 않기 때문에 객체 간의 공간 관계를 분석하기 위해 여러 가지 분석 접근 방식을 구현했습니다. RSICD 논문에서 제공하는 캡션에서 영감을 받아 객체 사이의 거리, 객체 위치의 집중도, 객체 그룹으로 형성된 모양, 객체 간의 중요한 관계를 분석하는 데에만 집중했습니다.
Xview 및 Dota 데이터세트에서는 개체의 크기가 많이 다릅니다. 따라서 중심 사이의 거리를 사용하는 것은 객체 사이의 거리에 적합하지 않습니다. 예를 들어, 두 개의 큰 건물의 중심이 상당히 멀리 떨어져 있더라도 내부를 향한 벽은 불과 몇 걸음 떨어져 있을 수 있습니다. 따라서 경계 상자 사이의 최단 거리를 거리로 간주합니다. 두 객체 그룹 사이의 거리는 가장 가까운 요소 사이의 거리로 표현되며, 이는 일반적으로 클러스터링 분야에서 단일 연결 측정값이라고 합니다.
인간의 눈으로 포착되는 가장 중요한 특징 중 하나는 위치와 유형에 따른 물체의 집중입니다. 예를 들어 고속도로를 달리는 차량과 도로 옆에 서있는 여러 건물을 쉽게 구별하는 경향이 있습니다. 반면에, 사람들은 또한 물체의 가장 가까운 이웃에 주의를 기울이는 경향이 있습니다. 예를 들어, 트럭 옆에 있는 승용차는 트럭에서 상대적으로 멀리 있는 건물보다 사람들의 주의를 끌기가 더 쉽습니다. 기존의 기계 학습 클러스터링 알고리즘에는 K-Means 및 계층적 클러스터링과 같은 거리 기반 알고리즘과 DBSCAN 및 그 변형과 같은 밀도 기반 클러스터링이 포함됩니다. 그러나 K-Means 알고리즘은 집중된 개체에서 이상값을 분리하지 못하는 경우가 많으며, 각 이미지에 10개 미만의 개체만 포함된 이 경우 밀도 기반 클러스터링의 이점이 묻혀 있을 수 있습니다.
본 연구에서는 MST(Minimum Spanning Tree) 알고리즘을 사용하여 이미지의 모든 객체를 연결하고 그래프에서 상당히 긴 가장자리를 제거하여 클러스터를 형성했습니다. Kruskal의 MST 알고리즘[3]은 객체의 가장 가까운 이웃을 고려하는 동시에 무시할 수 있는 연결을 건너뛰어 모든 트리 가장자리가 인간의 관찰 동작에 맞춰 정렬되도록 합니다. 전체 데이터세트의 간선 가중치의 75번째 백분위수로 임계값을 설정했습니다. 이 임계값을 초과하는 가장자리는 그래프에서 제거되어 클러스터를 형성하여 클러스터 내를 최소화하고 클러스터 간 거리를 최대화합니다. 동일한 유형의 객체를 동일한 클러스터로 그룹화하기 위해 서로 다른 유형의 객체 사이의 거리에 추가 길이를 추가합니다. 그림 1은 MST 기반 클러스터링 알고리즘에 대한 자세한 설명을 제공합니다. 이 접근 방식은 유형, 위치 및 근접성에 따라 객체를 정확하게 분할할 수 있으므로 후속 지리적 분석에 도움이 됩니다.
RSICD 데이터세트에 제공된 캡션에서 영감을 받은 선 모양은 이 작업에서 감지할 기본 모양으로 간주됩니다. 그것은 인간의 눈과 다른 많은 복잡한 모양의 기본 요소에 가장 매력적으로 보입니다. 예를 들어, 정사각형 격자 거리 패턴은 건물의 선이 가장 기본적인 요소인 도시에서 사용되는 가장 인기 있는 거리 패턴 중 하나입니다. 원이나 사각형과 같은 다른 모양도 쉽게 사람들의 관심을 끌 수 있다는 점은 부인할 수 없습니다. 그럼에도 불구하고 각 이미지에 최대 15개의 물체가 포함된 이 작업의 설정에서는 덜 명확하고 감지하기가 더 어렵습니다. 따라서 우리는 경계 상자의 모서리에 의해 형성된 선이 평행한지 여부를 검사하여 객체 그룹에서 선 모양을 감지하는 방법만 구현했습니다.
우리는 RSICD 논문[6]에 나열된 일부 관계를 검토하고 이미지 캡션에 포함될 관계 목록을 제시합니다: "독립형", "근처", "연속", "둘러싸임", "사이" ", 그리고 "의 양면에". 섹션 2.1.2에 설명된 대로 서로 다른 행의 객체가 서로 다른 그룹으로 클러스터될 수 있고 가능한 모든 선 모양이 모양 식별을 통해 감지되므로 RSICD 문서의 "행 내" 관계를 "행 내"로 수정했습니다. 섹션 2.1.3에 설명된 알고리즘. 또한, 우리는 'in two side of'의 이면인 'between' 관계를 제안하여 타인의 양면에만 사물이 있는 상황과 타인을 360도 회전하는 사물이 있는 상황을 구별합니다. 이 작업에서 위에 설명된 접근 방식은 "독립적", "가까운" 및 "연속" 관계를 다룰 수 있습니다. "둘러싸임" 관계는 특정 개체가 다른 개체 그룹의 경계 내에 위치하는 경우에만 고려됩니다. 세부 기능은 중앙에 있는 상자에서 바깥쪽 상자까지 링크를 그리고 그 사이의 각도를 계산하여 달성됩니다. "사이"와 "양측" 관계의 구현은 향후 작업으로 남겨집니다.
우리 접근 방식의 두 번째 단계는 프롬프트를 사용하여 LLM이 유사한 패턴에 따라 캡션을 생성하도록 안내하는 것입니다. 섹션 2.1에 구현된 API를 사용하면 LLM에 메시지를 표시하고 이상적인 캡션을 생성하도록 안내하는 많은 옵션이 있습니다. LLM을 컨트롤러 또는 작업 디스패처로 처리한다는 최근 대중적인 아이디어에 따라[13], 한 가지 접근 방식은 언어 모델이 작업을 계획하고 기능을 순서대로 실행하여 유용한 지리적 분석 결과를 얻을 수 있도록 하는 것입니다. 예를 들어, 최근 개발된 ReAct[10] 접근 방식은 LLM의 추론 및 실행 프로세스를 시너지 효과로 활용하여 복잡한 작업을 처리하는 능력을 향상시킵니다. 이를 통해 지리적 분석의 유연성이 뛰어나고 생성된 캡션의 다양성이 향상됩니다. 그럼에도 불구하고 LLM은 눈길을 끄는 지리적 관계를 발견하는 데 어려움을 겪는 경향이 있으며 작업 실행 과정에서 얻은 덜 중요한 정보로 쉽게 넘쳐납니다.
문제를 해결하기 위해 우리는 중요한 지리적 관계를 쉽게 추출할 수 있는 클러스터와 독립형 개체 모두에 대해 가장 중요한 이웃을 나타내는 MST 알고리즘의 장점을 채택했습니다. 보다 구체적으로, 독립형 개체와 함께 감지된 조합 및 모양과 함께 각 이미지의 모든 그룹의 존재를 나열합니다. 그런 다음 LLM에 공간 관계에 대한 감각을 제공하기 위해 상자 간의 중요한 기하학적 관계가 제공됩니다. 이 경우 클러스터와 독립형 객체를 연결하는 클러스터링 단계(섹션 2.1.2) 중에 제거된 가장자리만 제시합니다. LLM에 의해 생성된 캡션과 제시된 공간 관계에 대한 그림이 그림 2에 나와 있습니다.
프롬프트는 이미 필요한 클러스터링 정보와 개체 간의 공간 관계를 제공했지만 LLM은 클러스터링 정보를 공간 관계로 가져오고 캡션을 생성하는 것만을 가정하지 않습니다. 이는 이미 템플릿 기반 또는 규칙 기반 방법으로 수행할 수 있습니다. LLM이 수행하는 가장 중요한 역할은 현재 공간 레이아웃을 이해하고 잠재적으로 중복되거나 중요하지 않은 관계를 적절한 캡션으로 바꾸어 표현하는 것입니다. 예를 들어, 그림 2(2)에서 MST 기반 알고리즘은 한 건물이 다른 건물보다 일부 건물에 더 가깝다는 것을 감지합니다. 그러나 전체 이미지가 서로 다른 건물로 채워져 있기 때문에 해당 관계를 반복하는 캡션은 다운스트림 딥 러닝 모델은 물론 인간 독자에게도 혼란과 모호함을 가져올 수 있습니다. 이 경우 LLM은 각 공간 관계의 중요성을 평가하고 필요한 표현을 수행하는 데 중요한 역할을 합니다.
이 작업에서는 "Few-Shot" 프롬프트 기술이라고 더 자주 언급되는 프롬프트에 필요한 예를 제공하여 LLM의 요약 동작을 보장합니다. 우리는 LLM이 클러스터링 결과를 공간 관계와 시너지 효과를 발휘하여 자체 단어로 캡션을 생성하는 몇 가지 예를 제공했습니다. 예상되는 행동에 대한 설명을 추가하거나 생각의 사슬 또는 생각의 나무 기술을 사용하여 추론 프로세스를 세분화하는 등 다른 프롬프트 기술도 잠재적으로 동일한 목표를 달성할 수 있습니다. 그럼에도 불구하고 입력 및 예상 출력 형식이 이미 복잡하다는 점을 고려하면 이러한 프롬프트 전략은 프롬프트 작성 과정에 훨씬 더 복잡하고 어려움을 가져올 수 있습니다. 더욱이, 우리의 실험 결과는 Few-shot Prompting이 위에서 언급한 기술보다 더 안정적으로 수행된다는 것을 보여줍니다.
또한 응답을 컴퓨터가 읽을 수 있는 형식으로 효과적으로 제한하기 위해 LLM에 Python 목록 형식으로 캡션을 출력하도록 명시적으로 지시합니다. 이 목록의 세부 정보는 이미 LLM의 사전 훈련 코퍼스에 포함되어 있으며 매개변수에 잘 포함되어 있습니다. 기억, 오히려
추가 설명이 필요한 다른 사용자 정의 형식과 다릅니다. 이전 섹션에서 소개한 대로 프롬프트에 예제를 제공하여 다시 달성할 수 있는 LLM 응답에서 개체 그룹의 ID를 갖지 않는 것이 좋습니다. 최근 많은 연구에서는 몇 번의 지시가 긴 지침을 사용한 제로 쇼 지시보다 더 효과적이라는 것이 밝혀졌습니다[11]. 자세한 절차는 그림 3에 나와 있습니다.
우리 접근 방식의 세 번째 단계는 각 이미지에 가장 적합한 캡션을 평가하고 선택하는 것입니다. 우리는 캡션의 품질을 평가하기 위해 두 가지 기준을 사용합니다. (a) 캡션 품질은 캡션이 실제 주석과 얼마나 잘 일치하는지 측정하고, (b) 캡션이 다른 이미지에서 생성된 다른 캡션과 얼마나 다른지 측정하는 캡션 다양성입니다. . 우리는 다음 절차를 사용합니다.
• 그룹 ID(예: "그룹 0") 또는 그룹 순서(예: "첫 번째 그룹")와 같이 혼란을 초래할 수 있는 바람직하지 않은 키워드가 포함된 캡션을 필터링합니다.
• 사전 훈련된 CLIP을 사용하여 입력 이미지와의 일치 여부를 기준으로 각 캡션의 점수를 계산합니다. 평가자는 다양한 도메인과 시나리오를 다루는 대규모 이미지 캡션 데이터 세트에 대해 교육을 받았습니다.
• 캡션 다양성을 기반으로 각 캡션의 점수를 계산하기 위해 유사성 측정을 사용합니다. 유사성 측정은 너무 모호하고 광범위한 설명을 피하기 위해 각 캡션을 다른 이미지에서 생성된 캡션과 비교합니다.
• 가중 평균 공식을 사용하여 두 점수를 결합하여 각 캡션의 최종 점수를 얻습니다.
• 최종 점수가 가장 높은 캡션을 각 이미지의 최상의 캡션으로 선택합니다.
이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다 .