paint-brush
LLM을 사용한 자동 위성 이미지 캡션 생성을 향하여: 개요 및 소개~에 의해@fewshot
171 판독값

LLM을 사용한 자동 위성 이미지 캡션 생성을 향하여: 개요 및 소개

~에 의해 The FewShot Prompting Publication 4m2024/06/16
Read on Terminal Reader

너무 오래; 읽다

연구원들은 LLM 및 API를 사용하여 정확도를 향상시키고 사람의 주석 요구를 줄이는 원격 감지 이미지 캡션 방법인 ARSIC을 제시합니다.
featured image - LLM을 사용한 자동 위성 이미지 캡션 생성을 향하여: 개요 및 소개
The FewShot Prompting Publication  HackerNoon profile picture
0-item

저자:

(1) He Yingxu, 싱가포르 국립대학교 컴퓨터과학과 {[email protected]};

(2) 난카이대학교 생명과학대학 Qiqi Sun {[email protected]}.

링크 표

추상적인

자동 이미지 캡션은 자연어를 사용하여 시각적 정보를 전달하는 유망한 기술입니다. 환경 모니터링, 자원 관리, 재난 관리 등과 같은 위성 원격 탐사의 다양한 작업에 도움이 될 수 있습니다. 그러나 이 영역의 주요 과제 중 하나는 많은 양이 필요하기 때문에 대규모 이미지 캡션 데이터 세트가 부족하다는 것입니다. 인간의 전문성과 창조를 위한 노력. LLM(대형 언어 모델)에 대한 최근 연구는 자연어 이해 및 생성 작업에서 인상적인 성능을 보여주었습니다. 그럼에도 불구하고 대부분의 모델은 이미지(GPT-3.5, Falcon, Claude 등)를 처리할 수 없으며, 일반적인 지상 뷰 이미지로 사전 학습된 기존 캡션 모델은 항공 이미지(BLIP, GIT, CM3, CM3Leon 등). 이 문제를 해결하기 위해 우리는 LLM이 개체 주석을 설명하도록 안내하여 원격 감지 이미지에 대한 캡션을 자동으로 수집하는 자동 원격 감지 이미지 캡션(ARSIC)이라는 새로운 접근 방식을 제안합니다. 또한 사전 훈련된 생성적 이미지2텍스트 모델(GIT)을 적용하여 원격 감지 이미지에 대한 고품질 캡션을 생성하는 벤치마크 모델을 제시합니다. 우리의 평가는 원격 감지 이미지에 대한 캡션을 수집하는 우리의 접근 방식의 효율성을 보여줍니다.


이전의 많은 연구에서는 GPT-3.5 및 GPT-4와 같은 LLM이 의미론을 이해하는 데는 좋지만 수치 데이터 및 복잡한 추론에 어려움을 겪는 것으로 나타났습니다. 이러한 한계를 극복하기 위해 ARSIC은 외부 API를 활용하여 객체 관계 및 클러스터링과 같은 이미지에 대한 간단한 지리적 분석을 수행합니다. 객체에 대한 클러스터링을 수행하고 LLM에 대한 중요한 기하학적 관계를 제시하여 요약합니다. LLM의 최종 출력은 이미지를 설명하는 여러 캡션입니다. 캡션은 언어 유창성과 원본 이미지와의 일관성을 기준으로 추가 순위를 매기고 최종 후보로 선정됩니다.


우리는 차량, 구조물, 선박과 같은 다양한 객체에 대한 경계 상자 주석이 있는 위성 이미지를 포함하는 Xview 및 DOTA 데이터 세트의 7,000개 및 2,000개 이미지-캡션 쌍에 대해 사전 훈련된 생성적 이미지2텍스트(GIT) 모델을 미세 조정합니다. 등. 인간 전문가가 주석을 추가한 10,892개의 이미지와 31,783개의 캡션이 포함된 위성 이미지 캡션에 대한 벤치마크 데이터세트인 RSICD 데이터세트에 대한 접근 방식을 평가합니다. 우리는 훈련 데이터에서 보이지 않는 개체 유형이 있는 캡션을 제거하고 5,000개 이상의 캡션이 포함된 1746개의 이미지를 얻습니다. 여기서 CIDEr-D 점수 85.93을 달성하여 위성 원격 탐사에서 자동 이미지 캡션에 대한 접근 방식의 효율성과 잠재력을 보여줍니다. 전반적으로 이 작업은 지리공간 데이터세트를 해석하고 엔드투엔드 이미지 캡션 모델을 교육하기 위한 정확한 이미지 캡션을 생성하도록 안내하는 실행 가능한 방법을 제시합니다. 우리의 접근 방식은 사람이 주석을 추가할 필요성을 줄이고 데이터세트나 도메인에 쉽게 적용할 수 있습니다.

1. 소개

위성 원격탐사는 재난관리, 환경감시, 자원관리 등 다양한 분야에서 필수적이다. 우주에서 포착한 이미지를 분석하고 지구 표면의 물체를 감지하고 분류하는 데 중점을 두어 유용한 공간 정보를 생성합니다. 이러한 이미지에는 풍부한 양의 데이터가 포함될 수 있으므로 자연어를 사용하여 이러한 이미지의 시각적 정보를 해석하고 전달하는 효율적인 방법으로 자동 이미지 캡션이 등장했습니다.


상당한 잠재력에도 불구하고 위성 원격 감지 이미지의 자동 이미지 캡션 작성의 주요 과제는 대규모 이미지 캡션 데이터 세트가 부족하다는 것입니다. 이러한 데이터 세트를 생성하는 것은 노동 집약적이며 상당한 인간 전문 지식이 필요합니다. GPT3.5[7], Falcon, Claude와 같은 기존 모델은 수치 데이터를 해석하거나 복잡한 추론을 수행할 수 있는 장비가 없기 때문에 적용 가능성이 부족한 경우가 많습니다. 마찬가지로 일반 지상 뷰 이미지에 대해 사전 학습된 BLIP[5], GIT[9], CM3[1] 및 CM3Leon[12]과 같은 모델은 항공 이미지에 대한 정확한 캡션을 생성하는 데 어려움을 겪습니다. 이러한 제한으로 인해 원격 감지 이미지에 대한 고품질 자동 캡션을 달성하기가 어렵습니다.


이 문제에 직면하기 위해 본 연구에서는 대규모 언어 모델과 위성 데이터를 모두 활용하여 원격 감지 이미지에 대한 고품질 캡션을 효율적으로 생성하는 자동 원격 감지 이미지 캡션(ARSIC)이라는 새로운 접근 방식을 제안합니다. 우리의 기여는 세 가지입니다. 먼저, 이미지에 대한 이해도를 높이기 위해 군집을 감지하고, 물체가 형성하는 모양을 식별하고, 거리를 계산하는 여러 지리적 분석 API를 개발합니다. 둘째, 지리적 API의 결과를 캡션으로 요약하도록 대규모 언어 모델을 안내하여 캡션 수집 프로세스를 자동화합니다. 이렇게 하면 사람이 주석을 추가할 필요성이 상당히 줄어듭니다. 마지막으로 Xview[4] 및 DOTA[2] 데이터 세트에서 ARSIC 접근 방식에 따라 수집된 이미지-캡션 쌍에 대한 생성적 image2text(GIT) 모델을 미세 조정하고 항공 이미지에 대한 고품질의 정확한 캡션을 생성하도록 맞춤화된 벤치마크를 제공합니다. .


우리 접근 방식의 효율성은 RSICD[6] 테스트 데이터 세트에 대한 엄격한 테스트를 통해 검증되었으며 현장에서 새로운 벤치마크 CIDEr-D[8] 점수를 설정했습니다. 요약하자면, 우리의 작업은 원격 감지 이미지를 해석하고 캡션을 작성하는 데 대한 혁신적인 접근 방식을 제시합니다. 이 방법은 엔드투엔드 이미지 캡션 모델을 최적화하는 데 유망할 뿐만 아니라 데이터세트나 도메인에 걸쳐 적용할 수 있을 만큼 유연합니다.


이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다 .