paint-brush
LLM を使用した衛星画像のキャプションの自動生成に向けて: 方法論@fewshot
177 測定値

LLM を使用した衛星画像のキャプションの自動生成に向けて: 方法論

長すぎる; 読むには

研究者らは、LLM と API を使用してリモート センシング画像のキャプションを付ける方法である ARSIC を発表し、精度を向上させ、人間による注釈の必要性を減らします。
featured image - LLM を使用した衛星画像のキャプションの自動生成に向けて: 方法論
The FewShot Prompting Publication  HackerNoon profile picture
0-item

著者:

(1)Yingxu He、シンガポール国立大学コンピュータサイエンス学部 {[email protected]}

(2)南開大学生命科学学院、Qiqi Sun {[email protected]}。

リンク一覧

2. 方法論

このセクションでは、LLM にオブジェクトの注釈を記述するように誘導することで、リモート センシング画像のキャプションを自動的に収集する提案アプローチについて説明します。この作業では、各画像内のオブジェクトの数を 15 個以下に制限し、LLM の比較的単純な空間レイアウトを保証します。私たちのアプローチは、(1) 地理分析を実行し、オブジェクト間の空間関係を記述するための API を開発する、(2) API の助けを借りて API にキャプションを生成するように促す、(3) キャプションの評価と選択という 3 つの主なステップで構成されています。以下で各ステップについて詳しく説明します。

2.1 空間関係API

LLM は 2 次元の地理情報の処理には不向きであるため、オブジェクト間の空間関係を分析するためにいくつかの分析アプローチを実装しました。RSICD の論文で提供されたキャプションに触発され、オブジェクト間の距離、オブジェクトの位置の集中、オブジェクトのグループによって形成される形状、およびオブジェクト間の重要な関係の分析にのみ焦点を当てました。

2.1.1 距離

Xview および Dota データセットでは、オブジェクトのサイズが大きく異なります。したがって、オブジェクト間の距離として中心間の距離を使用することは適切ではありません。たとえば、2 つの大きな建物の中心はかなり離れているかもしれませんが、内側の壁は数歩しか離れていない可能性があります。したがって、境界ボックス間の最短距離をそれらの距離と見なします。2 つのオブジェクト グループ間の距離については、最も近い要素間の距離で表します。これは通常、クラスタリングの分野ではシングル リンク メジャーと呼ばれます。

2.1.2 クラスタリング

人間の目で捉えられる最も重要な特徴の 1 つは、位置と種類に基づくオブジェクトの集中です。たとえば、高速道路を走る車両と道路脇に建つ複数の建物は簡単に区別できます。一方、人々はオブジェクトの最も近い隣に注意を払う傾向もあり、たとえば、トラックの隣にある乗用車は、トラックから比較的離れた建物よりも人々の注意を引きやすいです。従来の機械学習クラスタリング アルゴリズムには、K-Means や階層的クラスタリングなどの距離ベースのアルゴリズムと、DBSCAN やそのバリエーションなどの密度ベースのクラスタリングがあります。ただし、K-Means アルゴリズムでは、外れ値と集中したオブジェクトを分離できないことが多く、各画像に含まれるオブジェクトが 10 個未満の場合は、密度ベースのクラスタリングの利点が埋もれてしまう可能性があります。


この研究では、最小スパニングツリー(MST)アルゴリズムを使用して、画像内のすべてのオブジェクトを接続し、グラフから著しく長いエッジを削除してクラスターを形成しました。KruskalのMSTアルゴリズム[3]は、オブジェクトの最も近い隣接オブジェクトを考慮し、同時に無視できる接続をスキップして、すべてのツリーエッジが人間の観察行動に一致するようにします。データセット全体のエッジ重みの75パーセンタイルにしきい値を設定しました。このしきい値を超えるエッジはグラフから削除されてクラスターを形成し、クラスター内距離が最小化され、クラスター間距離が最大化されました。同じタイプのオブジェクトを同じクラスターにグループ化するように、異なるタイプのオブジェクト間の距離に余分な長さを追加します。図1は、MSTベースのクラスタリングアルゴリズムの詳細を示しています。このアプローチは、タイプ、場所、および近接性によってオブジェクトを正確に分割することができ、その後の地理的分析に役立ちます。


図 1: MST ベースのクラスタリング アルゴリズムの図解。図 (1) は、最小全域木を表す作成されたグラフを示しています。異なる種類のオブジェクト間の距離に余分な長さが追加されます。図 (2) は、長い辺を切断して形成されたクラスターを示しています。図 (3) は、オブジェクトの位置を実際の画像に投影したものです。

2.1.3 幾何学的形状

RSICD データセットで提供されているキャプションに触発されて、線の形状は、この作業で検出される基本的な形状であると考えられています。人間の目に最も魅力的であり、他の多くの複雑な形状の基本要素であるようです。たとえば、正方形のグリッドストリートパターンは、建物の線が最も基本的な要素である都市で使用される最も人気のあるストリートパターンの1つです。円や正方形など、他の形状も簡単に人々の注意を引くことができることは否定できません。ただし、各画像に最大15個のオブジェクトが含まれるこの作業の設定では、それらは目立たず、検出が困難です。そのため、境界ボックスの角によって形成される線が平行であるかどうかを検査することによって、オブジェクトのグループから線の形状を検出する方法のみを実装しました。

2.1.4 幾何学的関係

RSICD 論文[6] に記載されている関係をいくつか確認し、画像のキャプションに含める関係のリストを作成しました。「単独で立っている」、「近くにある」、「一列に並んでいる」、「囲まれている」、「間にある」、「両側にある」です。RSICD 論文の「一列に並んでいる」関係を「一列に並んでいる」に変更したのは、セクション 2.1.2 で説明されているように、異なる列にあるオブジェクトは異なるグループにクラスター化でき、セクション 2.1.3 で説明されている形状識別アルゴリズムによって、あらゆる可能な線の形状が検出されるためです。さらに、「両側にある」の反対として「間にある」関係を提案し、他のオブジェクトの両側にのみオブジェクトがある状況と、他のオブジェクトが 360◦ 周囲を回っている状況を区別します。この研究では、上記のアプローチを使用して、「単独で立っている」、「近くにある」、「一列に並んでいる」関係に対処できます。「囲まれている」関係は、特定のオブジェクトが別のオブジェクト グループの境界内にある場合にのみ考慮されます。詳細な機能は、中央のボックスから外側のボックスへのリンクを描画し、それらの間の角度を計算することによって実現されます。「間の」および「両側の」関係の実装は、今後の作業に残されています。

2.2 LLMプロンプト

私たちのアプローチの2番目のステップは、プロンプトを使用して、同様のパターンに従ってキャプションを生成するようにLLMをガイドすることです。セクション2.1で実装されたAPIを使用すると、LLMにプロンプトを出して理想的なキャプションを生成するようにガイドするための多くのオプションがあります。LLMをコントローラーまたはアクションディスパッチャーとして扱うという最近人気のアイデア[13]に従って、言語モデルがアクションを計画し、関数を順番に実行して、役立つ地理分析結果を取得できるようにするというアプローチが考えられます。たとえば、最近開発されたReAct[10]アプローチは、LLMの推論と実行プロセスを相乗的に活用して、複雑なタスクを処理する機能を強化します。これにより、地理分析に大きな柔軟性がもたらされ、生成されるキャプションの多様性が向上します。ただし、LLMは目を引く地理的関係を発見するのが難しい傾向があり、アクション実行プロセス中に受信した重要度の低い情報で簡単に溢れてしまいます。


この問題を解決するために、クラスターとスタンドアロン オブジェクトの両方で最も重要な近傍を明らかにし、そこから重要な地理的関係を簡単に抽出できる MST アルゴリズムの利点を採用しました。より具体的には、各画像内のすべてのグループの存在を、検出された組み合わせと形状とともにスタンドアロン オブジェクトとともにリストします。次に、ボックス間の重要な幾何学的関係が提供され、LLM に空間関係の感覚が与えられます。この場合、クラスターとスタンドアロン オブジェクトを接続するクラスタリング ステップ (セクション 2.1.2) 中に削除されたエッジのみを提示します。提示された空間関係の図解と LLM によって作成されたキャプションを図 2 に示します。

2.2.1 キャプションの多様化

プロンプトではすでに必要なクラスタリング情報とオブジェクト間の空間関係が提供されていますが、LLM はクラスタリング情報を空間関係に取り入れてキャプションを作成するだけではありません。これは、テンプレートベースまたはルールベースの方法ですでに実行できます。 LLM が果たす最も重要な役割は、現在の空間レイアウトを理解し、潜在的に冗長または重要でない関係を適切なキャプションに言い換えることです。 たとえば、図 2 (2) では、MST ベースのアルゴリズムにより、1 つの建物が他の建物よりもいくつかの建物に近いことが検出されています。 ただし、画像全体がさまざまな建物で占められているため、その関係を繰り返すキャプションは、下流のディープラーニング モデル、さらには人間の読者に混乱と曖昧さをもたらす可能性があります。 この場合、LLM は各空間関係の重要性を評価し、必要な言い換えを実行する上で重要な役割を果たします。


この研究では、プロンプトに必要な例を提供することで LLM の要約動作が保証されます。これは、「Few-Shot」プロンプト手法と呼ばれることが多いです。私たちは、クラスタリング結果と空間関係を相乗的に利用して LLM 自身の言葉でキャプションを作成する例をいくつか示しました。他のプロンプト手法でも、期待される動作の説明を追加したり、Chain of Thought または Tree of Thought 手法を使用して推論プロセスを分解したりするなど、同じ目標を達成できる可能性があります。ただし、入力と期待される出力形式がすでに複雑であることを考えると、これらのプロンプト戦略はプロンプト作成プロセスにさらに複雑さと困難をもたらす可能性があります。さらに、私たちの実験結果では、Few-Shot プロンプトは上記のどの手法よりも安定して機能することが示されています。

2.2.2 レスポンスのフォーマット

さらに、応答をコンピュータが読み取り可能な形式に効果的に制限するために、LLMにキャプションをPythonリストの形式で出力するように明示的に指示します。その詳細情報はLLMの事前トレーニングコーパスにすでに含まれており、パラメトリックメモリに適切に埋め込まれています。


図 2: LLM によって生成された地理分析情報とキャプションの例。各例では、オブジェクト情報と地理パターンが実装された API によって提供され、LLM に入力として渡されます。


追加の説明を必要とする他のカスタマイズされた形式よりも優れています。LLM応答にはオブジェクトグループのIDが含まれないようにすることが望ましく、これも前のセクションで紹介したようにプロンプトに例を提供することで実現されます。最近の多くの研究では、長い説明を伴うゼロショープロンプトよりも、少数ショットプロンプトの方が効果的であると述べられています[11]。詳細な手順は図3に示されています。

2.3 キャプションの評価と選択

私たちのアプローチの 3 番目のステップは、各画像に最適なキャプションを評価して選択することです。キャプションの品質を評価するために、(a) キャプションの品質 (キャプションが実際の注釈とどの程度一致しているかを測定する)、および (b) キャプションの多様性 (キャプションが他の画像から生成された他のキャプションとどの程度異なるかを測定する) という 2 つの基準を使用します。次の手順を使用します。


• 混乱を招く可能性のある、グループの ID (「グループ 0」など) やグループの順序 (「最初のグループ」など) などの望ましくないキーワードを含むキャプションは除外します。


• 事前にトレーニングされた CLIP を使用して、入力画像との一致に基づいて各キャプションのスコアを計算します。評価者は、さまざまなドメインとシナリオをカバーする大規模な画像キャプション データセットでトレーニングされています。


• キャプションの多様性に基づいて、類似度測定を使用して各キャプションのスコアを計算します。類似度測定では、各キャプションを他の画像から生成されたキャプションと比較し、説明が漠然としすぎたり広範すぎたりしないようにします。


• 加重平均式を使用して両方のスコアを組み合わせ、各キャプションの最終スコアを取得します。


• 最終スコアが最も高いキャプションを各画像のベストキャプションとして選択します。


図 3: プロンプトの構造と LLM からの出力の図解。プロンプトでは LLM にさらに多くの例が示されていますが、ここではデモンストレーションのために 1 つだけ示しています。



この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下でarxiv で公開されています