paint-brush
На пути к автоматическому созданию подписей к спутниковым изображениям с использованием LLM: методологияк@fewshot
177 чтения

На пути к автоматическому созданию подписей к спутниковым изображениям с использованием LLM: методология

Слишком долго; Читать

Исследователи представляют ARSIC, метод субтитров к изображениям дистанционного зондирования с использованием LLM и API, повышающий точность и сокращающий потребности в аннотациях, выполняемых человеком.
featured image - На пути к автоматическому созданию подписей к спутниковым изображениям с использованием LLM: методология
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Авторы:

(1) Инсюй Хэ, факультет компьютерных наук Национального университета Сингапура {[email protected]};

(2) Цици Сунь, Колледж естественных наук Нанкайского университета {[email protected]}.

Таблица ссылок

2. Методология

В этом разделе мы описываем предлагаемый нами подход к автоматическому сбору подписей к изображениям дистанционного зондирования, помогая LLM описывать аннотации своих объектов. В данной работе мы ограничиваем количество объектов на каждом изображении не более 15, что обеспечивает относительно простую пространственную компоновку LLM. Наш подход состоит из трех основных этапов: (1) разработать API для проведения географического анализа и описания пространственных отношений между объектами, (2) заставить API генерировать подписи с помощью API и (3) оценку и выбор подписей. Ниже мы подробно объясним каждый шаг.

2.1 API пространственных отношений

LLM некомпетентен в обработке двумерной географической информации, поэтому мы реализовали несколько аналитических подходов для анализа пространственных отношений между объектами. Вдохновленные подписями к статье RSICD, мы сосредоточились только на анализе расстояний между объектами, концентрации местоположений объектов, форм, образованных группами объектов, и значимых отношений между объектами.

2.1.1 Расстояние

В наборах данных Xview и Dota размер объектов сильно различается. Поэтому использование расстояния между центрами нецелесообразно для расстояний между объектами. Например, хотя центры двух больших зданий могут находиться довольно далеко друг от друга, их внутренние стены могут находиться всего в нескольких шагах от них. Поэтому мы считаем кратчайшие расстояния между ограничивающими рамками их расстоянием. Что касается расстояния между двумя группами объектов, мы представляем его как расстояние между их ближайшим элементом, которое обычно называют мерой одиночной связи в области кластеризации.

2.1.2 Кластеризация

Одной из наиболее важных особенностей, улавливаемых человеческим глазом, является концентрация объектов в зависимости от их местоположения и типа: например, можно легко отличить транспортное средство, движущееся по шоссе, от нескольких зданий, стоящих вдоль дороги. С другой стороны, люди также склонны обращать внимание на ближайшего соседа объекта: например, легковому автомобилю рядом с грузовиком легче привлечь внимание людей, чем зданию, расположенному относительно дальше от грузовика. Традиционные алгоритмы кластеризации машинного обучения включают алгоритмы на основе расстояния, такие как K-Means и иерархическая кластеризация, а также кластеризацию на основе плотности, такую как DBSCAN и его варианты. Однако алгоритм K-Means часто не может отделить выбросы от концентрированных объектов, а преимущества кластеризации на основе плотности могут быть скрыты в этом случае, когда каждое изображение содержит менее десяти объектов.


В этой работе мы использовали алгоритм минимального связующего дерева (MST) для соединения всех объектов изображения и формирования кластеров путем удаления из графа значительно длинных ребер. Алгоритм MST Крускала[3] учитывает ближайших соседей объектов и одновременно пропускает незначительные соединения, гарантируя, что каждое ребро дерева соответствует поведению людей, наблюдающему за ними. Мы установили порог на уровне 75 процентилей весов ребер из всего набора данных. Ребра выше этого порога были удалены из графа, чтобы сформировать кластеры, минимизируя внутрикластерные и максимизируя расстояния между кластерами. Чтобы стимулировать группировку объектов одного типа в один кластер, мы добавляем дополнительную длину к расстояниям между объектами разных типов. На рисунке 1 представлена подробная иллюстрация алгоритма кластеризации на основе MST. Этот подход позволяет точно разделить объекты по типу, местоположению и близости, что принесет пользу последующему географическому анализу.


Рисунок 1: Иллюстрация алгоритма кластеризации на основе MST. На рисунке (1) показан созданный граф, представляющий минимальное остовное дерево. Дополнительная длина добавляется к расстоянию между объектами разных типов. На рисунке (2) показаны кластеры, образовавшиеся при разрезании длинных ребер. Рисунок (3) проецирует расположение объектов на реальное изображение.

2.1.3 Геометрическая форма

Вдохновленная подписями, представленными в наборе данных RSICD, форма линии считается фундаментальной формой, которую необходимо обнаружить в этой работе. Он кажется наиболее привлекательным для человеческого глаза и является основным элементом многих других сложных форм. Например, узор улиц с квадратной сеткой — один из самых популярных узоров улиц, используемых в городах, где линии зданий являются наиболее фундаментальными элементами. Несомненно, другие формы также могут легко привлечь внимание людей, например, круги и квадраты. Тем не менее, в условиях данной работы, где каждое изображение содержит не более 15 объектов, они менее очевидны и их труднее обнаружить. Поэтому мы реализовали метод обнаружения форм линий из групп объектов только путем проверки того, параллельны ли линии, образованные углами ограничивающих рамок.

2.1.4 Геометрическое соотношение

Мы рассматриваем некоторые отношения, перечисленные в статье RSICD[6], и получаем список отношений, которые должны быть включены в подписи к изображениям: «стоят отдельно», «рядом», «в ряду», «окружены», «между ", и "в двух сторонах". Мы изменили отношение «в рядах» из статьи RSICD на «в ряд», поскольку объекты в разных рядах могут быть сгруппированы в разные группы, как описано в разделе 2.1.2, и любая возможная форма линии будет обнаружена путем идентификации формы. алгоритм описан в разделе 2.1.3. Кроме того, мы предлагаем отношение «между» как обратную сторону отношения «в двух сторонах», чтобы отличить ситуацию, когда есть только объекты по обе стороны от других, от объектов, вращающихся вокруг других на 360°. В данной работе описанные выше подходы могут рассматривать отношения «стоят отдельно», «рядом» и «в ряд». Отношение «окружено» учитывается только тогда, когда определенные объекты расположены внутри границы другой группы объектов. Детализация функции достигается за счет рисования связей от ячеек посередине к крайним и расчета углов между ними. Реализация отношений «между» и «в двух сторонах» оставлена на будущее.

2.2 Подсказки по программе LLM

Второй шаг нашего подхода — использовать подсказки, которые помогут LLM создать подпись по аналогичному шаблону. Благодаря API, реализованным в разделе 2.1, существует множество вариантов, позволяющих подсказать LLM и направить его на создание идеальных подписей. Следуя недавно популярной идее рассматривать LLM как контроллер или диспетчер действий[13], один из подходов может заключаться в том, чтобы позволить языковой модели планировать свои действия и последовательно выполнять функции для получения полезных результатов географического анализа. Например, недавно разработанный подход ReAct[10] объединяет процессы рассуждения и выполнения LLM, повышая его способность решать сложные задачи. Это обеспечивает большую гибкость в географическом анализе и большее разнообразие создаваемых подписей. Тем не менее, LLM, как правило, испытывает трудности с обнаружением привлекательных географических связей и легко переполняется менее важной информацией, полученной в процессе выполнения действий.


Чтобы решить эту проблему, мы воспользовались преимуществом алгоритма MST, который выявляет наиболее важных соседей как для кластеров, так и для отдельных объектов, откуда мы можем легко извлечь важные географические связи. Точнее, мы указываем наличие каждой группы на каждом изображении с указанием их комбинации и обнаруженных форм, а также отдельных объектов. Затем предоставляются важные геометрические отношения между ящиками, чтобы дать LLM представление об их пространственных отношениях. В этом случае мы показываем только ребра, удаленные на этапе кластеризации (раздел 2.1.2), который соединяет кластеры и автономные объекты. Иллюстрация представленных пространственных отношений и подписей, созданных LLM, представлена на рисунке 2.

2.2.1 Разнообразие подписей

Хотя подсказка уже предоставила необходимую информацию о кластеризации и пространственных отношениях между объектами, LLM не должен только вносить информацию о кластеризации в пространственные отношения и создавать подписи, что уже можно сделать с помощью метода на основе шаблонов или правил. Самая важная роль, которую играет LLM, — это понять текущую пространственную планировку и перефразировать потенциально избыточные или незначительные отношения в соответствующих подписях. Например, на рисунке 2 (2) алгоритм на основе MST обнаруживает, что одно здание находится ближе к одним зданиям, чем к другим. Однако, поскольку все изображение занято разными зданиями, подпись, повторяющая это отношение, может внести путаницу и двусмысленность в последующие модели глубокого обучения и даже в читателей. В этом случае LLM играет жизненно важную роль в оценке значимости каждого пространственного отношения и выполнении необходимого перефразирования.


В данной работе обобщающее поведение LLM обеспечивается за счет предоставления необходимых примеров в подсказке, которую чаще называют методом подсказки «Несколько кадров». Мы привели несколько примеров, в которых LLM должен объединять результаты кластеризации с пространственными отношениями для создания подписей своими словами. Другие методы подсказок потенциально могут достичь той же цели, например, добавление описаний ожидаемого поведения или разрушение процесса рассуждения с использованием методов «Цепочка мыслей» или «Древо мысли». Тем не менее, учитывая, что формат ввода и ожидаемого вывода уже сложный, эти стратегии подсказок могут значительно усложнить процесс написания подсказок. Более того, наши экспериментальные результаты показывают, что подсказки с несколькими выстрелами работают более стабильно, чем любой из вышеупомянутых методов.

2.2.2 Форматирование ответа

Кроме того, чтобы эффективно ограничить ответ машиночитаемым форматом, мы явно проинструктируем LLM выводить подписи в формате списка Python, подробная информация которого уже включена в корпус предварительного обучения LLM и хорошо встроена в его параметрические память, скорее


Рисунок 2: Примеры информации и подписей географического анализа, созданных LLM. Для каждого примера информация об объекте и географические закономерности предоставляются нашими реализованными API и передаются в LLM в качестве входных данных.


чем другой индивидуальный формат, требующий дополнительного объяснения. Желательно, чтобы в ответе LLM не было идентификаторов групп объектов, что снова достигается путем предоставления примеров в подсказке, как было представлено в предыдущем разделе. Во многих недавних исследовательских работах утверждалось, что подсказки с несколькими предложениями работают лучше, чем подсказки без показа с длительными инструкциями[11]. Подробные процедуры можно показать на рисунке 3.

2.3 Оценка и выбор подписей

Третий шаг нашего подхода — оценить и выбрать лучшую подпись для каждого изображения. Мы используем два критерия для оценки качества подписей: (а) качество подписи, которое измеряет, насколько хорошо подпись соответствует основной аннотации правды, и (б) разнообразие подписей, которое измеряет, насколько подпись отличается от других подписей, созданных на основе других изображений. . Мы используем следующую процедуру:


• Мы отфильтровываем подписи, содержащие нежелательные ключевые слова, такие как идентификатор группы, например «группа 0», или порядок группы, например «первая группа», что может привести к путанице.


• Мы используем предварительно обученный CLIP для вычисления оценки для каждой подписи на основе ее соответствия входному изображению. Оценщик обучается на крупномасштабном наборе данных подписей к изображениям, который охватывает различные области и сценарии.


• Мы используем меру сходства для расчета оценки для каждой подписи на основе разнообразия подписей. Мера сходства сравнивает каждую подпись с подписями, созданными на основе других изображений, чтобы избежать слишком расплывчатых и широких описаний.


• Мы объединяем обе оценки, используя формулу средневзвешенного значения, чтобы получить окончательную оценку для каждого заголовка.


• Мы выбираем подпись с наивысшим итоговым баллом как лучшую подпись для каждого изображения.


Рисунок 3: Иллюстрация структуры нашего приглашения и результатов LLM. В подсказке к LLM приводятся дополнительные примеры, но для демонстрации здесь приведен только один.



Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.