Авторы:
(1) Инсюй Хэ, факультет компьютерных наук Национального университета Сингапура {[email protected]};
(2) Цици Сунь, Колледж естественных наук Нанкайского университета {[email protected]}.
Автоматические субтитры к изображениям — перспективный метод передачи визуальной информации с использованием естественного языка. Это может принести пользу различным задачам спутникового дистанционного зондирования, таким как мониторинг окружающей среды, управление ресурсами, борьба со стихийными бедствиями и т. д. Однако одной из основных проблем в этой области является отсутствие крупномасштабных наборов данных с подписями к изображениям, поскольку они требуют большого количества данных. человеческого опыта и усилий по созданию. Недавнее исследование моделей большого языка (LLM) продемонстрировало их впечатляющую производительность в задачах понимания и генерации естественного языка. Тем не менее, большинство из них не могут обрабатывать изображения (GPT-3.5, Falcon, Claude и т. д.), в то время как традиционные модели субтитров, предварительно обученные на общих изображениях с видом на землю, часто не могут создавать подробные и точные подписи для аэрофотоснимков (BLIP, GIT, CM3, CM3Leon и др.). Чтобы решить эту проблему, мы предлагаем новый подход: автоматическое создание подписей к изображениям дистанционного зондирования (ARSIC), позволяющее автоматически собирать подписи к изображениям дистанционного зондирования, направляя LLM для описания аннотаций своих объектов. Мы также представляем эталонную модель, которая адаптирует предварительно обученную генеративную модель image2text (GIT) для создания высококачественных подписей к изображениям дистанционного зондирования. Наша оценка демонстрирует эффективность нашего подхода к сбору подписей к изображениям дистанционного зондирования.
Многие предыдущие исследования показали, что LLM, такие как GPT-3.5 и GPT-4, хорошо понимают семантику, но с трудом справляются с числовыми данными и сложными рассуждениями. Чтобы преодолеть это ограничение, ARSIC использует внешние API для выполнения простого географического анализа изображений, такого как объектные отношения и кластеризация. Мы выполняем кластеризацию объектов и представляем значимые геометрические отношения для LLM для обобщения. Конечным результатом LLM является несколько подписей, описывающих изображение, которые будут далее ранжированы и включены в шорт-лист на основе владения языком и соответствия исходному изображению.
Мы настраиваем предварительно обученную генеративную модель image2text (GIT) на 7 тысячах и 2 тысячах пар изображение-подпись из наборов данных Xview и DOTA, которые содержат спутниковые изображения с аннотациями в ограничительной рамке для различных объектов, таких как транспортные средства, конструкции, корабли. и т. д. Мы оцениваем наш подход на наборе данных RSICD, эталонном наборе данных для подписей к спутниковым изображениям, включающем 10 892 изображения и 31 783 подписи, аннотированных экспертами. Мы удаляем подписи с невидимыми типами объектов из обучающих данных и получаем 1746 изображений с более чем 5 тысячами подписей, где мы достигаем оценки CIDEr-D 85,93, демонстрируя эффективность и потенциал нашего подхода к автоматическому добавлению подписей к изображениям при спутниковом дистанционном зондировании. В целом, эта работа представляет собой реальный способ помочь им интерпретировать наборы геопространственных данных и создавать точные подписи к изображениям для обучения сквозных моделей подписей к изображениям. Наш подход снижает потребность в ручных аннотациях и может быть легко применен к наборам данных или доменам.
Спутниковое дистанционное зондирование имеет важное значение во многих областях, таких как борьба со стихийными бедствиями, мониторинг окружающей среды и управление ресурсами. Он включает в себя анализ изображений, снятых из космоса, с упором на обнаружение и классификацию объектов на поверхности Земли для получения полезной пространственной информации. Поскольку эти изображения могут содержать большое количество данных, автоматическое добавление подписей к изображениям стало эффективным методом интерпретации и передачи визуальной информации на этих изображениях с использованием естественного языка.
Несмотря на значительный потенциал, основной проблемой автоматического добавления подписей к изображениям спутникового дистанционного зондирования является нехватка крупномасштабных наборов данных подписей к изображениям. Создание таких наборов данных является трудоемким и требует значительных человеческих знаний. Зачастую ранее существовавшие модели, такие как GPT3.5[7], Falcon и Claude, неэффективны в своей применимости, поскольку они не способны интерпретировать числовые данные или выполнять сложные рассуждения. Аналогично, такие модели, как BLIP[5], GIT[9], CM3[1] и CM3Leon[12], которые предварительно обучены на общих изображениях вида с земли, с трудом создают точные подписи к аэрофотоснимкам. Эти ограничения затрудняют создание высококачественных автоматических субтитров для изображений дистанционного зондирования.
Чтобы решить эту проблему, в этом исследовании мы предлагаем новый подход: автоматическое субтитрование изображений дистанционного зондирования (ARSIC), которое использует как большие языковые модели, так и спутниковые данные для эффективного создания высококачественных подписей к изображениям дистанционного зондирования. Наш вклад тройной. Во-первых, мы разрабатываем несколько API-интерфейсов географического анализа для обнаружения кластеров, определения форм, образованных объектами, и расчета расстояний, чтобы обеспечить более глубокое понимание изображения. Во-вторых, мы автоматизируем процесс сбора подписей, направляя большие языковые модели для суммирования результатов географических API в подписи. Это значительно снижает потребность в ручных аннотациях. Наконец, мы обеспечиваем контрольный показатель путем точной настройки генеративной модели изображение2текст (GIT) на парах изображение-подпись, собранных в соответствии с нашим подходом ARSIC из наборов данных Xview[4] и DOTA[2] и адаптированных для создания высококачественных и точных подписей к аэрофотоснимкам. .
Эффективность нашего подхода подтверждена тщательным тестированием набора тестовых данных RSICD[6], что позволило установить новый эталонный показатель CIDEr-D[8] в полевых условиях. Подводя итог, наша работа представляет собой инновационный подход к интерпретации и подписи к изображениям дистанционного зондирования — метод, который не только многообещающ для оптимизации сквозных моделей подписей к изображениям, но и достаточно гибок для применения в наборах данных или доменах.
Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.