Авторы:  (1) Инсюй Хэ, факультет компьютерных наук Национального университета Сингапура {e0139128@u.nus.edu};  (2) Цици Сунь, Колледж естественных наук Нанкайского университета {sunqiqi1018@gmail.com}.  Таблица ссылок   Аннотация и введение   Методология   Рекомендации  Абстрактный  Автоматические субтитры к изображениям — перспективный метод передачи визуальной информации с использованием естественного языка. Это может принести пользу различным задачам спутникового дистанционного зондирования, таким как мониторинг окружающей среды, управление ресурсами, борьба со стихийными бедствиями и т. д. Однако одной из основных проблем в этой области является отсутствие крупномасштабных наборов данных с подписями к изображениям, поскольку они требуют большого количества данных. человеческого опыта и усилий по созданию. Недавнее исследование моделей большого языка (LLM) продемонстрировало их впечатляющую производительность в задачах понимания и генерации естественного языка. Тем не менее, большинство из них не могут обрабатывать изображения (GPT-3.5, Falcon, Claude и т. д.), в то время как традиционные модели субтитров, предварительно обученные на общих изображениях с видом на землю, часто не могут создавать подробные и точные подписи для аэрофотоснимков (BLIP, GIT, CM3, CM3Leon и др.). Чтобы решить эту проблему, мы предлагаем новый подход: автоматическое создание подписей к изображениям дистанционного зондирования (ARSIC), позволяющее автоматически собирать подписи к изображениям дистанционного зондирования, направляя LLM для описания аннотаций своих объектов. Мы также представляем эталонную модель, которая адаптирует предварительно обученную генеративную модель image2text (GIT) для создания высококачественных подписей к изображениям дистанционного зондирования. Наша оценка демонстрирует эффективность нашего подхода к сбору подписей к изображениям дистанционного зондирования.  Многие предыдущие исследования показали, что LLM, такие как GPT-3.5 и GPT-4, хорошо понимают семантику, но с трудом справляются с числовыми данными и сложными рассуждениями. Чтобы преодолеть это ограничение, ARSIC использует внешние API для выполнения простого географического анализа изображений, такого как объектные отношения и кластеризация. Мы выполняем кластеризацию объектов и представляем значимые геометрические отношения для LLM для обобщения. Конечным результатом LLM является несколько подписей, описывающих изображение, которые будут далее ранжированы и включены в шорт-лист на основе владения языком и соответствия исходному изображению.  Мы настраиваем предварительно обученную генеративную модель image2text (GIT) на 7 тысячах и 2 тысячах пар изображение-подпись из наборов данных Xview и DOTA, которые содержат спутниковые изображения с аннотациями в ограничительной рамке для различных объектов, таких как транспортные средства, конструкции, корабли. и т. д. Мы оцениваем наш подход на наборе данных RSICD, эталонном наборе данных для подписей к спутниковым изображениям, включающем 10 892 изображения и 31 783 подписи, аннотированных экспертами. Мы удаляем подписи с невидимыми типами объектов из обучающих данных и получаем 1746 изображений с более чем 5 тысячами подписей, где мы достигаем оценки CIDEr-D 85,93, демонстрируя эффективность и потенциал нашего подхода к автоматическому добавлению подписей к изображениям при спутниковом дистанционном зондировании. В целом, эта работа представляет собой реальный способ помочь им интерпретировать наборы геопространственных данных и создавать точные подписи к изображениям для обучения сквозных моделей подписей к изображениям. Наш подход снижает потребность в ручных аннотациях и может быть легко применен к наборам данных или доменам.  1. Введение  Спутниковое дистанционное зондирование имеет важное значение во многих областях, таких как борьба со стихийными бедствиями, мониторинг окружающей среды и управление ресурсами. Он включает в себя анализ изображений, снятых из космоса, с упором на обнаружение и классификацию объектов на поверхности Земли для получения полезной пространственной информации. Поскольку эти изображения могут содержать большое количество данных, автоматическое добавление подписей к изображениям стало эффективным методом интерпретации и передачи визуальной информации на этих изображениях с использованием естественного языка.  Несмотря на значительный потенциал, основной проблемой автоматического добавления подписей к изображениям спутникового дистанционного зондирования является нехватка крупномасштабных наборов данных подписей к изображениям. Создание таких наборов данных является трудоемким и требует значительных человеческих знаний. Зачастую ранее существовавшие модели, такие как GPT3.5[7], Falcon и Claude, неэффективны в своей применимости, поскольку они не способны интерпретировать числовые данные или выполнять сложные рассуждения. Аналогично, такие модели, как BLIP[5], GIT[9], CM3[1] и CM3Leon[12], которые предварительно обучены на общих изображениях вида с земли, с трудом создают точные подписи к аэрофотоснимкам. Эти ограничения затрудняют создание высококачественных автоматических субтитров для изображений дистанционного зондирования.  Чтобы решить эту проблему, в этом исследовании мы предлагаем новый подход: автоматическое субтитрование изображений дистанционного зондирования (ARSIC), которое использует как большие языковые модели, так и спутниковые данные для эффективного создания высококачественных подписей к изображениям дистанционного зондирования. Наш вклад тройной. Во-первых, мы разрабатываем несколько API-интерфейсов географического анализа для обнаружения кластеров, определения форм, образованных объектами, и расчета расстояний, чтобы обеспечить более глубокое понимание изображения. Во-вторых, мы автоматизируем процесс сбора подписей, направляя большие языковые модели для суммирования результатов географических API в подписи. Это значительно снижает потребность в ручных аннотациях. Наконец, мы обеспечиваем контрольный показатель путем точной настройки генеративной модели изображение2текст (GIT) на парах изображение-подпись, собранных в соответствии с нашим подходом ARSIC из наборов данных Xview[4] и DOTA[2] и адаптированных для создания высококачественных и точных подписей к аэрофотоснимкам. .  Эффективность нашего подхода подтверждена тщательным тестированием набора тестовых данных RSICD[6], что позволило установить новый эталонный показатель CIDEr-D[8] в полевых условиях. Подводя итог, наша работа представляет собой инновационный подход к интерпретации и подписи к изображениям дистанционного зондирования — метод, который не только многообещающ для оптимизации сквозных моделей подписей к изображениям, но и достаточно гибок для применения в наборах данных или доменах.  Этот документ   под лицензией CC BY-NC-SA 4.0 DEED. доступен на arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

FEW SHOT .tech

Этот звук создан на языке оригинала истории!

На пути к автоматической генерации подписей к спутниковым изображениям с использованием LLM: Аннотация и введение

About Author

КОММЕНТАРИИ

БИРКИ

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В

Related Stories

Как улучшить ваш рабочий процесс в 10 раз: 17 основных приложений

Руководство архитектора по созданию эталонной архитектуры для озера данных AI/ML

Telegram: мост Крипто-острова на материк

Создание криптопродуктов, ориентированных на пользователя: важность отзывов клиентов

Как улучшить ваш рабочий процесс в 10 раз: 17 основных приложений

Руководство архитектора по созданию эталонной архитектуры для озера данных AI/ML

Telegram: мост Крипто-острова на материк

Создание криптопродуктов, ориентированных на пользователя: важность отзывов клиентов

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps