Авторы:  (1) Инсюй Хэ, факультет компьютерных наук Национального университета Сингапура {e0139128@u.nus.edu};  (2) Цици Сунь, Колледж естественных наук Нанкайского университета {sunqiqi1018@gmail.com}.  Таблица ссылок   Аннотация и введение   Методология   Рекомендации  Рекомендации  [1] Армен Агаджанян, Берни Хуанг, Кэндис Росс, Владимир Карпухин, Ху Сюй, Наман Гоял, Дмитрий Охонько, Мандар Джоши, Гарги Гош, Майк Льюис и Люк Зеттлмойер. CM3: Причинно-маскированная мультимодальная модель Интернета. КоРР, абс/2201.07520, 2022.  [2] Цзянь Дин, Нань Сюэ, Гуй-Сун Ся, Сян Бай, Вэнь Ян, Майкл Ян, Серж Белонги, Цзебо Ло, Михай Датку, Марчелло Пелильо и Лянпэй Чжан. Обнаружение объектов на аэрофотоснимках: масштабный тест и проблемы. Транзакции IEEE по анализу шаблонов и машинному интеллекту, страницы 1–1, 2021 г.  [3] Джон Кляйнберг и Ева Тардос. Алгоритм проектирования. Addison-Wesley Longman Publishing Co., Inc., США, 2005. [4] Дариус Лам, Ричард Кузма, Кевин МакГи, Сэмюэл Дули, Майкл Лайелли, Мэтью Кларик, Ярослав Булатов и Брендан МакКорд. xview: объекты в контексте изображений сверху. КОРР, абс/1802.07856, 2018.  [5] Цзюньнан Ли, Дунсюй Ли, Цаймин Сюн и Стивен Ч. Хой. BLIP: начальная предварительная подготовка языка-образа для единого понимания и создания видения-языка. КОРР, абс/2201.12086, 2022.  [6] Сяоцян Лу, Биньцян Ван, Сянтао Чжэн и Сюэлун Ли. Изучение моделей и данных для создания подписей к изображениям дистанционного зондирования. Транзакции IEEE по геонаукам и дистанционному зондированию, 56(4):2183–2195.  [7] ОпенАИ. Представляем чатгпт, ноябрь 2022 г.  [8] Рамакришна Ведантам, К. Лоуренс Зитник и Деви Парих. Сидр: оценка описания изображения на основе консенсуса, 2015 г.  [9] Цзяньфэн Ван, Чжэнъюань Ян, Сяовэй Ху, Линьцзе Ли, Кевин Линь, Чжэ Ган, Цзычэн Лю, Се Лю и Лицзюань Ван. Git: генеративный преобразователь изображения в текст для зрения и языка, 2022 г.  [10] Шуньюй Яо, Джеффри Чжао, Дянь Ю, Нань Ду, Ицхак Шафран, Картик Нарасимхан и Юань Цао. React: Синергия рассуждений и действий в языковых моделях, 2023.  [11] Си Е и Грег Дарретт. Недостоверность объяснений в виде немногочисленных подсказок к текстовым рассуждениям, 2022.  [12] Лили Ю, Боуэн Ши, Рамакант Пасунуру, Бенджамин Мюллер, Ольга Головнева, Тианлу Ван, Арун Бабу, Бинь Тан, Брайан Каррер, Шелли Шейнин, Кэндис Росс, Адам Поляк, Рассел Хоуз, Васу Шарма, Пусин Сюй, Ованес Тамоян , Орон Ашуал, Уриэль Сингер, Шан-Вэнь Ли, Сьюзан Чжан, Ричард Джеймс, Гарги Гош, Янив Тайгман, Марьям Фазель-Заранди, Асли Челикилмаз, Люк Зеттлмойер и Армен Агаджанян. Масштабирование авторегрессионных мультимодальных моделей: предварительное обучение и настройка инструкций, 2023.  [13] Вэньци Чжан, Юнлян Шэнь, Вэймин Лу и Юэтин Чжуан. Второй пилот данных: объединение миллиардов данных и людей с помощью автономного рабочего процесса, 2023 год.  Этот документ   под лицензией CC BY-NC-SA 4.0 DEED. доступен на arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

FEW SHOT .tech

Этот звук создан на языке оригинала истории!

На пути к автоматическому созданию подписей к спутниковым изображениям с использованием LLM: ссылки

About Author

КОММЕНТАРИИ

БИРКИ

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В

Related Stories

Полное руководство по успешной миграции в облако: стратегии и лучшие практики

Цифровые кочевники слушают: что нужно знать о новой визе DTV в Таиланде

Рост криптовалют: создание эффективных образов пользователей

Повысьте свою производительность с помощью этих 18 инструментов разработчика 🚀🔥

Полное руководство по успешной миграции в облако: стратегии и лучшие практики

Цифровые кочевники слушают: что нужно знать о новой визе DTV в Таиланде

Рост криптовалют: создание эффективных образов пользователей

Повысьте свою производительность с помощью этих 18 инструментов разработчика 🚀🔥

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps