paint-brush
Rumo à geração automática de legendas de imagens de satélite usando LLMs: referênciaspor@fewshot

Rumo à geração automática de legendas de imagens de satélite usando LLMs: referências

Muito longo; Para ler

Os pesquisadores apresentam o ARSIC, um método para legendagem de imagens de sensoriamento remoto usando LLMs e APIs, melhorando a precisão e reduzindo as necessidades de anotação humana.
featured image - Rumo à geração automática de legendas de imagens de satélite usando LLMs: referências
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Autores:

(1) Yingxu He, Departamento de Ciência da Computação da Universidade Nacional de Cingapura {[email protected]};

(2) Qiqi Sun, Faculdade de Ciências da Vida da Universidade de Nankai {[email protected]}.

Tabela de links

Referências

[1] Armen Aghajanyan, Bernie Huang, Candace Ross, Vladimir Karpukhin, Hu Xu, Naman Goyal, Dmytro Okhonko, Mandar Joshi, Gargi Ghosh, Mike Lewis e Luke Zettlemoyer. CM3: Um modelo multimodal mascarado causal da Internet. CoRR, abs/2201.07520, 2022.


[2] Jian Ding, Nan Xue, Gui-Song Xia, Xiang Bai, Wen Yang, Michael Yang, Serge Belongie, Jiebo Luo, Mihai Datcu, Marcello Pelillo e Liangpei Zhang. Detecção de objetos em imagens aéreas: uma referência e desafios em grande escala. Transações IEEE sobre análise de padrões e inteligência de máquina, páginas 1–1, 2021.


[3] Jon Kleinberg e Eva Tardos. Projeto de algoritmo. Addison-Wesley Longman Publishing Co., Inc., EUA, 2005. [4] Darius Lam, Richard Kuzma, Kevin McGee, Samuel Dooley, Michael Laielli, Matthew Klaric, Yaroslav Bulatov e Brendan McCord. xview: Objetos em contexto em imagens aéreas. CoRR, abs/1802.07856, 2018.


[5] Junnan Li, Dongxu Li, Caiming Xiong e Steven CH Hoi. BLIP: inicializando o pré-treinamento de linguagem-imagem para compreensão e geração de visão-linguagem unificada. CoRR, abs/2201.12086, 2022.


[6] Xiaoqiang Lu, Binqiang Wang, Xiangtao Zheng e Xuelong Li. Explorando modelos e dados para geração de legendas de imagens de sensoriamento remoto. Transações IEEE sobre Geociências e Sensoriamento Remoto, 56(4):2183–2195.


[7] OpenAI. Apresentando o chatgpt, novembro de 2022.


[8] Ramakrishna Vedantam, C. Lawrence Zitnick e Devi Parikh. Cider: avaliação de descrição de imagem baseada em consenso, 2015.


[9] Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu e Lijuan Wang. Git: Um transformador generativo de imagem em texto para visão e linguagem, 2022.


[10] Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan e Yuan Cao. React: Sinergizando raciocínio e atuação em modelos de linguagem, 2023.


[11] Xi Ye e Greg Durrett. A falta de confiabilidade das explicações em poucas tentativas de raciocínio textual, 2022.


[12] Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin, Candace Ross, Adam Polyak, Russell Howes, Vasu Sharma, Puxin Xu, Hovhannes Tamoyan , Oron Ashual, Uriel Singer, Shang-Wen Li, Susan Zhang, Richard James, Gargi Ghosh, Yaniv Taigman, Maryam Fazel-Zarandi, Asli Celikyilmaz, Luke Zettlemoyer e Armen Aghajanyan. Dimensionando modelos multimodais autoregressivos: Pré-treinamento e ajuste de instrução, 2023.


[13] Wenqi Zhang, Yongliang Shen, Weiming Lu e Yueting Zhuang. Copiloto de dados: Unindo bilhões de dados e humanos com fluxo de trabalho autônomo, 2023.


Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.