paint-brush
Hacia la generación automática de subtítulos de imágenes satelitales mediante LLM: referenciaspor@fewshot

Hacia la generación automática de subtítulos de imágenes satelitales mediante LLM: referencias

Demasiado Largo; Para Leer

Los investigadores presentan ARSIC, un método para el subtitulado de imágenes mediante teledetección utilizando LLM y API, que mejora la precisión y reduce las necesidades de anotaciones humanas.
featured image - Hacia la generación automática de subtítulos de imágenes satelitales mediante LLM: referencias
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Autores:

(1) Yingxu He, Departamento de Ciencias de la Computación de la Universidad Nacional de Singapur {[email protected]};

(2) Qiqi Sun, Facultad de Ciencias Biológicas de la Universidad de Nankai {[email protected]}.

Tabla de enlaces

Referencias

[1] Armen Aghajanyan, Bernie Huang, Candace Ross, Vladimir Karpukhin, Hu Xu, Naman Goyal, Dmytro Okhonko, Mandar Joshi, Gargi Ghosh, Mike Lewis y Luke Zettlemoyer. CM3: Un modelo multimodal causal enmascarado de Internet. CoRR, abs/2201.07520, 2022.


[2] Jian Ding, Nan Xue, Gui-Song Xia, Xiang Bai, Wen Yang, Michael Yang, Serge Belongie, Jiebo Luo, Mihai Datcu, Marcello Pelillo y Liangpei Zhang. Detección de objetos en imágenes aéreas: un punto de referencia y desafíos a gran escala. Transacciones IEEE sobre análisis de patrones e inteligencia artificial, páginas 1–1, 2021.


[3] Jon Kleinberg y Eva Tardos. Diseño de algoritmos. Addison-Wesley Longman Publishing Co., Inc., EE. UU., 2005. [4] Darius Lam, Richard Kuzma, Kevin McGee, Samuel Dooley, Michael Laielli, Matthew Klaric, Yaroslav Bulatov y Brendan McCord. xview: Objetos en contexto en imágenes aéreas. CoRR, abs/1802.07856, 2018.


[5] Junnan Li, Dongxu Li, Caiming Xiong y Steven CH Hoi. BLIP: preparación previa del lenguaje-imagen para una comprensión y generación unificadas del lenguaje-visión. CoRR, abs/2201.12086, 2022.


[6] Xiaoqiang Lu, Binqiang Wang, Xiangtao Zheng y Xuelong Li. Exploración de modelos y datos para la generación de subtítulos de imágenes por teledetección. Transacciones IEEE sobre geociencia y teledetección, 56(4):2183–2195.


[7] OpenAI. Presentamos chatgpt, noviembre de 2022.


[8] Ramakrishna Vedantam, C. Lawrence Zitnick y Devi Parikh. Sidra: evaluación de descripción de imágenes basada en consenso, 2015.


[9] Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu y Lijuan Wang. Git: un transformador generativo de imagen a texto para la visión y el lenguaje, 2022.


[10] Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan y Yuan Cao. React: Sinergizar el razonamiento y la actuación en modelos de lenguaje, 2023.


[11] Xi Ye y Greg Durrett. La falta de confiabilidad de las explicaciones en sugerencias breves para el razonamiento textual, 2022.


[12] Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin, Candace Ross, Adam Polyak, Russell Howes, Vasu Sharma, Puxin Xu, Hovhannes Tamoyan , Oron Ashual, Uriel Singer, Shang-Wen Li, Susan Zhang, Richard James, Gargi Ghosh, Yaniv Taigman, Maryam Fazel-Zarandi, Asli Celikyilmaz, Luke Zettlemoyer y Armen Aghajanyan. Escalado de modelos multimodales autorregresivos: preentrenamiento y ajuste de instrucciones, 2023.


[13] Wenqi Zhang, Yongliang Shen, Weiming Lu y Yueting Zhuang. Copiloto de datos: uniendo miles de millones de datos y humanos con un flujo de trabajo autónomo, 2023.


Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.