paint-brush
Vers la génération automatique de légendes d'images satellites à l'aide de LLM : référencespar@fewshot

Vers la génération automatique de légendes d'images satellites à l'aide de LLM : références

Trop long; Pour lire

Les chercheurs présentent ARSIC, une méthode de sous-titrage d’images de télédétection utilisant des LLM et des API, améliorant la précision et réduisant les besoins d’annotation humaine.
featured image - Vers la génération automatique de légendes d'images satellites à l'aide de LLM : références
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Auteurs:

(1) Yingxu He, Département d'informatique de l'Université nationale de Singapour {[email protected]} ;

(2) Qiqi Sun, Collège des sciences de la vie de l'Université de Nankai {[email protected]}.

Tableau des liens

Les références

[1] Armen Aghajanyan, Bernie Huang, Candace Ross, Vladimir Karpukhin, Hu Xu, Naman Goyal, Dmytro Okhonko, Mandar Joshi, Gargi Ghosh, Mike Lewis et Luke Zettlemoyer. CM3 : Un modèle multimodal masqué causal d’Internet. CoRR, abs/2201.07520, 2022.


[2] Jian Ding, Nan Xue, Gui-Song Xia, Xiang Bai, Wen Yang, Michael Yang, Serge Belongie, Jiebo Luo, Mihai Datcu, Marcello Pelillo et Liangpei Zhang. Détection d'objets dans les images aériennes : un benchmark et des enjeux à grande échelle. Transactions IEEE sur l'analyse de modèles et l'intelligence artificielle, pages 1-1, 2021.


[3] Jon Kleinberg et Eva Tardos. Conception d'algorithmes. Addison-Wesley Longman Publishing Co., Inc., États-Unis, 2005. [4] Darius Lam, Richard Kuzma, Kevin McGee, Samuel Dooley, Michael Laielli, Matthew Klaric, Yaroslav Bulatov et Brendan McCord. xview : objets en contexte dans les images aériennes. CoRR, abs/1802.07856, 2018.


[5] Junnan Li, Dongxu Li, Caiming Xiong et Steven CH Hoi. BLIP : amorce de la pré-formation langage-image pour une compréhension et une génération unifiées de la vision et du langage. CoRR, abs/2201.12086, 2022.


[6] Xiaoqiang Lu, Binqiang Wang, Xiangtao Zheng et Xuelong Li. Explorer des modèles et des données pour la génération de légendes d'images de télédétection. Transactions IEEE sur la géoscience et la télédétection, 56(4):2183-2195.


[7] OpenAI. Présentation de chatgpt, novembre 2022.


[8] Ramakrishna Vedantam, C. Lawrence Zitnick et Devi Parikh. Cidre : évaluation de la description d'image basée sur un consensus, 2015.


[9] Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu et Lijuan Wang. Git : un transformateur génératif d'image en texte pour la vision et le langage, 2022.


[10] Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan et Yuan Cao. React : Mettre en synergie le raisonnement et l'action dans les modèles de langage, 2023.


[11] Xi Ye et Greg Durrett. Le manque de fiabilité des explications en quelques plans incitant à un raisonnement textuel, 2022.


[12] Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin, Candace Ross, Adam Polyak, Russell Howes, Vasu Sharma, Puxin Xu, Hovhannes Tamoyan , Oron Ashual, Uriel Singer, Shang-Wen Li, Susan Zhang, Richard James, Gargi Ghosh, Yaniv Taigman, Maryam Fazel-Zarandi, Asli Celikyilmaz, Luke Zettlemoyer et Armen Aghajanyan. Mise à l'échelle des modèles multimodaux autorégressifs : pré-entraînement et réglage des instructions, 2023.


[13] Wenqi Zhang, Yongliang Shen, Weiming Lu et Yueting Zhuang. Data-copilot : relier des milliards de données et d'humains avec un flux de travail autonome, 2023.


Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.