paint-brush
Auf dem Weg zur automatischen Generierung von Bildunterschriften für Satellitenbilder mithilfe von LLMs: Referenzenvon@fewshot
113 Lesungen

Auf dem Weg zur automatischen Generierung von Bildunterschriften für Satellitenbilder mithilfe von LLMs: Referenzen

Zu lang; Lesen

Forscher präsentieren ARSIC, eine Methode zur Beschriftung von Fernerkundungsbildern unter Verwendung von LLMs und APIs, die die Genauigkeit verbessert und den Bedarf menschlicher Anmerkungen reduziert.
featured image - Auf dem Weg zur automatischen Generierung von Bildunterschriften für Satellitenbilder mithilfe von LLMs: Referenzen
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Autoren:

(1) Yingxu He, Institut für Informatik, Nationaluniversität Singapur {[email protected]};

(2) Qiqi Sun, Hochschule für Biowissenschaften der Nankai-Universität {[email protected]}.

Linktabelle

Verweise

[1] Armen Aghajanyan, Bernie Huang, Candace Ross, Vladimir Karpukhin, Hu Xu, Naman Goyal, Dmytro Okhonko, Mandar Joshi, Gargi Ghosh, Mike Lewis und Luke Zettlemoyer. CM3: Ein kausal maskiertes multimodales Modell des Internets. CoRR, abs/2201.07520, 2022.


[2] Jian Ding, Nan Xue, Gui-Song Xia, Xiang Bai, Wen Yang, Michael Yang, Serge Belongie, Jiebo Luo, Mihai Datcu, Marcello Pelillo und Liangpei Zhang. Objekterkennung in Luftbildern: Ein groß angelegter Benchmark und Herausforderungen. IEEE Transactions on Pattern Analysis and Machine Intelligence, Seiten 1–1, 2021.


[3] Jon Kleinberg und Eva Tardos. Algorithm Design. Addison-Wesley Longman Publishing Co., Inc., USA, 2005. [4] Darius Lam, Richard Kuzma, Kevin McGee, Samuel Dooley, Michael Laielli, Matthew Klaric, Yaroslav Bulatov und Brendan McCord. xview: Objekte im Kontext in Luftaufnahmen. CoRR, abs/1802.07856, 2018.


[5] Junnan Li, Dongxu Li, Caiming Xiong und Steven CH Hoi. BLIP: Bootstrapping von Sprach- und Bild-Vortraining für ein einheitliches Verständnis und die Generierung von visueller Sprache. CoRR, abs/2201.12086, 2022.


[6] Xiaoqiang Lu, Binqiang Wang, Xiangtao Zheng und Xuelong Li. Untersuchung von Modellen und Daten zur Generierung von Bildunterschriften aus Fernerkundungsdaten. IEEE Transactions on Geoscience and Remote Sensing, 56(4):2183–2195.


[7] OpenAI. Einführung von chatgpt, November 2022.


[8] Ramakrishna Vedantam, C. Lawrence Zitnick und Devi Parikh. Cider: Konsensbasierte Bildbeschreibungsbewertung, 2015.


[9] Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu und Lijuan Wang. Git: Ein generativer Bild-zu-Text-Transformator für Sehen und Sprache, 2022.


[10] Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan und Yuan Cao. React: Synergizing reasoning and acting in language models, 2023.


[11] Xi Ye und Greg Durrett. Die Unzuverlässigkeit von Erklärungen bei der Eingabe von wenigen Stichproben zum textuellen Denken, 2022.


[12] Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin, Candace Ross, Adam Polyak, Russell Howes, Vasu Sharma, Puxin Xu, Hovhannes Tamoyan, Oron Ashual, Uriel Singer, Shang-Wen Li, Susan Zhang, Richard James, Gargi Ghosh, Yaniv Taigman, Maryam Fazel-Zarandi, Asli Celikyilmaz, Luke Zettlemoyer und Armen Aghajanyan. Skalierung autoregressiver multimodaler Modelle: Vortraining und Instruktionstuning, 2023.


[13] Wenqi Zhang, Yongliang Shen, Weiming Lu und Yueting Zhuang. Data-Copilot: Überbrückung von Milliarden von Daten und Menschen mit autonomem Workflow, 2023.