[1] Armen Aghajanyan、Bernie Huang、Candace Ross、Vladimir Karpukhin、Hu Xu、Naman Goyal、Dmytro Okhonko、Mandar Joshi、Gargi Ghosh、Mike Lewis 和 Luke Zettlemoyer。CM3:互联网的因果掩蔽多模态模型。CoRR,abs/2201.07520,2022 年。
[2] Jian Ding、Nan Xue、Gui-Song Xia、Xiang Bai、Wen Yang、Michael Yang、Serge Belongie、Jiebo Luo、Mihai Datcu、Marcello Pelillo 和 Liangpei Zhang。航拍图像中的物体检测:大规模基准测试和挑战。IEEE 模式分析与机器智能学报,第 1-1 页,2021 年。
[3] Jon Kleinberg 和 Eva Tardos。算法设计。Addison-Wesley Longman Publishing Co., Inc.,美国,2005 年。[4] Darius Lam、Richard Kuzma、Kevin McGee、Samuel Dooley、Michael Laielli、Matthew Klaric、Yaroslav Bulatov 和 Brendan McCord。xview:俯视图像中的对象。CoRR,abs/1802.07856,2018 年。
[5] Junnan Li、Dongxu Li、Caiming Xiong 和 Steven CH Hoi。BLIP:引导语言图像预训练,实现统一的视觉语言理解和生成。CoRR,abs/2201.12086,2022 年。
[6] 陆晓强, 王斌强, 郑祥涛, 李学龙. 探索遥感图像标题生成的模型和数据. IEEE 地球科学与遥感学报, 56(4):2183–2195.
[7] OpenAI。推出 chatgpt,2022 年 11 月。
[8] Ramakrishna Vedantam、C. Lawrence Zitnick 和 Devi Parikh。Cider:基于共识的图像描述评估,2015 年。
[9] 王建锋,杨正远,胡晓伟,李林杰,林凯文,甘哲,刘子成,刘策,王丽娟。 Git:用于视觉和语言的生成式图像到文本转换器,2022 年。
[10] Shunyu Yao、Jeffrey Zhao、Dian Yu、Nan Du、Izhak Shafran、Karthik Narasimhan 和 Yuan Cao。React:语言模型中的协同推理和行动,2023 年。
[11] Xi Ye 和 Greg Durrett. 文本推理中小样本提示中解释的不可靠性,2022 年。
[12] Lili Yu、Bowen Shi、Ramakanth Pasunuru、Benjamin Muller、Olga Golovneva、Tianlu Wang、Arun Babu、Binh Tang、Brian Karrer、Shelly Sheynin、Candace Ross、Adam Polyak、Russell Howes、Vasu Sharma、Puxin Xu、Hovhannes Tamoyan、Oron Ashual、Uriel Singer、Shang-Wen Li、Susan Zhang、Richard James、Gargi Ghosh、Yaniv Taigman、Maryam Fazel-Zarandi、Asli Celikyilmaz、Luke Zettlemoyer 和 Armen Aghajanyan。《扩展自回归多模态模型:预训练和指令调整》,2023 年。
[13] 张文奇、沈永良、陆伟明、庄月婷。数据副驾驶:通过自主工作流连接数十亿数据和人类,2023 年。