tác giả:
(1) Yingxu He, Khoa Khoa học Máy tính Đại học Quốc gia Singapore {[email protected]};
(2) Qiqi Sun, Trường Khoa học Đời sống Đại học Nankai {[email protected]}.
[1] Armen Aghajanyan, Bernie Huang, Candace Ross, Vladimir Karpukhin, Hu Xu, Naman Goyal, Dmytro Okhonko, Mandar Joshi, Gargi Ghosh, Mike Lewis và Luke Zettlemoyer. CM3: Một mô hình đa phương thức mang tính nhân quả của Internet. CoRR, abs/2201.07520, 2022.
[2] Jian Ding, Nan Xue, Gui-Song Xia, Xiang Bai, Wen Yang, Michael Yang, Serge Belongie, Jiebo Luo, Mihai Datcu, Marcello Pelillo và Liangpei Zhang. Phát hiện đối tượng trong ảnh chụp từ trên không: Điểm chuẩn và thách thức trên quy mô lớn. Giao dịch của IEEE về Phân tích Mẫu và Trí tuệ Máy, trang 1–1, 2021.
[3] Jon Kleinberg và Eva Tardos. Thiết kế thuật toán. Addison-Wesley Longman Publishing Co., Inc., USA, 2005. [4] Darius Lam, Richard Kuzma, Kevin McGee, Samuel Dooley, Michael Laielli, Matthew Klaric, Yaroslav Bulatov, và Brendan McCord. xview: Các đối tượng trong ngữ cảnh trong hình ảnh trên cao. CoRR, abs/1802.07856, 2018.
[5] Junnan Li, Dongxu Li, Caiming Xiong và Steven CH Hoi. BLIP: đào tạo trước ngôn ngữ-hình ảnh khởi động để hiểu và tạo ra ngôn ngữ thị giác thống nhất. CoRR, abs/2201.12086, 2022.
[6] Lu Xiaoqiang, Binqiang Wang, Xiangtao Zheng và Xuelong Li. Khám phá các mô hình và dữ liệu để tạo chú thích ảnh viễn thám. Giao dịch của IEEE về Khoa học Địa chất và Viễn thám, 56(4):2183–2195.
[7] OpenAI. Giới thiệu chatgpt, tháng 11 năm 2022.
[8] Ramakrishna Vedantam, C. Lawrence Zitnick và Devi Parikh. Cider: Đánh giá mô tả hình ảnh dựa trên sự đồng thuận, 2015.
[9] Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zichen Liu, Ce Liu và Lijuan Wang. Git: Công cụ chuyển đổi hình ảnh thành văn bản mang tính tổng quát cho tầm nhìn và ngôn ngữ, 2022.
[10] Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan và Yuan Cao. Phản ứng: Phối hợp lý luận và hành động trong các mô hình ngôn ngữ, 2023.
[11] Xi Ye và Greg Durrett. Sự không đáng tin cậy của những lời giải thích trong vài cảnh nhắc nhở về lý luận văn bản, 2022.
[12] Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Bình Đường, Brian Karrer, Shelly Sheynin, Candace Ross, Adam Polyak, Russell Howes, Vasu Sharma, Puxin Xu, Hovhannes Tamoyan , Oron Ashual, Uriel Singer, Shang-Wen Li, Susan Zhang, Richard James, Gargi Ghosh, Yaniv Taigman, Maryam Fazel-Zarandi, Asli Celikyilmaz, Luke Zettlemoyer và Armen Aghajanyan. Mở rộng quy mô các mô hình đa phương thức tự hồi quy: Huấn luyện trước và điều chỉnh hướng dẫn, 2023.
[13] Wenqi Zhang, Yongliang Shen, Weiming Lu, và Yueting Zhuang. Data-copilot: Kết nối hàng tỷ dữ liệu và con người bằng quy trình làm việc tự động, năm 2023.
Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.