Otè:
(1) An Yan, UC San Diego, [email protected];
(2) Zhengyuan Yang, Microsoft Corporation, [email protected] ak kontribisyon egal;
(3) Wanrong Zhu, UC Santa Barbara, [email protected];
(4) Kevin Lin, Microsoft Corporation, [email protected];
(5) Linjie Li, Microsoft Corporation, [email protected];
(6) Jianfeng Wang, Microsoft Corporation, [email protected];
(7) Jianwei Yang, Microsoft Corporation, [email protected];
(8) Yiwu Zhong, University of Wisconsin-Madison, [email protected];
(9) Julian McAuley, UC San Diego, [email protected];
(10) Jianfeng Gao, Microsoft Corporation, [email protected];
(11) Zicheng Liu, Microsoft Corporation, [email protected];
(12) Lijuan Wang, Microsoft Corporation, [email protected].
Nòt Editè a: Sa a se pati 2 nan 13 yon papye ki evalye itilizasyon yon AI jeneratif pou navige sou smartphones. Ou ka li rès papye a atravè tablo lyen ki anba a.
Navigasyon entèfas otonòm. Navigasyon GUI otonòm enplike yon modèl ki swiv enstriksyon pou manevwe atravè diferan koòdone itilizatè grafik, tankou sit entènèt oswa aplikasyon, pou fè travay ke itilizatè a mande. Referans aktyèl yo te kolekte swa enstriksyon sentetik oswa nan mond reyèl la te jenere itilizatè yo pou evalye kapasite modèl yo nan idantifye eleman espesifik UI (Shi et al., 2017; Li et al., 2020; Bai et al., 2021), oswa reyalize objektif travay jeneral pa kominike avèk yon seri opinyon GUI (Li et al., 2020; Burns et al., 2021; Venkatesh et al., 2022 Deng et al., 2023; Rawles et al., 2023; Pou konprann enfòmasyon vizyèl ki soti nan opinyon GUI sa yo, yon liy travay adopte yon estrikti modèl ki ka trete entrain multimodal (Sun et al., 2022; Redmon et al., 2016). Lòt metòd konsantre sou konvèti tèks sèn UI ak ikon yo nan fòma HTML tèks sèlman, tankou LLM yon sèl modil ka trete tèks sa yo pou navigasyon GUI (Zhang et al., 2021; Rawles et al., 2023; Wen et al., 2023). al., 2023).
Ajan multimodal. Dènye pwogrè nan LLM yo (Brown et al., 2020; OpenAI, 2023a; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023; Hoffmann et al., 2022) te katalize eksplorasyon LLM. sistèm ajan ki baze sou (Madaan et al., 2023; Shinn et al., 2023, Yao et al., 2023, Pryzant et al., 2023; ., 2023 Yang et al., 2023a), ki entegre lojik rezònman ak ekstèn zouti pou yon varyete de travay lang konplèks. Enspire pa siksè nan domèn NLP, chèchè multimodal fouye nan ajan multimodal. Liy rechèch la kòmanse ak ajan multimodal ki baze sou LLM (Gupta and Kembhavi, 2023; Surís et al., 2023; Wu et al., 2023; Yang* et al., 2023; Shen et al., 2023; Lu et al., 2023; ., 2023 Yu et al., 2023 Li et al., 2023), tankou MM-ReAct (Yang* et al., 2023) pou rezònman vizyèl avanse ak Vizyèl ChatGPT (Wu et al., 2023) pou jenerasyon vizyèl iteratif ak koreksyon. Pouse pa pwogrè rapid LMM yo (Alayrac et al., 2022; Driess et al., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c; Google, 2023), dènye etid yo gen yo te kòmanse mennen ankèt sou ajan multimodal ki mache ak LMM yo (Yang et al., 2023; Liu et al., 2023), kidonk depase nesesite pou zouti deskripsyon vizyèl debaz tankou modèl caption (Wang et al., 2022a; Wu et al., 2022). Metodoloji nou pwopoze a reprezante yon ajan espesyalize ki baze sou LMM pou navigasyon GUI. Nou vize pou bay yon analiz konplè ak yon baz solid pou travay sa a.
Papye sa a disponib sou arxiv anba lisans CC BY 4.0 DEED.