Autores:
(1) An Yan, UC San Diego, [email protected];
(2) Zhengyuan Yang, Microsoft Corporation, [email protected] con contribucións iguais;
(3) Wanrong Zhu, UC Santa Bárbara, [email protected];
(4) Kevin Lin, Microsoft Corporation, [email protected];
(5) Linjie Li, Microsoft Corporation, [email protected];
(6) Jianfeng Wang, Microsoft Corporation, [email protected];
(7) Jianwei Yang, Microsoft Corporation, [email protected];
(8) Yiwu Zhong, Universidade de Wisconsin-Madison, [email protected];
(9) Julian McAuley, UC San Diego, [email protected];
(10) Jianfeng Gao, Microsoft Corporation, [email protected];
(11) Zicheng Liu, Microsoft Corporation, [email protected];
(12) Lijuan Wang, Microsoft Corporation, [email protected].
Nota do editor: esta é a parte 2 de 13 dun traballo que avalía o uso dunha IA xerativa para navegar por teléfonos intelixentes. Podes ler o resto do artigo a través da táboa de ligazóns a continuación.
Navegación GUI autónoma. A navegación GUI autónoma implica un modelo que segue instrucións para manobrar a través de diferentes interfaces gráficas de usuario, como sitios web ou aplicacións, para realizar a tarefa consultada polo usuario. Os puntos de referencia actuais recolleron instrucións sintéticas ou xeradas por usuarios do mundo real para avaliar as habilidades dos modelos para identificar elementos específicos da IU (Shi et al., 2017; Li et al., 2020; Bai et al., 2021) ou acadar obxectivos xerais da tarefa mediante interactuando cunha serie de vistas da GUI (Li et al., 2020; Burns et al., 2021; Venkatesh et al., 2022 Deng et al., 2023 Rawles et al., 2023). Para comprender a información visual destas vistas da GUI, unha liña de traballo adopta unha estrutura modelo que pode procesar entradas multimodais (Sun et al., 2022; Redmon et al., 2016). Outros métodos céntranse en converter o texto e as iconas da escena da IU no formato HTML só de texto, como os LLM dun só módulo poden procesar estas entradas de texto para a navegación da GUI (Zhang et al., 2021; Rawles et al., 2023; Wen et al. al., 2023).
Axentes multimodais. Os avances recentes nos LLM (Brown et al., 2020; OpenAI, 2023a; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023; Hoffmann et al., 2022) catalizaron a exploración do LLM. sistemas de axentes baseados en (Madaan et al., 2023; Shinn et al., 2023). al., 2023; Yao et al., 2023; Pryzant et al., 2023; ., 2023; Yang et al., 2023a), que integran o razoamento lóxico e externo ferramentas para unha variedade de tarefas lingüísticas complexas. Inspirados polo éxito no dominio da PNL, os investigadores multimodais afondan nos axentes multimodais. A liña de investigación comeza cos axentes multimodais baseados en LLM (Gupta e Kembhavi, 2023; Surís et al., 2023; Wu et al., 2023; Yang* et al., 2023; Shen et al., 2023; Lu et al., 2023; ., 2023 Yu et al., 2023 Li et al., 2023), como MM-ReAct (Yang* et al., 2023) para o razoamento visual avanzado e Visual ChatGPT (Wu et al., 2023) para a xeración e edición visual iterativa. Impulsados polos rápidos avances dos LMM (Alayrac et al., 2022; Driess et al., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c; Google, 2023), os últimos estudos teñen comezou a investigar os axentes multimodais alimentados por LMM (Yang et al., 2023; Liu et al., 2023), superando así a necesidade de ferramentas de descrición visual básicas como modelos de subtítulos (Wang et al., 2022a; Wu et al., 2022). A nosa metodoloxía proposta representa un axente especializado baseado en LMM para a navegación da GUI. Pretendemos ofrecer unha análise exhaustiva e unha base sólida para esta tarefa.
Este documento está dispoñible en arxiv baixo a licenza CC BY 4.0 DEED.