Autori:  (1) An Yan, UC San Diego, ayan@ucsd.edu;  (2) Zhengyuan Yang, Microsoft Corporation, zhengyang@microsoft.com con contributi uguali;  (3) Wanrong Zhu, UC Santa Barbara, wanrongzhu@ucsb.edu;  (4) Kevin Lin, Microsoft Corporation, keli@microsoft.com;  (5) Linjie Li, Microsoft Corporation, lindsey.li@mocrosoft.com;  (6) Jianfeng Wang, Microsoft Corporation, jianfw@mocrosoft.com;  (7) Jianwei Yang, Microsoft Corporation, jianwei.yang@mocrosoft.com;  (8) Yiwu Zhong, Università del Wisconsin-Madison, yzhong52@wisc.edu;  (9) Julian McAuley, Università della California di San Diego, jmcauley@ucsd.edu;  (10) Jianfeng Gao, Microsoft Corporation, jfgao@mocrosoft.com;  (11) Zicheng Liu, Microsoft Corporation, zliu@mocrosoft.com;  (12) Lijuan Wang, Microsoft Corporation, lijuanw@mocrosoft.com.   Nota dell'editore: questa è la parte 2 di 13 di un documento che valuta l'uso di un'IA generativa per navigare negli smartphone. Puoi leggere il resto del documento tramite la tabella dei link qui sotto.  Tabella dei link   Abstract e 1 Introduzione   2 Lavori correlati  3 MM-Navigatore   3.1 Formulazione del problema e 3.2 Messa a terra dello schermo e navigazione tramite set di segni   3.3 Generazione della cronologia tramite auto-riassunto multimodale  4 Esperimento di navigazione dello schermo iOS   4.1 Configurazione sperimentale   4.2 Descrizione dell'azione prevista   4.3 Esecuzione di azioni localizzate e 4.4 Lo stato attuale con GPT-4V  5 Esperimento di navigazione dello schermo Android   5.1 Configurazione sperimentale   5.2 Confronto delle prestazioni   5.3 Studi di ablazione   5.4 Analisi degli errori   6 Discussion   7 Conclusione e riferimenti  2 Lavori correlati    La navigazione GUI autonoma prevede che un modello segua le istruzioni per muoversi attraverso diverse interfacce utente grafiche, come siti Web o applicazioni, per eseguire l'attività richiesta dall'utente. Gli attuali benchmark hanno raccolto istruzioni sintetiche o generate dall'utente nel mondo reale per valutare le capacità dei modelli nell'identificare elementi UI specifici (Shi et al., 2017; Li et al., 2020; Bai et al., 2021) o nel raggiungere obiettivi di attività generali interagendo con una serie di viste GUI (Li et al., 2020; Burns et al., 2021; Venkatesh et al., 2022; Deng et al., 2023; Rawles et al., 2023). Per comprendere le informazioni visive da queste viste GUI, una linea di lavoro adotta una struttura modello in grado di elaborare input multimodali (Sun et al., 2022; Redmon et al., 2016). Altri metodi si concentrano sulla conversione del testo e delle icone della scena UI nel formato HTML solo testo, come gli LLM a modulo singolo in grado di elaborare questi input di testo per la navigazione GUI (Zhang et al., 2021; Rawles et al., 2023; Wen et al., 2023). Navigazione GUI autonoma.    I recenti progressi negli LLM (Brown et al., 2020; OpenAI, 2023a; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023; Hoffmann et al., 2022) hanno catalizzato l'esplorazione di sistemi di agenti basati su LLM (Madaan et al., 2023; Shinn et al., 2023; Pan et al., 2023; Guo et al., 2023; 2023a), che integrano la logica del ragionamento e strumenti esterni per una varietà di attività linguistiche complesse. Ispirati dal successo nel dominio NLP, i ricercatori multimodali si addentrano negli agenti multimodali. La linea di ricerca inizia con agenti multimodali basati su LLM (Gupta e Kembhavi, 2023; Surís et al., 2023; Wu et al., 2023; Yang* et al., 2023; Shen et al., 2023; Lu et al., 2023; Yu et al., 2023; Li et al., 2023), come MM-ReAct (Yang* et al., 2023) per il ragionamento visivo avanzato e Visual ChatGPT (Wu et al., 2023) per la generazione e l'editing visivo iterativo. Grazie ai rapidi progressi degli LMM (Alayrac et al., 2022; Driess et al., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c; Google, 2023), gli ultimi studi hanno iniziato a studiare gli agenti multimodali basati su LMM (Yang et al., 2023; Liu et al., 2023), superando così la necessità di strumenti di descrizione visiva di base come i modelli di didascalia (Wang et al., 2022a; Wu et al., 2022). La nostra metodologia proposta rappresenta un agente specializzato basato su LMM per la navigazione GUI. Puntiamo a fornire un'analisi completa e una solida baseline per questo compito. Agenti multimodali.  Questo articolo è   con licenza CC BY 4.0 DEED. disponibile su arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

FEW SHOT .tech

Questo audio è prodotto nella lingua originale della storia!

Scopri l'intelligenza artificiale che può effettivamente usare il tuo smartphone per te

About Author

COMMENTI

CARTELLINI

QUESTO ARTICOLO È STATO PRESENTATO IN

Related Stories

Meet the HackerNoon Top Writers: Nebojsa Nesha Todorovic - Upwork, Freelancing, and Future of Work

HackerNoon - A User Experience Analysis: Part 2

Streamlining Network Policy Management - Interview with Startups of the Year Nominee, Otterize

Coding with Latenode's AI + JavaScript Assistant: A Low-Code Platform for Simplified Development

Meet the HackerNoon Top Writers: Nebojsa Nesha Todorovic - Upwork, Freelancing, and Future of Work

HackerNoon - A User Experience Analysis: Part 2

Streamlining Network Policy Management - Interview with Startups of the Year Nominee, Otterize

Coding with Latenode's AI + JavaScript Assistant: A Low-Code Platform for Simplified Development

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps