paint-brush
Scopri l'intelligenza artificiale che può effettivamente usare il tuo smartphone per tedi@fewshot
Nuova storia

Scopri l'intelligenza artificiale che può effettivamente usare il tuo smartphone per te

Troppo lungo; Leggere

I ricercatori di Microsoft e dell'Università della California di San Diego hanno sviluppato un modello di intelligenza artificiale in grado di navigare sullo schermo dello smartphone.
featured image - Scopri l'intelligenza artificiale che può effettivamente usare il tuo smartphone per te
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Autori:

(1) An Yan, UC San Diego, [email protected];

(2) Zhengyuan Yang, Microsoft Corporation, [email protected] con contributi uguali;

(3) Wanrong Zhu, UC Santa Barbara, [email protected];

(4) Kevin Lin, Microsoft Corporation, [email protected];

(5) Linjie Li, Microsoft Corporation, [email protected];

(6) Jianfeng Wang, Microsoft Corporation, [email protected];

(7) Jianwei Yang, Microsoft Corporation, [email protected];

(8) Yiwu Zhong, Università del Wisconsin-Madison, [email protected];

(9) Julian McAuley, Università della California di San Diego, [email protected];

(10) Jianfeng Gao, Microsoft Corporation, [email protected];

(11) Zicheng Liu, Microsoft Corporation, [email protected];

(12) Lijuan Wang, Microsoft Corporation, [email protected].

Nota dell'editore: questa è la parte 2 di 13 di un documento che valuta l'uso di un'IA generativa per navigare negli smartphone. Puoi leggere il resto del documento tramite la tabella dei link qui sotto.

Tabella dei link


2 Lavori correlati

Navigazione GUI autonoma. La navigazione GUI autonoma prevede che un modello segua le istruzioni per muoversi attraverso diverse interfacce utente grafiche, come siti Web o applicazioni, per eseguire l'attività richiesta dall'utente. Gli attuali benchmark hanno raccolto istruzioni sintetiche o generate dall'utente nel mondo reale per valutare le capacità dei modelli nell'identificare elementi UI specifici (Shi et al., 2017; Li et al., 2020; Bai et al., 2021) o nel raggiungere obiettivi di attività generali interagendo con una serie di viste GUI (Li et al., 2020; Burns et al., 2021; Venkatesh et al., 2022; Deng et al., 2023; Rawles et al., 2023). Per comprendere le informazioni visive da queste viste GUI, una linea di lavoro adotta una struttura modello in grado di elaborare input multimodali (Sun et al., 2022; Redmon et al., 2016). Altri metodi si concentrano sulla conversione del testo e delle icone della scena UI nel formato HTML solo testo, come gli LLM a modulo singolo in grado di elaborare questi input di testo per la navigazione GUI (Zhang et al., 2021; Rawles et al., 2023; Wen et al., 2023).


Agenti multimodali. I recenti progressi negli LLM (Brown et al., 2020; OpenAI, 2023a; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023; Hoffmann et al., 2022) hanno catalizzato l'esplorazione di sistemi di agenti basati su LLM (Madaan et al., 2023; Shinn et al., 2023; Pan et al., 2023; Guo et al., 2023; 2023a), che integrano la logica del ragionamento e strumenti esterni per una varietà di attività linguistiche complesse. Ispirati dal successo nel dominio NLP, i ricercatori multimodali si addentrano negli agenti multimodali. La linea di ricerca inizia con agenti multimodali basati su LLM (Gupta e Kembhavi, 2023; Surís et al., 2023; Wu et al., 2023; Yang* et al., 2023; Shen et al., 2023; Lu et al., 2023; Yu et al., 2023; Li et al., 2023), come MM-ReAct (Yang* et al., 2023) per il ragionamento visivo avanzato e Visual ChatGPT (Wu et al., 2023) per la generazione e l'editing visivo iterativo. Grazie ai rapidi progressi degli LMM (Alayrac et al., 2022; Driess et al., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c; Google, 2023), gli ultimi studi hanno iniziato a studiare gli agenti multimodali basati su LMM (Yang et al., 2023; Liu et al., 2023), superando così la necessità di strumenti di descrizione visiva di base come i modelli di didascalia (Wang et al., 2022a; Wu et al., 2022). La nostra metodologia proposta rappresenta un agente specializzato basato su LMM per la navigazione GUI. Puntiamo a fornire un'analisi completa e una solida baseline per questo compito.


Questo articolo è disponibile su arxiv con licenza CC BY 4.0 DEED.