Författare:  (1) An Yan, UC San Diego, ayan@ucsd.edu;  (2) Zhengyuan Yang, Microsoft Corporation, zhengyang@microsoft.com med lika bidrag;  (3) Wanrong Zhu, UC Santa Barbara, wanrongzhu@ucsb.edu;  (4) Kevin Lin, Microsoft Corporation, keli@microsoft.com;  (5) Linjie Li, Microsoft Corporation, lindsey.li@mocrosoft.com;  (6) Jianfeng Wang, Microsoft Corporation, jianfw@mocrosoft.com;  (7) Jianwei Yang, Microsoft Corporation, jianwei.yang@mocrosoft.com;  (8) Yiwu Zhong, University of Wisconsin-Madison, yzhong52@wisc.edu;  (9) Julian McAuley, UC San Diego, jmcauley@ucsd.edu;  (10) Jianfeng Gao, Microsoft Corporation, jfgao@mocrosoft.com;  (11) Zicheng Liu, Microsoft Corporation, zliu@mocrosoft.com;  (12) Lijuan Wang, Microsoft Corporation, lijuanw@mocrosoft.com.   Redaktörens anmärkning: Det här är del 2 av 13 av en artikel som utvärderar användningen av en generativ AI för att navigera i smartphones. Du kan läsa resten av tidningen via länktabellen nedan.  Tabell över länkar   Abstrakt och 1 inledning   2 Relaterat arbete  3 MM-Navigator   3.1 Problemformulering och 3.2 Skärmjordning och navigering via uppsättning av märken   3.3 Historikgenerering via multimodal självsammanfattning  4 iOS-skärmnavigeringsexperiment   4.1 Experimentell installation   4.2 Avsedd åtgärd Beskrivning   4.3 Lokaliserad åtgärdsexekvering och 4.4 Nuvarande tillstånd med GPT-4V  5 Android-skärmnavigeringsexperiment   5.1 Experimentell installation   5.2 Prestandajämförelse   5.3 Ablationsstudier   5.4 Felanalys   6 Diskussion   7 Slutsats och referenser  2 Relaterat arbete    Autonom GUI-navigering involverar en modell som följer instruktioner för att manövrera genom olika grafiska användargränssnitt, såsom webbplatser eller applikationer, för att utföra den användarfrågade uppgiften. Aktuella riktmärken samlade antingen syntetiska eller verkliga användargenererade instruktioner för att utvärdera modellers förmåga att identifiera specifika UI-element (Shi et al., 2017; Li et al., 2020; Bai et al., 2021), eller uppnå övergripande uppgiftsmål genom att interagerar med en serie GUI-vyer (Li et al., 2020; Burns et al., 2021; Venkatesh et al., 2022; Rawles et al., 2023; För att förstå den visuella informationen från dessa GUI-vyer antar en arbetslinje en modellstruktur som kan bearbeta multimodala indata (Sun et al., 2022; Redmon et al., 2016). Andra metoder fokuserar på att konvertera UI-scenens text och ikoner till HTML-formatet endast text, till exempel LLM:er med en enda modul kan bearbeta dessa textinmatningar för GUI-navigering (Zhang et al., 2021; Rawles et al., 2023; Wen et al. al., 2023). Autonom GUI-navigering.    Nya framsteg inom LLM (Brown et al., 2020; OpenAI, 2023a; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023; Hoffmann et al., 2022) har katalyserat utforskningen av LLM -baserade agentsystem (Madaan et al., 2023; Shinn et al., 2023; Yao et al., 2023; al., 2023; Yang et al., 2023a), som integrerar resonemang logik och externa verktyg för en mängd olika komplexa språkuppgifter. Inspirerade av framgångarna inom NLP-domänen, fördjupar multimodala forskare i multimodala agenter. Forskningslinjen börjar med LLM-baserade multimodala medel (Gupta och Kembhavi, 2023; Surís et al., 2023; Wu et al., 2023; Yang* et al., 2023; Shen et al., 2023; Lu et al., 2023; ., 2023; Yu et al., 2023; Li et al., 2023), såsom MM-ReAct (Yang* et al., 2023) för avancerade visuella resonemang och Visual ChatGPT (Wu et al., 2023) för iterativ visuell generering och redigering. Framdrivna av de snabba framstegen med LMM (Alayrac et al., 2022; Driess et al., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c; Google, 2023), har de senaste studierna börjat undersöka de LMM-drivna multimodala medlen (Yang et al., 2023; Liu et al., 2023), och överträffar därmed behovet av grundläggande visuella beskrivningsverktyg som bildtextmodeller (Wang et al., 2022a; Wu et al., 2022). Vår föreslagna metod representerar en specialiserad LMM-baserad agent för GUI-navigering. Vi strävar efter att tillhandahålla en heltäckande analys och en stark baslinje för denna uppgift. Multimodala medel.  Detta dokument är   under CC BY 4.0 DEED-licens. tillgängligt på arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

FEW SHOT .tech

Det här ljudet är producerat på berättelsens originalspråk!

Möt AI som faktiskt kan använda din smartphone åt dig

About Author

KOMMENTARER

HÄNG TAGGAR

DENNA ARTIKEL PRESENTERAS I

Related Stories

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps