paint-brush
Upoznajte AI koji zapravo može koristiti vaš pametni telefon za vaspo@fewshot
Nova povijest

Upoznajte AI koji zapravo može koristiti vaš pametni telefon za vas

Predugo; Čitati

Istraživači s Microsofta i Kalifornijskog sveučilišta San Diego razvili su AI model koji može upravljati zaslonom vašeg pametnog telefona.
featured image - Upoznajte AI koji zapravo može koristiti vaš pametni telefon za vas
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Autori:

(1) An Yan, UC San Diego, [email protected];

(2) Zhengyuan Yang, Microsoft Corporation, [email protected] s jednakim doprinosima;

(3) Wanrong Zhu, UC Santa Barbara, [email protected];

(4) Kevin Lin, Microsoft Corporation, [email protected];

(5) Linjie Li, Microsoft Corporation, [email protected];

(6) Jianfeng Wang, Microsoft Corporation, [email protected];

(7) Jianwei Yang, Microsoft Corporation, [email protected];

(8) Yiwu Zhong, Sveučilište Wisconsin-Madison, [email protected];

(9) Julian McAuley, UC San Diego, [email protected];

(10) Jianfeng Gao, Microsoft Corporation, [email protected];

(11) Zicheng Liu, Microsoft Corporation, [email protected];

(12) Lijuan Wang, Microsoft Corporation, [email protected].

Napomena urednika: Ovo je dio 2 od 13 rada koji ocjenjuje upotrebu generativne umjetne inteligencije za navigaciju pametnim telefonima. Ostatak rada možete pročitati putem tablice poveznica u nastavku.

Tablica veza


2 Povezano djelo

Autonomna GUI navigacija. Autonomna GUI navigacija uključuje model koji slijedi upute za manevriranje kroz različita grafička korisnička sučelja, kao što su web stranice ili aplikacije, kako bi se izvršio zadatak koji korisnik postavi. Trenutačne referentne vrijednosti prikupljale su sintetičke upute ili upute koje su generirali korisnici iz stvarnog svijeta za procjenu sposobnosti modela u identificiranju specifičnih elemenata korisničkog sučelja (Shi et al., 2017.; Li et al., 2020.; Bai et al., 2021.) ili postizanje sveobuhvatnih ciljeva zadatka putem u interakciji s nizom GUI prikaza (Li et al., 2020; Burns et al., 2021; Venkatesh i sur., 2022; Deng i sur., 2023; Za razumijevanje vizualnih informacija iz ovih GUI prikaza, jedna linija rada usvaja strukturu modela koja može obraditi multimodalne ulaze (Sun et al., 2022; Redmon et al., 2016). Druge metode usmjerene su na pretvaranje teksta i ikona scene korisničkog sučelja u samo tekstualni HTML format, kao što je LLM s jednim modulom koji može obraditi te tekstualne unose za GUI navigaciju (Zhang et al., 2021; Rawles et al., 2023; Wen et al. al., 2023).


Multimodalni agenti. Nedavni napredak u LLM-u (Brown et al., 2020; OpenAI, 2023a; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023; Hoffmann et al., 2022) katalizirao je istraživanje LLM-a agentski sustavi (Madaan et al., 2023.; Shinn et al., 2023; Yao et al., 2023; Pryzant et al., 2023; et al., 2023; Yang et al., 2023a), koji integriraju rasuđivanje logiku i vanjske alate za razne složene jezične zadatke. Nadahnuti uspjehom u NLP domeni, multimodalni istraživači istražuju multimodalne agente. Linija istraživanja započinje multimodalnim agentima koji se temelje na LLM-u (Gupta i Kembhavi, 2023; Surís i sur., 2023; Wu i sur., 2023; Yang* i sur., 2023; Shen i sur., 2023; Lu i sur. ., 2023; Yu et al., 2023; Li et al., 2023), kao što je MM-ReAct (Yang* et al., 2023) za napredno vizualno razmišljanje i Visual ChatGPT (Wu et al., 2023) za iterativno vizualno generiranje i uređivanje. Potaknuti brzim napretkom LMM-a (Alayrac et al., 2022; Driess et al., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c; Google, 2023), najnovije studije su počeli istraživati multimodalne agente koje pokreće LMM (Yang et al., 2023; Liu et al., 2023), čime se nadilazi potreba za osnovnim alatima za vizualni opis kao što su modeli opisa (Wang et al., 2022a; Wu et al., 2022). Naša predložena metodologija predstavlja specijalizirani agent baziran na LMM-u za GUI navigaciju. Cilj nam je pružiti sveobuhvatnu analizu i čvrstu osnovu za ovaj zadatak.


Ovaj je dokument dostupan na arxiv pod licencom CC BY 4.0 DEED.


L O A D I N G
. . . comments & more!

About Author

The FewShot Prompting Publication  HackerNoon profile picture
The FewShot Prompting Publication @fewshot
Spearheading research, publications, and advancements in few-shot learning, and redefining artificial intelligence.

VIJESI OZNAKE

OVAJ ČLANAK JE PREDSTAVLJEN U...