paint-brush
Истражувачите на Мајкрософт велат дека новиот модел со вештачка интелигенција може да го „види“ екранот на вашиот телефонод страна на@fewshot
Нова историја

Истражувачите на Мајкрософт велат дека новиот модел со вештачка интелигенција може да го „види“ екранот на вашиот телефон

од страна на The FewShot Prompting Publication 5m2024/12/11
Read on Terminal Reader

Премногу долго; Да чита

Истражувачите од Мајкрософт и Универзитетот во Калифорнија во Сан Диего развија модел со вештачка интелигенција способен да се движи на екранот на вашиот паметен телефон.
featured image - Истражувачите на Мајкрософт велат дека новиот модел со вештачка интелигенција може да го „види“ екранот на вашиот телефон
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Автори:

(1) Ан Јан, УЗ Сан Диего, [email protected];

(2) Zhengyuan Јанг, Microsoft Corporation, [email protected] со еднакви придонеси;

(3) Ванронг Жу, УЗ Санта Барбара, [email protected];

(4) Кевин Лин, корпорација Мајкрософт, [email protected];

(5) Линџи Ли, корпорација Мајкрософт, [email protected];

(6) Jianfeng Wang, Microsoft Corporation, [email protected];

(7) Jianwei Јанг, Microsoft Corporation, [email protected];

(8) Јиву Жонг, Универзитетот во Висконсин-Медисон, [email protected];

(9) Џулијан Меколи, УС Сан Диего, [email protected];

(10) Jianfeng Gao, Microsoft Corporation, [email protected];

(11) Зиченг Лиу, корпорација Мајкрософт, [email protected];

(12) Лихуан Ванг, корпорација Мајкрософт, [email protected].


Забелешка на уредникот: Ова е дел 1 од трудот кој ја проценува употребата на генеративна вештачка интелигенција за навигација на паметни телефони. Остатокот од трудот можете да го прочитате преку табелата со линкови подолу.

Табела со врски


Апстракт

Ви го претставуваме MM-Navigator, агент базиран на GPT-4V за задачата за навигација со графички кориснички интерфејс (GUI) на паметни телефони. MM-Navigator може да комуницира со екранот на паметниот телефон како човечки корисници и да ги одреди следните активности за исполнување на дадените инструкции. Нашите наоди покажуваат дека големите мултимодални модели (LMM), особено GPT-4V, се истакнуваат во навигацијата на GUI со нула снимки преку нивната напредна интерпретација на екранот, акциско размислување и прецизни способности за локализација на дејството. Прво го мериме MM-Navigator на нашата собрана база на податоци на екранот на iOS. Според човечки проценки, системот покажа стапка на точност од 91% во генерирањето разумни описи на дејства и стапка на точност од 75% во извршувањето на правилните дејства за инструкции во еден чекор на iOS. Дополнително, го оценуваме моделот на подмножество од базата на податоци за навигација на екранот на Android, каде што моделот ги надминува претходните навигатори на GUI на начин на нула. Нашиот репер и деталните анализи имаат за цел да постават цврста основа за идно истражување на задачата за навигација GUI. Проектната страница е на https: //github.com/zzxslp/MM-Navigator.

1 Вовед

Изградбата на автономни агенти способни за интеракција со компјутерските уреди и следењето на човечките команди е долгогодишна тема во заедницата за машинско учење (Bolt, 1980; Lieberman et al., 1995). Од појавата на паметните телефони, постои практична побарувачка за создавање виртуелни асистенти, како што се Siri, Cortana и Google Assistant, кои имаат потенцијал значително да го подобрат корисничкото искуство и да им помогнат на поединците кои се физички или ситуациски оштетени. Идеално, овие асистенти компетентно би ги извршувале секојдневните задачи засновани на упатства на природен јазик, кои се движат од едноставни дејства како поставување тајмер до посложени задачи како што е лоцирање на идеален хотел за семеен одмор.


Неодамнешните студии започнаа да ја истражуваат контролата на мобилните уреди и автоматизацијата на задачите за паметни телефони следејќи ги човечките инструкции (Rawles et al., 2023; Wen et al., 2023; Zhan and Zhang, 2023; Wang et al., 2023). Репрезентативните пристапи вклучуваат опишување слики на екранот со текст и обработка на конвертиран текст со големи јазични модели (LLMs) (Rawles et al., 2023; Wen et al., 2023) или обука на модел на јазик на видот за генерирање дејства на надгледуван начин ( Rawles et al., 2023 Zhan и Zhang, 2023). Сепак, овие надгледувани модели, кога се обучени за специфични типови на екрани и инструкции (Rawles et al., 2023), покажуваат ограничена ефикасност во генерализирањето на сценаријата од реалниот свет. Од друга страна, пристапите базирани на LLM се генерализираат подобро, но средниот чекор на конвертирање на сликите на екранот во текст резултира со губење на информации и последователно ги повредува перформансите. Инспирирани од ефикасноста и широката применливост на неодамнешните големи мултимодални модели (LMM), истражуваме користејќи LMM, GPT-4V (OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c), за нула шут GUI за паметни телефони навигација, со цел да се постави нова силна основа за оваа интригантна задача.


Идентификуваме два основни предизвици за навигацијата со GUI со LMM, имено опис на наменетото дејство и локализирано извршување на дејството. Прво, моделот треба да ја разбере сликата на екранот и внесената инструкција за текст, и да го резонира барањето за да ја одреди соодветната акција што треба да ја преземе, како што е обезбедување на опис на природен јазик „кликнување на иконата Амазон во третиот ред и четвртата колона“. Второ, моделот треба да го претвори таквото разбирање на високо ниво во форматирано дејство што може лесно да се изврши врз основа на правила, како што е „{Action: Click, Location: (0.31, 0.57)}“. Во нашиот пристап, го поттикнуваме GPT-4V со слика и текст за планирање на активностите и поставуваме ознаки за множество (Yang et al., 2023b) за прицврстување на генерираните излези. Поточно, овие ознаки ги поврзуваме со просторни локации со помош на модели за сегментација или OCR. За таа цел, нашиот предложен систем базиран на GPT-4V, имено MM-Navigator, може да генерира извршни дејства условени од сликата на екранот, текстуалната инструкција и нејзината историја на интеракција.


Ние го мериме MM-Navigator на две сетови на податоци. Започнуваме со база на податоци за навигација на iOS GUI со слики од екранот и кориснички упатства што ги собравме рачно. Оваа чиста аналитичка база на податоци е дизајнирана да ги испита сознанијата за двата предизвици во навигацијата на GUI: опис на намената акција и локализирано извршување на дејството. Човечките проценки се користат за проценка на GPT-4V на овие две задачи, со стапки на точност од 91% и 75%, соодветно. Дополнително, го оценуваме моделот на случаен подмножество од неодамна објавениот репер за навигација на Android (Rawles et al., 2023). Го следиме предложениот протокол за евалуација во реперот, заедно со дополнителни човечки проценки. Силните перформанси покажуваат дека MM-Navigator е ефективен GUI навигатор за паметни телефони, значително надминувајќи ги претходните пристапи базирани на LLM. Обезбедуваме длабински анализи на репрезентативните случаи на успех и неуспех. Откривме дека сегашната состојба на GPT-4V веќе може да биде ефикасна во помагањето на луѓето во различни сценарија за навигација со GUI во реалниот свет, како што беше потврдено од резултатите на повеќе екрани на Слика 4. Сепак, континуираните подобрувања сè уште се неопходни за дополнително зголемување на системот доверливост, како што е откриено во нашите анализи.


Нашите придонеси се сумирани на следниов начин


• Ви го претставуваме MM-Navigator, систем за агенти изграден на GPT-4V за навигација со GUI на паметни телефони. MM-Navigator ефикасно вклучува истории на дејства и ознаки за множество за да произведе прецизни извршни дејства.


• Собираме нова аналитичка база на податоци со разновидни екрани на iOS и кориснички инструкции, кои оценуваат два главни предизвици во навигацијата со GUI со LMM: опис на наменетата акција и локализирано извршување на дејството.


• Вршиме опсежни проценки, и автоматски и човечки, на две збирки на податоци и обезбедуваме детални анализи. Импресивните резултати ја покажуваат ефикасноста на MMNavigator за навигација со GUI.


Овој труд е достапен на arxiv под лиценца CC BY 4.0 DEED.


L O A D I N G
. . . comments & more!

About Author

The FewShot Prompting Publication  HackerNoon profile picture
The FewShot Prompting Publication @fewshot
Spearheading research, publications, and advancements in few-shot learning, and redefining artificial intelligence.

ВИСЕТЕ ТАГОВИ

ОВОЈ СТАТИЈА БЕШЕ ПРЕТСТАВЕН ВО...