Автори:  (1) Ан Ян, Каліфорнійський університет у Сан-Дієго, ayan@ucsd.edu;  (2) Zhengyuan Yang, Microsoft Corporation, zhengyang@microsoft.com рівними внесками;  (3) Wanrong Zhu, UC Santa Barbara, wanrongzhu@ucsb.edu;  (4) Кевін Лін, Microsoft Corporation, keli@microsoft.com;  (5) Linjie Li, Microsoft Corporation, lindsey.li@mocrosoft.com;  (6) Jianfeng Wang, Microsoft Corporation, jianfw@mocrosoft.com;  (7) Jianwei Yang, Microsoft Corporation, jianwei.yang@mocrosoft.com;  (8) Іу Чжун, Університет Вісконсіна-Медісон, yzhong52@wisc.edu;  (9) Джуліан Маколі, Каліфорнійський університет у Сан-Дієго, jmcauley@ucsd.edu;  (10) Jianfeng Gao, Microsoft Corporation, jfgao@mocrosoft.com;  (11) Zicheng Liu, Microsoft Corporation, zliu@mocrosoft.com;  (12) Lijuan Wang, Microsoft Corporation, lijuanw@mocrosoft.com.   Примітка редактора: це перша частина статті, в якій оцінюється використання генеративного ШІ для навігації смартфонами. Ви можете прочитати решту статті за допомогою таблиці посилань нижче.  Таблиця посилань   Анотація та 1 вступ   2 Схожа робота  3 ММ-навігатор   3.1 Формулювання проблеми та 3.2 Заземлення екрана та навігація за допомогою набору позначок   3.3 Створення історії за допомогою мультимодального саморезюмування  4 Експеримент із екранною навігацією iOS   4.1 Експериментальна установка   4.2 Опис запланованих дій   4.3 Виконання локалізованої дії та 4.4 Поточний стан із GPT-4V  5 Експеримент із екранною навігацією Android   5.1 Експериментальна установка   5.2 Порівняння продуктивності   5.3 Дослідження абляції   5.4 Аналіз помилок   6 Обговорення   7 Висновки та література  Анотація  Представляємо MM-Navigator, агент на основі GPT-4V для завдання навігації за допомогою графічного інтерфейсу користувача (GUI) смартфона. MM-Navigator може взаємодіяти з екраном смартфона як користувач і визначати подальші дії для виконання заданих інструкцій. Наші висновки демонструють, що великі мультимодальні моделі (LMM), зокрема GPT-4V, чудово підходять для безпрограшної навігації графічним інтерфейсом користувача завдяки розширеній інтерпретації екрана, обґрунтуванню дій і можливостям точної локалізації дій. Спочатку ми тестуємо MM-Navigator на нашому зібраному наборі даних екрану iOS. Відповідно до людських оцінок, система продемонструвала точність 91% у створенні розумних описів дій і 75% у виконанні правильних дій для однокрокових інструкцій на iOS. Крім того, ми оцінюємо модель на підмножині набору даних екранної навігації Android, де модель перевершує попередні навігатори з графічним інтерфейсом. Наш контрольний і детальний аналіз спрямований на те, щоб закласти міцну основу для майбутніх досліджень навігаційного завдання GUI. Сторінка проекту знаходиться за адресою https: //github.com/zzxslp/MM-Navigator.  1 Вступ  Створення автономних агентів, здатних взаємодіяти з обчислювальними пристроями та виконувати команди людини, давно є темою спільноти машинного навчання (Болт, 1980; Ліберман та ін., 1995). З появою смартфонів існував практичний попит на створення віртуальних помічників, таких як Siri, Cortana та Google Assistant, які мають потенціал для значного покращення взаємодії з користувачем та надання допомоги особам із фізичними або ситуаційними вадами. В ідеалі ці помічники могли б грамотно виконувати повсякденні завдання на основі інструкцій природною мовою, починаючи від простих дій, таких як налаштування таймера, і закінчуючи більш складними завданнями, такими як пошук ідеального готелю для сімейного відпочинку.  Недавні дослідження почали досліджувати керування мобільними пристроями та автоматизацію завдань на смартфонах за вказівками людини (Rawles та ін., 2023; Wen та ін., 2023; Zhan та Zhang, 2023; Wang та ін., 2023). Репрезентативні підходи включають опис екранних зображень за допомогою тексту та обробку перетвореного тексту за допомогою великих мовних моделей (LLM) (Роулз та ін., 2023; Вен та ін., 2023) або навчання зорово-мовної моделі генерації дій у керований спосіб ( Rawles et al., 2023; Zhan and Zhang, 2023). Однак ці керовані моделі, коли їх навчають на певних типах екранів та інструкцій (Rawles et al., 2023), виявляють обмежену ефективність у узагальненні для сценаріїв реального світу. З іншого боку, підходи на основі LLM краще узагальнюють, але проміжний етап перетворення екранних зображень у текст призводить до втрати інформації та, як наслідок, погіршує продуктивність. Натхненні ефективністю та широкою застосовністю останніх великих мультимодальних моделей (LMM), ми досліджуємо використання LMM GPT-4V (OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c) для графічного інтерфейсу смартфона Zeroshot. навігації, щоб встановити нову міцну базу для цього інтригуючого завдання.  Ми визначаємо два основних виклики для навігації GUI за допомогою LMM, а саме: опис передбачуваної дії та локалізоване виконання дії. По-перше, модель повинна розуміти зображення екрана та текстові інструкції, що вводяться, і обміркувати запит, щоб визначити відповідну дію, наприклад, надати опис природною мовою «клацання піктограми Amazon у третьому рядку та четвертому стовпці». По-друге, модель має перетворити таке розуміння високого рівня на відформатовану дію, яку можна легко виконати на основі правил, таких як «{Дія: Клацніть, Розташування: (0.31, 0.57)}». У нашому підході ми надаємо GPT-4V зображення та текст для планування дій і розміщуємо позначки (Янг та ін., 2023b), щоб закріпити згенеровані результати. Зокрема, ми пов’язуємо ці позначки з просторовими розташуваннями за допомогою моделей сегментації або OCR. З цією метою запропонована нами система на основі GPT-4V, а саме MM-Navigator, може генерувати виконувані дії залежно від зображення на екрані, текстової інструкції та історії взаємодії.  Ми тестуємо MM-Navigator на двох наборах даних. Ми починаємо з набору даних навігації графічного інтерфейсу iOS зі знімками екрана та інструкціями користувача, які ми зібрали вручну. Цей чистий аналітичний набір даних призначений для дослідження двох проблем у навігації графічним інтерфейсом користувача: опис запланованої дії та виконання локалізованої дії. Оцінки людини використовуються для оцінки GPT-4V у цих двох завданнях із рівнем точності 91% і 75% відповідно. Крім того, ми оцінюємо модель на випадковій підмножині нещодавно випущеного еталонного тесту навігації Android (Rawles et al., 2023). Ми дотримуємося запропонованого протоколу оцінки в еталонному тесті разом із додатковими оцінками людьми. Висока продуктивність демонструє, що MM-Navigator є ефективним графічним навігатором для смартфонів, значно перевершуючи попередні підходи на основі LLM. Ми надаємо детальний аналіз типових випадків успіху та невдачі. Ми виявили, що поточний стан GPT-4V вже може бути ефективним у допомозі людям у різних реальних сценаріях навігації з графічним інтерфейсом користувача, про що свідчать результати багатоекранного режиму на малюнку 4. Однак постійні вдосконалення все ще важливі для подальшого підвищення ефективності системи. надійність, як виявлено в нашому аналізі.  Наші внески підсумовані таким чином  • Представляємо MM-Navigator, агентську систему, побудовану на GPT-4V для навігації з графічним інтерфейсом смартфона. MM-Navigator ефективно включає в себе історію дій і теги set-of-mark для створення точних виконуваних дій.  • Ми збираємо новий аналітичний набір даних із різноманітними екранами iOS та інструкціями для користувача, який оцінює дві основні проблеми в навігації з графічним інтерфейсом за допомогою LMM: опис запланованої дії та локалізоване виконання дії.  • Ми проводимо розширені оцінки, як автоматичні, так і людські, двох наборів даних і надаємо детальний аналіз. Вражаючі результати демонструють ефективність MMNavigator для графічної навігації.  Цей документ   під ліцензією CC BY 4.0 DEED. доступний на arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

FEW SHOT .tech

Це аудіо створено мовою оригіналу історії!

Дослідники Microsoft кажуть, що нова модель ШІ може «бачити» екран вашого телефону

About Author

КОМЕНТАРІ

ПОВІСИТИ БИРКИ

ЦЯ СТАТТЯ БУЛА ПРЕДСТАВЛЕНА В

Related Stories

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps