Автори:
(1) Ан Ян, Каліфорнійський університет у Сан-Дієго, [email protected];
(2) Zhengyuan Yang, Microsoft Corporation, [email protected] рівними внесками;
(3) Wanrong Zhu, UC Santa Barbara, [email protected];
(4) Кевін Лін, Microsoft Corporation, [email protected];
(5) Linjie Li, Microsoft Corporation, [email protected];
(6) Jianfeng Wang, Microsoft Corporation, [email protected];
(7) Jianwei Yang, Microsoft Corporation, [email protected];
(8) Іу Чжун, Університет Вісконсіна-Медісон, [email protected];
(9) Джуліан Маколі, Каліфорнійський університет у Сан-Дієго, [email protected];
(10) Jianfeng Gao, Microsoft Corporation, [email protected];
(11) Zicheng Liu, Microsoft Corporation, [email protected];
(12) Lijuan Wang, Microsoft Corporation, [email protected].
Примітка редактора: це частина 2 з 13 статті, в якій оцінюється використання генеративного ШІ для навігації смартфонами. Ви можете прочитати решту статті за допомогою таблиці посилань нижче.
Автономна навігація GUI. Автономна навігація графічним інтерфейсом включає в себе модель, яка виконує інструкції для маневрування різними графічними інтерфейсами користувача, такими як веб-сайти або програми, для виконання завдання, яке запитує користувач. Поточні тести зібрали або синтетичні, або реальні інструкції, створені користувачами, щоб оцінити здатність моделей ідентифікувати конкретні елементи інтерфейсу користувача (Shi та ін., 2017; Лі та ін., 2020; Бай та ін., 2021) або досягти загальних цілей завдання шляхом взаємодіючи з низкою графічних інтерфейсів (Li та ін., 2020; Бернс та ін., 2021; Венкатеш та ін., 2022; Денг та ін., 2023; Щоб зрозуміти візуальну інформацію з цих представлень графічного інтерфейсу, одна лінія роботи приймає модельну структуру, яка може обробляти мультимодальні вхідні дані (Sun та ін., 2022; Редмон та ін., 2016). Інші методи зосереджені на перетворенні тексту сцени і піктограм інтерфейсу користувача в текстовий формат HTML, наприклад, одномодульні LLM можуть обробляти ці текстові дані для навігації графічним інтерфейсом користувача (Zhang et al., 2021; Rawles et al., 2023; Wen et al. ін., 2023).
Мультимодальні агенти. Нещодавні досягнення в LLM (Brown та ін., 2020; OpenAI, 2023a; Chowdhery та ін., 2022; Anil та ін., 2023; Touvron та ін., 2023; Hoffmann та ін., 2022) стали каталізатором дослідження LLM. агентні системи (Madaan et al., 2023; Шин та ін., 2023; Яо та ін., 2023; Паранджап та ін., 2023; та ін., 2023; Янг та ін., 2023a), які об’єднують міркування логіку та зовнішні засоби для різноманітних складних мовних завдань. Натхненні успіхом у сфері НЛП, мультимодальні дослідники заглиблюються в мультимодальні агенти. Лінія досліджень починається з мультимодальних агентів на основі LLM (Gupta та Kembhavi, 2023; Surís та ін., 2023; Wu та ін., 2023; Yang* та ін., 2023; Shen та ін., 2023; Lu та ін. ., 2023; Ю та ін., 2023; Лі та ін., 2023), наприклад MM-ReAct (Yang* та ін., 2023) для розширеного візуального мислення та Visual ChatGPT (Ву та ін., 2023) для ітеративної генерації та редагування візуальних зображень. Завдяки швидкому прогресу LMM (Alayrac та ін., 2022; Driess та ін., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang та ін., 2023c; Google, 2023), останні дослідження почали досліджувати мультимодальні агенти, що працюють від LMM (Yang et al., 2023; Liu et al., 2023), що перевершує потребу в базових інструментах візуального опису, таких як моделі підписів (Wang et al., 2022a; Wu et al., 2022). Запропонована нами методологія являє собою спеціалізований агент на основі LMM для навігації графічним інтерфейсом користувача. Ми прагнемо надати комплексний аналіз і міцну основу для цього завдання.
Цей документ доступний на arxiv під ліцензією CC BY 4.0 DEED.