117 показання

Познайомтеся зі штучним інтелектом, який справді може використовувати ваш смартфон замість вас

за The FewShot Prompting Publication 3m2024/12/11

Надто довго; Читати

Дослідники з Microsoft і Каліфорнійського університету в Сан-Дієго розробили модель штучного інтелекту, здатну керувати екраном смартфона.

featured image - Познайомтеся зі штучним інтелектом, який справді може використовувати ваш смартфон замість вас

Автори:

(1) Ан Ян, Каліфорнійський університет у Сан-Дієго, [email protected];

(2) Zhengyuan Yang, Microsoft Corporation, [email protected] рівними внесками;

(3) Wanrong Zhu, UC Santa Barbara, [email protected];

(4) Кевін Лін, Microsoft Corporation, [email protected];

(5) Linjie Li, Microsoft Corporation, [email protected];

(6) Jianfeng Wang, Microsoft Corporation, [email protected];

(7) Jianwei Yang, Microsoft Corporation, [email protected];

(8) Іу Чжун, Університет Вісконсіна-Медісон, [email protected];

(9) Джуліан Маколі, Каліфорнійський університет у Сан-Дієго, [email protected];

(10) Jianfeng Gao, Microsoft Corporation, [email protected];

(11) Zicheng Liu, Microsoft Corporation, [email protected];

(12) Lijuan Wang, Microsoft Corporation, [email protected].

Примітка редактора: це частина 2 з 13 статті, в якій оцінюється використання генеративного ШІ для навігації смартфонами. Ви можете прочитати решту статті за допомогою таблиці посилань нижче.

Таблиця посилань

Анотація та 1 вступ
2 Схожа робота
3 ММ-навігатор
3.1 Формулювання проблеми та 3.2 Заземлення екрана та навігація за допомогою набору позначок
3.3 Створення історії за допомогою мультимодального саморезюмування
4 Експеримент із екранною навігацією iOS
4.1 Експериментальна установка
4.2 Опис запланованих дій
4.3 Виконання локалізованої дії та 4.4 Поточний стан із GPT-4V
5 Експеримент із екранною навігацією Android
5.1 Експериментальна установка
5.2 Порівняння продуктивності
5.3 Дослідження абляції
5.4 Аналіз помилок
6 Обговорення
7 Висновки та література

2 Схожа робота

Автономна навігація GUI. Автономна навігація графічним інтерфейсом включає в себе модель, яка виконує інструкції для маневрування різними графічними інтерфейсами користувача, такими як веб-сайти або програми, для виконання завдання, яке запитує користувач. Поточні тести зібрали або синтетичні, або реальні інструкції, створені користувачами, щоб оцінити здатність моделей ідентифікувати конкретні елементи інтерфейсу користувача (Shi та ін., 2017; Лі та ін., 2020; Бай та ін., 2021) або досягти загальних цілей завдання шляхом взаємодіючи з низкою графічних інтерфейсів (Li та ін., 2020; Бернс та ін., 2021; Венкатеш та ін., 2022; Денг та ін., 2023; Щоб зрозуміти візуальну інформацію з цих представлень графічного інтерфейсу, одна лінія роботи приймає модельну структуру, яка може обробляти мультимодальні вхідні дані (Sun та ін., 2022; Редмон та ін., 2016). Інші методи зосереджені на перетворенні тексту сцени і піктограм інтерфейсу користувача в текстовий формат HTML, наприклад, одномодульні LLM можуть обробляти ці текстові дані для навігації графічним інтерфейсом користувача (Zhang et al., 2021; Rawles et al., 2023; Wen et al. ін., 2023).

Мультимодальні агенти. Нещодавні досягнення в LLM (Brown та ін., 2020; OpenAI, 2023a; Chowdhery та ін., 2022; Anil та ін., 2023; Touvron та ін., 2023; Hoffmann та ін., 2022) стали каталізатором дослідження LLM. агентні системи (Madaan et al., 2023; Шин та ін., 2023; Яо та ін., 2023; Паранджап та ін., 2023; та ін., 2023; Янг та ін., 2023a), які об’єднують міркування логіку та зовнішні засоби для різноманітних складних мовних завдань. Натхненні успіхом у сфері НЛП, мультимодальні дослідники заглиблюються в мультимодальні агенти. Лінія досліджень починається з мультимодальних агентів на основі LLM (Gupta та Kembhavi, 2023; Surís та ін., 2023; Wu та ін., 2023; Yang* та ін., 2023; Shen та ін., 2023; Lu та ін. ., 2023; Ю та ін., 2023; Лі та ін., 2023), наприклад MM-ReAct (Yang* та ін., 2023) для розширеного візуального мислення та Visual ChatGPT (Ву та ін., 2023) для ітеративної генерації та редагування візуальних зображень. Завдяки швидкому прогресу LMM (Alayrac та ін., 2022; Driess та ін., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang та ін., 2023c; Google, 2023), останні дослідження почали досліджувати мультимодальні агенти, що працюють від LMM (Yang et al., 2023; Liu et al., 2023), що перевершує потребу в базових інструментах візуального опису, таких як моделі підписів (Wang et al., 2022a; Wu et al., 2022). Запропонована нами методологія являє собою спеціалізований агент на основі LMM для навігації графічним інтерфейсом користувача. Ми прагнемо надати комплексний аналіз і міцну основу для цього завдання.

Цей документ доступний на arxiv під ліцензією CC BY 4.0 DEED.

L O A D I N G
. . . comments & more!

About Author

The FewShot Prompting Publication @fewshot

Spearheading research, publications, and advancements in few-shot learning, and redefining artificial intelligence.

Read my stories

ПОВІСИТИ БИРКИ

machine-learning #artificial-intelligence #mm-navigator #gpt-4v-based-agent #gpt-4v #gpt-4v-research #large-multimodal-models #ai-gui-navigation #ai-for-smartphones

ЦЯ СТАТТЯ БУЛА ПРЕДСТАВЛЕНА В...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

Познайомтеся зі штучним інтелектом, який справді може використовувати ваш смартфон замість вас

Надто довго; Читати

Таблиця посилань

2 Схожа робота

About Author

ПОВІСИТИ БИРКИ

ЦЯ СТАТТЯ БУЛА ПРЕДСТАВЛЕНА В...

ПОВ’ЯЗАНІ ІСТОРІЇ