מחברים:
(1) An Yan, UC San Diego, [email protected];
(2) Zhengyuan Yang, Microsoft Corporation, [email protected] עם תרומות שוות;
(3) Wanrong Zhu, UC Santa Barbara, [email protected];
(4) קווין לין, Microsoft Corporation, [email protected];
(5) Linjie Li, Microsoft Corporation, [email protected];
(6) Jianfeng Wang, Microsoft Corporation, [email protected];
(7) Jianwei Yang, Microsoft Corporation, [email protected];
(8) Yiwu Zhong, אוניברסיטת ויסקונסין-מדיסון, [email protected];
(9) ג'וליאן מקאולי, אוניברסיטת סן דייגו, [email protected];
(10) Jianfeng Gao, Microsoft Corporation, [email protected];
(11) Zicheng Liu, Microsoft Corporation, [email protected];
(12) Lijuan Wang, Microsoft Corporation, [email protected].
הערת העורך: זהו חלק 2 מתוך 13 של מאמר שמעריך את השימוש ב-AI מחולל כדי לנווט בסמארטפונים. אתה יכול לקרוא את שאר המאמר דרך טבלת הקישורים למטה.
ניווט GUI אוטונומי. ניווט GUI אוטונומי כולל מודל העוקב אחר הוראות לתמרון דרך ממשקי משתמש גרפיים שונים, כגון אתרים או יישומים, כדי לבצע את המשימה שנשאלה על ידי המשתמש. אמות מידה נוכחיות אספו הוראות סינתטיות או הוראות שנוצרו על ידי משתמשים בעולם האמיתי כדי להעריך את יכולות המודלים בזיהוי רכיבי ממשק משתמש ספציפיים (Shi et al., 2017; Li et al., 2020; Bai et al., 2021), או השגת יעדי משימה כלליים על ידי אינטראקציה עם סדרה של תצוגות GUI (Li et al., 2020; Burns et al., 2021; Venkatesh et al., 2022; Deng et al., 2023; כדי להבין את המידע החזותי מתצוגות GUI אלה, קו עבודה אחד מאמצת מבנה מודל שיכול לעבד תשומות מולטי-מודאליות (Sun et al., 2022; Redmon et al., 2016). שיטות אחרות מתמקדות בהמרת הטקסט והסמלים של סצנת ממשק המשתמש לפורמט HTML בלבד, כגון LLMs עם מודול יחיד יכולות לעבד את קלט הטקסט הללו עבור ניווט GUI (Zhang et al., 2021; Rawles et al., 2023; Wen et al. אל., 2023).
סוכנים מולטי-מודאליים. התקדמות אחרונה בלימודי LLM (Brown et al., 2020; OpenAI, 2023a; Chowdhery et al., 2022; Anil et al., 2023; Touvron et al., 2023; Hoffmann et al., 2022) זירזו את חקר LLM מערכות סוכנים מבוססות (Madaan et al., 2023; Shin וחב', 2023; Yao et al., 2023; al., 2023; Yang et al., 2023a), המשלבים חשיבה לוגיקה וכלים חיצוניים למגוון משימות שפה מורכבות. בהשראת ההצלחה בתחום ה-NLP, חוקרים מולטי-מודאליים מתעמקים בסוכנים מולטי-מודאליים. קו המחקר מתחיל עם סוכנים מולטי-מודאליים מבוססי LLM (Gupta and Kembhavi, 2023; Surís et al., 2023; Wu et al., 2023; Yang* et al., 2023; Shen et al., 2023; Lu et al., 2023; ., 2023; Yu et al., 2023; Li et al., 2023), כגון MM-ReAct (Yang* et al., 2023) עבור חשיבה חזותית מתקדמת ו-Visual ChatGPT (Wu et al., 2023) ליצירה ועריכה חזותית איטרטיבית. המחקרים האחרונים מונעים על ידי ההתקדמות המהירה של LMMs (Alayrac et al., 2022; Driess et al., 2023; OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c; Google, 2023). החלו לחקור את הסוכנים הרב-מודאליים המופעלים על ידי LMM (Yang et al., 2023; Liu et al., 2023), ובכך עולה על הצורך בכלי תיאור חזותיים בסיסיים כמו מודלים של כיתוב (Wang et al., 2022a; Wu et al., 2022). המתודולוגיה המוצעת שלנו מייצגת סוכן מיוחד מבוסס LMM עבור ניווט GUI. אנו שואפים לספק ניתוח מקיף וקו בסיס חזק למשימה זו.
מאמר זה זמין ב-arxiv תחת רישיון CC BY 4.0 DEED.