Հեղինակներ:
(1) An Yan, UC San Diego, [email protected];
(2) Zhengyuan Yang, Microsoft Corporation, [email protected] հավասար ներդրումներով.
(3) Wanrong Zhu, UC Santa Barbara, [email protected];
(4) Քևին Լին, Microsoft Corporation, [email protected];
(5) Linjie Li, Microsoft Corporation, [email protected];
(6) Jianfeng Wang, Microsoft Corporation, [email protected];
(7) Jianwei Yang, Microsoft Corporation, [email protected];
(8) Յիվու Չժոնգ, Վիսկոնսին-Մեդիսոնի համալսարան, [email protected];
(9) Julian McAuley, UC San Diego, [email protected];
(10) Jianfeng Gao, Microsoft Corporation, [email protected];
(11) Zicheng Liu, Microsoft Corporation, [email protected];
(12) Lijuan Wang, Microsoft Corporation, [email protected]:
Խմբագրի նշում. Սա թղթի 1-ին մասն է, որը գնահատում է գեներացնող AI-ի օգտագործումը սմարթֆոններով նավարկելու համար: Թերթի մնացած մասը կարող եք կարդալ ստորև բերված հղումների աղյուսակի միջոցով:
Ներկայացնում ենք MM-Navigator-ը՝ GPT-4V-ի վրա հիմնված գործակալ սմարթֆոնի գրաֆիկական ինտերֆեյսի (GUI) նավիգացիոն առաջադրանքի համար: MM-Navigator-ը կարող է փոխազդել սմարթֆոնի էկրանի հետ որպես մարդկային օգտատերեր և որոշել հետագա գործողությունները՝ տրված հրահանգները կատարելու համար: Մեր բացահայտումները ցույց են տալիս, որ մեծ մուլտիմոդալ մոդելները (LMMs), մասնավորապես GPT-4V-ը, գերազանցում են զրոյական ինտերֆեյսի միջերեսային ինտերֆեյսի նավարկությունը՝ էկրանի առաջադեմ մեկնաբանման, գործողությունների պատճառաբանման և գործողությունների ճշգրիտ տեղայնացման հնարավորությունների միջոցով: Մենք առաջին հերթին չափում ենք MM-Navigator-ը մեր հավաքագրված iOS էկրանի տվյալների բազայում: Մարդկային գնահատականների համաձայն՝ համակարգը ցուցադրել է 91% ճշգրտություն խելամիտ գործողությունների նկարագրություններ ստեղծելիս և 75% ճշգրտություն՝ iOS-ում մեկ քայլով հրահանգների համար ճիշտ գործողությունների կատարման հարցում: Բացի այդ, մենք գնահատում ենք մոդելը Android-ի էկրանի նավիգացիոն տվյալների բազայի ենթաբազմության վրա, որտեղ մոդելը գերազանցում է նախորդ GUI նավիգատորներին զրոյական տարբերակով: Մեր հենանիշը և մանրամասն վերլուծությունները նպատակ ունեն ամուր հիմքեր ստեղծել GUI նավիգացիոն առաջադրանքի հետագա հետազոտությունների համար: Ծրագրի էջը գտնվում է https://github.com/zzxslp/MM-Navigator-ում:
Ինքնավար գործակալների կառուցումը, որոնք կարող են փոխազդել հաշվողական սարքերի հետ և հետևել մարդու հրամաններին, եղել է երկարատև թեմա մեքենայական ուսուցման համայնքում (Bolt, 1980; Lieberman et al., 1995): Սմարթֆոնների հայտնվելուց ի վեր գործնական պահանջ է եղել ստեղծել վիրտուալ օգնականներ, ինչպիսիք են Siri-ն, Cortana-ն և Google Assistant-ը, որոնք ներուժ ունեն զգալիորեն բարելավելու օգտատերերի փորձը և օգնելու ֆիզիկական կամ իրավիճակային խնդիրներ ունեցող անձանց: Իդեալում, այս օգնականները գրագետ կերպով կկատարեն ամենօրյա առաջադրանքները՝ հիմնված բնական լեզվի հրահանգների վրա՝ սկսած պարզ գործողություններից, ինչպիսիք են ժամաչափի կարգավորումը, մինչև ավելի բարդ առաջադրանքներ, օրինակ՝ ընտանեկան հանգստի համար իդեալական հյուրանոց գտնելը:
Վերջին ուսումնասիրությունները սկսել են ուսումնասիրել բջջային սարքերի կառավարումը և սմարթֆոնների առաջադրանքների ավտոմատացումը՝ հետևելով մարդու հրահանգներին (Rawles et al., 2023; Wen et al., 2023; Zhan and Zhang, 2023; Wang et al., 2023): Ներկայացուցչական մոտեցումները ներառում են էկրանի պատկերների նկարագրությունը տեքստով և փոխակերպված տեքստի մշակումը մեծ լեզվական մոդելներով (LLMs) (Rawles et al., 2023; Wen et al., 2023), կամ տեսլական-լեզու մոդելի ուսուցում՝ վերահսկվող ձևով գործողություններ առաջացնելու համար ( Rawles et al., 2023, Zhan and Zhang, 2023): Այնուամենայնիվ, այս վերահսկվող մոդելները, երբ վերապատրաստվում են հատուկ տեսակի էկրանների և հրահանգների վրա (Rawles et al., 2023), ցուցադրում են սահմանափակ արդյունավետություն իրական աշխարհի սցենարներին ընդհանրացնելու հարցում: Մյուս կողմից, LLM-ի վրա հիմնված մոտեցումներն ավելի լավ են ընդհանրացնում, սակայն էկրանի պատկերները տեքստի փոխակերպելու միջանկյալ քայլը հանգեցնում է տեղեկատվության կորստի և, հետևաբար, վնասում է կատարողականին: Ոգեշնչված վերջին խոշոր մուլտիմոդալ մոդելների (LMMs) արդյունավետությամբ և լայն կիրառելիությամբ՝ մենք ուսումնասիրում ենք՝ օգտագործելով LMM, GPT-4V (OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c), զրոյական սմարթֆոնների միջերեսային միջերեսի համար: նավարկություն՝ նպատակ ունենալով ստեղծել նոր ուժեղ հիմք այս հետաքրքիր առաջադրանքի համար:
Մենք առանձնացնում ենք երկու առաջնային մարտահրավերներ GUI-ի նավարկության համար LMM-ներով, այն է՝ նախատեսված գործողությունների նկարագրությունը և գործողությունների տեղայնացված կատարումը: Նախ, մոդելը պետք է հասկանա էկրանի պատկերը և տեքստի հրահանգների մուտքագրումը և հիմնավորի հարցումը, որպեսզի որոշի համապատասխան գործողությունները, օրինակ՝ բնական լեզվով նկարագրություն տրամադրելը «սեղմելով Amazon պատկերակը երրորդ տողում և չորրորդ սյունակում»: Երկրորդ, մոդելը պետք է վերափոխի նման բարձր մակարդակի ըմբռնումը ֆորմատավորված գործողության, որը կարող է հեշտությամբ իրականացվել կանոնների հիման վրա, ինչպիսիք են «{Գործողություն. Սեղմեք, Տեղադրություն. (0.31, 0.57)}»: Մեր մոտեցման մեջ մենք հուշում ենք GPT-4V-ին պատկերով և տեքստով գործողությունների պլանավորման համար, և տեղադրում ենք մի շարք նշանների պիտակներ (Yang et al., 2023b)՝ խարսխելու առաջացած ելքերը: Մասնավորապես, մենք այս նշանները կապում ենք տարածական տեղակայման հետ՝ սեգմենտացիայի կամ OCR մոդելների օգնությամբ: Այդ նպատակով մեր առաջարկած GPT-4V-ի վրա հիմնված համակարգը, այն է՝ MM-Navigator-ը, կարող է ստեղծել կատարվող գործողություններ՝ պայմանավորված էկրանի պատկերով, տեքստային հրահանգով և դրա փոխազդեցության պատմության վրա:
Մենք չափում ենք MM-Navigator-ը երկու տվյալների հավաքածուներով: Մենք սկսում ենք iOS GUI նավիգացիոն տվյալների բազայից՝ սքրինշոթներով և օգտագործողի հրահանգներով, որոնք մենք ձեռքով հավաքել ենք: Այս մաքուր վերլուծական տվյալների բազան նախատեսված է GUI նավիգացիայի երկու մարտահրավերների վերաբերյալ պատկերացումները պարզելու համար՝ նախատեսված գործողությունների նկարագրությունը և գործողությունների տեղայնացված կատարումը: Մարդկային գնահատականներն օգտագործվում են GPT-4V-ն այս երկու առաջադրանքների համար գնահատելու համար՝ համապատասխանաբար 91% և 75% ճշգրտությամբ: Բացի այդ, մենք գնահատում ենք մոդելը պատահական ենթաբազմության վրա՝ վերջերս թողարկված Android նավիգացիոն հենանիշից (Rawles et al., 2023): Մենք հետևում ենք հենանիշում առաջարկվող գնահատման արձանագրությանը, ինչպես նաև լրացուցիչ մարդկային գնահատումներին: Ուժեղ կատարումը ցույց է տալիս, որ MM-Navigator-ը արդյունավետ GUI նավիգատոր է սմարթֆոնների համար՝ զգալիորեն գերազանցելով LLM-ի վրա հիմնված նախորդ մոտեցումները: Մենք տրամադրում ենք ներկայացուցչական հաջողության և ձախողման դեպքերի խորը վերլուծություն: Մենք գտնում ենք, որ GPT-4V-ի ներկայիս վիճակը կարող է արդեն արդյունավետ լինել՝ օգնելու մարդկանց իրական աշխարհի GUI նավիգացիոն սցենարներում, ինչպես վկայում են Նկար 4-ի բազմաէկրանների արդյունքները: Այնուամենայնիվ, շարունակական բարելավումները դեռևս կարևոր են համակարգի հետագա մեծացման համար: հուսալիություն, ինչպես բացահայտվել է մեր վերլուծություններում:
Մեր ներդրումներն ամփոփված են հետևյալ կերպ
• Ներկայացնում ենք MM-Navigator-ը՝ գործակալական համակարգ, որը կառուցված է GPT-4V-ի վրա՝ սմարթֆոնների GUI նավիգացիայի համար: MM-Navigator-ը արդյունավետ կերպով ներառում է գործողությունների պատմություններ և պիտակների հավաքածու՝ ճշգրիտ կատարվող գործողություններ արտադրելու համար:
• Մենք հավաքում ենք նոր վերլուծական տվյալների բազա՝ տարբեր iOS էկրաններով և օգտատիրոջ ցուցումներով, որը գնահատում է GUI նավիգացիայի երկու հիմնական մարտահրավերը LMM-ներով՝ նախատեսված գործողությունների նկարագրությունը և գործողությունների տեղայնացված կատարումը:
• Մենք իրականացնում ենք լայնածավալ գնահատումներ՝ և՛ ավտոմատ, և՛ մարդկային, երկու տվյալների հավաքածուների վրա և տրամադրում ենք մանրամասն վերլուծություններ: Տպավորիչ արդյունքները ցույց են տալիս MMNavigator-ի արդյունավետությունը GUI նավիգացիայի համար:
Այս փաստաթուղթը հասանելի է arxiv-ում CC BY 4.0 DEED լիցենզիայի ներքո: