Авторлор:
(1) Ан Ян, UC Сан-Диего, [email protected];
(2) Zhengyuan Yang, Microsoft Corporation, [email protected] бирдей салымдар менен;
(3) Wanrong Zhu, UC Santa Barbara, [email protected];
(4) Кевин Лин, Microsoft Corporation, [email protected];
(5) Линджи Ли, Microsoft корпорациясы, [email protected];
(6) Jianfeng Wang, Microsoft Corporation, [email protected];
(7) Jianwei Yang, Microsoft Corporation, [email protected];
(8) Yiwu Zhong, University of Wisconsin-Madison, [email protected];
(9) Julian McAuley, UC San Diego, [email protected];
(10) Jianfeng Gao, Microsoft Corporation, [email protected];
(11) Zicheng Liu, Microsoft Corporation, [email protected];
(12) Лижуан Ванг, Microsoft корпорациясы, [email protected].
Редакциянын эскертүүсү: Бул смартфондорду башкаруу үчүн генеративдик интеллектти колдонууну баалаган кагаздын 1-бөлүгү. Кагаздын калган бөлүгүн төмөнкү шилтемелердин таблицасы аркылуу окуй аласыз.
Биз MM-Navigator, смартфондун графикалык колдонуучу интерфейси (GUI) навигация тапшырмасы үчүн GPT-4V негизиндеги агентти сунуштайбыз. MM-Navigator адам колдонуучулары катары смартфондун экраны менен иштешип, берилген көрсөтмөлөрдү аткаруу үчүн кийинки аракеттерди аныктай алат. Биздин табылгалар чоң мультимодалдык моделдер (LMMs), атап айтканда GPT-4V, өнүккөн экранды чечмелөө, иш-аракеттерди ойлоо жана так аракетти локалдаштыруу мүмкүнчүлүктөрү аркылуу нөлдүк GUI навигациясында мыкты экенин көрсөтүп турат. Биз биринчи жолу чогултулган iOS экран маалымат топтомубузда MM-Navigator эталону. Адамдардын баалоолоруна ылайык, система иш-аракеттердин акылга сыярлык сүрөттөмөсүн түзүү боюнча 91% тактык көрсөткүчүн жана iOS'то бир кадамдуу нускамалар үчүн туура аракеттерди аткарууда 75% тактык көрсөткүчүн көрсөттү. Кошумчалай кетсек, биз моделди Android экранынын навигациялык берилиштер топтомунун бир бөлүгүндө баалайбыз, мында модель мурунку GUI навигаторлорунан нөлдүк режимде ашып кетет. Биздин эталондук жана деталдуу анализдерибиз GUI багыттоо тапшырмасын келечектеги изилдөө үчүн бекем негиз түзүүгө багытталган. Долбоор баракчасы https: //github.com/zzxslp/MM-Navigator дарегинде.
Эсептөөчү түзүлүштөр менен өз ара аракеттенүүгө жана адамдын буйруктарын аткарууга жөндөмдүү автономдуу агенттерди куруу машина үйрөнүү коомчулугунда көптөн бери келе жаткан тема болуп келген (Болт, 1980; Либерман ж.б., 1995). Смартфондор пайда болгондон бери Siri, Cortana жана Google Assistant сыяктуу виртуалдык жардамчыларды түзүүгө практикалык суроо-талап пайда болду, алар колдонуучу тажрыйбасын олуттуу түрдө жакшыртат жана физикалык же жагдайы начар адамдарга жардам бере алат. Идеалында, бул жардамчылар таймерди коюу сыяктуу жөнөкөй аракеттерден баштап, үй-бүлөлүк эс алуу үчүн идеалдуу мейманкананы табуу сыяктуу татаал тапшырмаларга чейин табигый тил көрсөтмөлөрүнө негизделген күнүмдүк тапшырмаларды компетенттүү аткарышат.
Акыркы изилдөөлөр мобилдик түзүлүштү башкарууну жана смартфондун тапшырмаларын автоматташтыруу боюнча адамдын көрсөтмөлөрүнө ылайык изилдей баштады (Роулз ж.б., 2023; Wen et al., 2023; Zhan and Zhang, 2023; Wang et al., 2023). Өкүлчүлүк мамилелерге экрандагы сүрөттөрдү текст менен сүрөттөө жана конверттелген текстти чоң тил моделдери (LLMs) менен иштетүү (Rawles et al., 2023; Wen et al., 2023) же көзөмөлгө алынган тартипте иш-аракеттерди түзүү үчүн көрүү-тил моделин үйрөтүү кирет ( Rawles et al., 2023; Zhan and Zhang, 2023). Бирок, бул көзөмөлдөнгөн моделдер, экрандардын жана нускамалардын белгилүү бир түрлөрү боюнча үйрөтүлгөндө (Роулз ж.б., 2023), реалдуу дүйнө сценарийлерин жалпылоодо чектелген эффективдүүлүктү көрсөтөт. Башка жагынан алып караганда, LLM негизиндеги ыкмалар жакшыраак жалпыланат, бирок экрандагы сүрөттөрдү текстке айландыруунун ортодогу кадамы маалыматтын жоголушуна алып келет жана натыйжада иштөөгө зыян келтирет. Акыркы чоң мультимодалдык моделдердин (LMM) натыйжалуулугуна жана кеңири колдонулушуна шыктанган биз LMM, GPT-4V (OpenAI, 2023a,b,c; gpt, 2023; Янг ж.б., 2023c) нөлдүк смартфон GUI үчүн колдонууну изилдеп жатабыз. навигация, бул кызыктуу тапшырма үчүн жаңы күчтүү базаны коюуну көздөйт.
Биз LMM менен GUI навигациясынын эки негизги көйгөйүн аныктайбыз, атап айтканда, арналган иш-аракеттин сүрөттөлүшү жана локализацияланган аракеттин аткарылышы. Биринчиден, модель экрандагы сүрөттү жана тексттик нускама киргизүүнү түшүнүп, суроонун үстүнөн ой жүгүртүп, тиешелүү иш-аракетти аныктоо үчүн, мисалы, табигый тилде сүрөттөмө берүү сыяктуу "үчүнчү катардагы жана төртүнчү тилкедеги Amazon сөлөкөтүн чыкылдатуу" керек. Экинчиден, модель мындай жогорку деңгээлдеги түшүнүктү "{Аракет: Click, Location: (0.31, 0.57)}" сыяктуу эрежелердин негизинде оңой аткарыла турган форматталган аракетке айландырышы керек. Биздин мамилебизде, биз GPT-4Vти иш-аракетти пландаштыруу үчүн сүрөт жана текст менен сунуштайбыз жана түзүлгөн жыйынтыктарды бекитүү үчүн белгилердин топтомун (Янг ж.б., 2023b) жайгаштырабыз. Тактап айтканда, биз сегментация же OCR моделдеринин жардамы менен бул белгилерди мейкиндиктеги жерлер менен байланыштырабыз. Бул үчүн, биздин сунушталган GPT-4V негизиндеги тутумубуз, атап айтканда, MM-Navigator, экрандагы сүрөткө, тексттик нускамага жана анын өз ара аракеттенүү тарыхына шартталган аткарылуучу аракеттерди жасай алат.
Биз MM-Navigatorди эки маалымат топтомунда салыштырып көрөбүз. Биз кол менен чогултулган скриншоттор жана колдонуучу нускамалары бар iOS GUI навигациясынын берилиштер топтомунан баштайбыз. Бул таза аналитикалык маалымат топтому GUI навигациясынын эки көйгөйү боюнча түшүнүктөрдү изилдөө үчүн иштелип чыккан: максатталган аракеттин сүрөттөлүшү жана локализацияланган аракеттин аткарылышы. Адамдын баалоосу бул эки тапшырма боюнча GPT-4V баалоо үчүн колдонулат, тиешелүүлүгүнө жараша тактык чендери 91% жана 75%. Кошумчалай кетсек, биз жакында чыгарылган Android навигациялык эталонунун кокустук топтомундагы моделди баалайбыз (Rawles et al., 2023). Биз кошумча адам баалоолору менен бирге эталондо сунушталган баалоо протоколуна баш ийебиз. Күчтүү көрсөткүчтөр MM-Navigator смартфондор үчүн эффективдүү GUI навигатору экенин көрсөтүп турат, бул мурунку LLMге негизделген ыкмалардан кыйла ашып түштү. Биз өкүлчүлүктүү ийгилик жана ийгиликсиз учурлардын терең анализдерин беребиз. Биз GPT-4Vнын учурдагы абалы 4-сүрөттөгү көп экрандуу натыйжалардан көрүнүп тургандай, ар кандай реалдуу дүйнөдөгү GUI навигация сценарийлеринде адамдарга жардам берүү үчүн эффективдүү болушу мүмкүн экенин байкадык. Бирок, системаны андан ары өркүндөтүү үчүн дагы эле өркүндөтүүнү улантуу зарыл. ишенимдүүлүк, биздин анализдерибизден көрүнүп тургандай.
Биздин салымдар төмөнкүчө чагылдырылган
• Биз MM-Navigator, смартфондун GUI навигациясы үчүн GPT-4Vде курулган агент системасын сунуштайбыз. MM-Navigator так аткарылуучу иш-аракеттерди жасоо үчүн иш-аракеттердин тарыхын жана белги белгилерин эффективдүү камтыйт.
• Биз ар түрдүү iOS экрандары жана колдонуучу нускамалары менен жаңы аналитикалык маалымат топтомун чогултабыз, ал LMM менен GUI навигациясындагы эки негизги кыйынчылыкты баалайт: пландалган аракеттин сүрөттөлүшү жана локализацияланган аракеттин аткарылышы.
• Биз эки маалымат топтомунда автоматтык жана адамдык баалоолорду жүргүзөбүз жана деталдуу талдоолорду беребиз. Таасирдүү жыйынтыктар GUI навигациясы үчүн MMNavigator эффективдүүлүгүн көрсөтөт.