Bangwadi: .
(1) An Yan, U. C. San Diego, ayan @ ucsd.edu;
(2) Zhengyuan Yang, Microsoft Corporation, [email protected] ka meneelo e lekanang;
(3) Wanrong Zhu, U. C. Santa Barbara, [email protected], le ba bangwe;
(4) Kevin Lin, Koporasi ya Microsoft, [email protected];
(5) Linjie Li, Koporasi ya Microsoft, [email protected];
(6) Jianfeng Wang, Koporasi ya Microsoft, [email protected];
(7) Jianwei Yang, Koporasi ya Microsoft, [email protected];
(8) Yiwu Zhong, Yunibesithi ya Wisconsin-Madison, [email protected];
(9) Julian McAuley, U. C. San Diego, jmcauley @ ucsd.edu, le ba bangwe;
(10) Jianfeng Gao, Koporasi ya Microsoft, [email protected];
(11) Zicheng Liu, Koporasi ya Microsoft, [email protected];
(12) Lijuan Wang, Koporasi ya Microsoft, [email protected].
Tlhokomedišo ya morulaganyi: Ye ke karolo ya 1 ya pampiri yeo e sekasekago tšhomišo ya AI ya go tšweletša go sepelasepela di-smartphone. O ka bala pampiri ka moka ka tafola ya dikgokagano ye e lego ka mo tlase.
Re hlahisa MM-Navigator, e GPT-4V-thehiloeng moemeli bakeng sa smartphone dikerafike mosebedisi segokanyimmediamentsi sa sebolokigolo (GUI) tsamaea mosebetsi. MM-Navigator e ka dirišana le skrine sa smartphone bjalo ka badiriši ba batho, gomme ya laetša ditiro tše di latelago go phethagatša ditaelo tše di filwego. Diphetho tša rena di bontšha gore dikai tše kgolo tša multimodal (LMMs), ka go lebanya GPT-4V, di phala ka go sepelasepela ga GUI ya go thuntšha ka lefela ka tlhathollo ya yona ya skrine ye e tšwetšego pele, go bea mabaka ka tiro, le bokgoni bja go dira gore dilo di be selegae ka go nepagala. Re thoma ka go benchmark MM-Navigator ka dataset ya rena ya skrine sa iOS yeo e kgobokeditšwego. Go ya ka dikelo tša batho, tshepedišo e bontšhitše seelo sa go nepagala sa 91% go tšweletšeng ditlhalošo tša tiro tše di kwagalago le seelo sa go nepagala sa 75% go phethagatšeng ditiro tše di nepagetšego tša ditaelo tša kgato e tee go iOS. Ho phaella moo, re hlahloba mohlala ka subset ya Android skrine tsamaya dataset, moo mohlala outperforms pele GUI navigators ka lefela-thunngoa feshene. Tekanyetšo ya rena le ditshekatsheko tše di tletšego di ikemišeditše go bea motheo wo o tiilego wa dinyakišišo tša ka moso ka ga mošomo wa go sepelasepela wa GUI. Letlakala la projeke le go https: //github.com/zzxslp/MM-Navigator.
Go aga baemedi bao ba ikemetšego bao ba kgonago go dirišana le didirišwa tša khomphutha le go latela ditaelo tša batho e bile taba yeo e lego kgale e le gona setšhabeng sa go ithuta ka motšhene (Bolt, 1980; Lieberman et al., 1995). Ga e sa le go tloga ge di-smartphone di tšwelela, go bile le nyakego e šomago ya go hlama bathuši ba kgonthe, go swana le Siri, Cortana le Google Assistant, tšeo di nago le bokgoni bja go godiša kudu boitemogelo bja mosediriši le go thuša batho bao ba golofetšego mmeleng goba maemong. Ka kgopolo, bathuši ba ba be ba tla phethagatša ka bokgoni mešomo ya letšatši le letšatši yeo e theilwego ditaelong tša polelo ya tlhago, go tloga go ditiro tše bonolo tša go swana le go beakanya sešupanako go ya go mešomo ye e raraganego kudu go swana le go hwetša hotele ye e loketšego maikhutšo a lapa.
Dinyakišišo tša morago bjale di thomile go hlahloba taolo ya didirišwa tša sellathekeng le go itirela mošomo wa smartphone go latela ditaelo tša batho ( Rawles et al., 2023 ; Wen et al., 2023 ; Zhan le Zhang, 2023 ; Wang et al., 2023 ). Mekgwa ya boemedi e akaretša go hlaloša diswantšho tša skrine ka sengwalwa le go šoma sengwalwa se se fetotšwego ka dika tše kgolo tša polelo (LLMs) (Rawles et al., 2023; Wen et al., 2023), goba go tlwaetša mohlala wa pono-polelo go tšweletša ditiro ka mokgwa wo o hlokometšwego ( Rawles le ba bangwe, 2023;Zhan le Zhang, 2023). Le ge go le bjalo, dika tše tše di hlokometšwego, ge di tlwaeditšwe ka mehuta ye e itšego ya diskrini le ditaelo (Rawles et al., 2023), di bontšha go šoma gabotse mo go lekanyeditšwego go akaretšwa go maemo a lefase la nnete. Ka lehlakoreng le lengwe, mekgwa ye e theilwego go LLM e akaretšwa gakaone, eupša kgato ya magareng ya go fetolela diswantšho tša skrine go sengwalwa e feleletša ka tahlegelo ya tshedimošo gomme ka lebaka leo e gobatša tshepedišo. Hlohleletšwa ke go šoma gabotse le go šoma ka bophara ga dikai tše kgolo tša morago bjale tša multimodal (LMMs), re hlahloba go šomiša LMM, GPT-4V (OpenAI, 2023a, b, c; gpt, 2023; Yang et al., 2023c), bakeng sa zeroshot smartphone GUI go sepelasepela, ka nepo ya go bea motheo wo mofsa wo o tiilego wa mošomo wo o kgahlišago.
Re hlaola ditlhohlo tše pedi tša mathomo tša go sepelasepela ga GUI ka di-LMM, e lego tlhalošo ya tiro ye e reretšwego le phethagatšo ya tiro ya selegae. Sa pele, mohlala o swanetše go kwešiša seswantšho sa skrine le tsenyo ya taelo ya sengwalwa, le go bea mabaka godimo ga potšišo go bona kgato ya maleba yeo e swanetšego go tšewa, go swana le go fa tlhalošo ya polelo ya tlhago “go kgotla leswao la Amazon mothalong wa boraro le kholomong ya bone.” Sa bobedi, mohlala o swanetše go fetolela kwešišo ye bjalo ya maemo a godimo go tiro ye e rulagantšwego yeo e ka phethagatšwago gabonolo go ya ka melao, go swana le “{Tiro: Klika, Lefelo: (0.31, 0.57)}.” Ka mokgwa wa rena, re hlohleletša GPT-4V ka seswantšho le sengwalwa bakeng sa peakanyo ya tiro, gomme re bea dithegi tša sete-ya-letshwao (Yang et al., 2023b) go ankora ditšweletšwa tše di tšweleditšwego. Ka go lebanya, re tswalanya maswao a le mafelo a sebaka ka thušo ya dikago tša karoganyo goba tša OCR. Go fihlelela se, tshepedišo ya rena ye e šišintšwego ya GPT-4Vbased, e lego MM-Navigator, e ka tšweletša ditiro tše di phethagatšwago tšeo di beilwego maemong a seswantšho sa skrine, taelo ya sengwalwa le histori ya yona ya tirišano.
Re benchmark MM-Navigator ka datasets tse peli. Re thoma ka dataset ya go sepelasepela ya iOS GUI yeo e nago le diswantšho tša skrine le ditaelo tša mosediriši tšeo re di kgobokeditšego ka seatla. Sete ye ya data ya tshekatsheko ye e hlwekilego e hlamilwe go nyakišiša ditemogo tša ditlhohlo tše pedi ka go sepelasepela ga GUI: tlhalošo ya tiro ye e reretšwego le phethagatšo ya tiro ya selegae. Ditshekatsheko tša batho di šomišwa go sekaseka GPT-4V mešomong ye mebedi, ka ditekanyo tša go nepagala tša 91% le 75%, ka go latelelana. Ho phaella moo, re hlahloba mohlala ka subset tšohanyetso ho tloha sa tsoa lokolloa Android tsamaea benchmark (Rawles et al., 2023). Re latela protocol ya kelo ye e šišintšwego ka go bentšhe, mmogo le ditshekatsheko tša batho tše di oketšegilego. Tiragatšo ye maatla e bontšha gore MM-Navigator ke sešupo sa GUI se se šomago gabotse sa di-smartphone, se feta kudu mekgwa ya peleng yeo e theilwego go LLM. Re fana ka ditshekatsheko tše di tseneletšego tša melato ya katlego le go palelwa ya boemedi. Re hwetša gore boemo bja bjale bja GPT-4V bo ka ba bo šetše bo šoma gabotse go thuša batho maemong a go fapafapana a go sepelasepela a GUI a lefase la kgonthe, bjalo ka ge go hlatsetšwe ke dipoelo tša diskrini tše dintši go Seswantšho 4. Le ge go le bjalo, dikaonafatšo tše di tšwelago pele di sa le bohlokwa go oketša gape tša tshepedišo go botega, bjalo ka ge go utolotšwe ditshekatshekong tša rena.
Meneelo ya rena e akareditšwe ka tsela ye e latelago
• Re tšweletša MM-Navigator, e lego tshepedišo ya moemedi yeo e agilwego go GPT-4V bakeng sa go sepelasepela ga smartphone GUI. MM-Navigator e akaretša ka mo go atlegilego dihistori tša tiro le dithegi tša go beakanya leswao go tšweletša ditiro tše di nepagetšego tše di phethagatšwago.
• Re kgoboketša dataset ye mpsha ya tshekatsheko yeo e nago le diskrini tša iOS tše di fapanego le ditaelo tša mosediriši, tšeo di hlahlobago ditlhohlo tše pedi tše kgolo ka go sepelasepela ga GUI ka di-LMM: tlhalošo ya tiro ye e reretšwego le phethagatšo ya tiro ya selegae.
• Re dira ditshekatsheko tše di nabilego, bobedi tša go itiriša le tša batho, go disete tše pedi tša datha gomme re fa ditshekatsheko tše di tletšego. Dipoelo tše di kgahlišago di bontšha go šoma gabotse ga MMNavigator bakeng sa go sepelasepela ga GUI.
Pampiri ye e hwetšagala go arxiv ka fase ga laesense ya CC BY 4.0 DEED.