ຜູ້ຂຽນ:
(1) An Yan, UC San Diego, [email protected];
(2) Zhengyuan Yang, Microsoft Corporation, [email protected] ດ້ວຍການປະກອບສ່ວນເທົ່າທຽມກັນ;
(3) Wanrong Zhu, UC Santa Barbara, [email protected];
(4) Kevin Lin, Microsoft Corporation, [email protected];
(5) Linjie Li, Microsoft Corporation, [email protected];
(6) Jianfeng Wang, Microsoft Corporation, [email protected];
(7) Jianwei Yang, Microsoft Corporation, [email protected];
(8) Yiwu Zhong, ມະຫາວິທະຍາໄລ Wisconsin-Madison, [email protected];
(9) Julian McAuley, UC San Diego, [email protected];
(10) Jianfeng Gao, Microsoft Corporation, [email protected];
(11) Zicheng Liu, Microsoft Corporation, [email protected];
(12) Lijuan Wang, Microsoft Corporation, [email protected].
ບັນທຶກຂອງບັນນາທິການ: ນີ້ແມ່ນສ່ວນ 1 ຂອງເອກະສານທີ່ປະເມີນການນໍາໃຊ້ AI ທົ່ວໄປເພື່ອນໍາທາງໂທລະສັບສະຫຼາດ. ທ່ານສາມາດອ່ານສ່ວນທີ່ເຫຼືອຂອງເອກະສານຜ່ານຕາຕະລາງຂອງການເຊື່ອມຕໍ່ຂ້າງລຸ່ມນີ້.
ພວກເຮົານຳສະເໜີ MM-Navigator, ຕົວແທນທີ່ອີງໃສ່ GPT-4V ສໍາລັບໜ້າວຽກການນຳທາງແບບກຣາຟິກຂອງສະມາດໂຟນ (GUI). MM-Navigator ສາມາດໂຕ້ຕອບກັບໜ້າຈໍສະມາດໂຟນໃນຖານະຜູ້ໃຊ້ຂອງມະນຸດ, ແລະກຳນົດການດຳເນີນການຕໍ່ໄປເພື່ອປະຕິບັດຕາມຄຳແນະນຳທີ່ໃຫ້ໄວ້. ການຄົ້ນພົບຂອງພວກເຮົາສະແດງໃຫ້ເຫັນວ່າແບບຈໍາລອງ multimodal ຂະຫນາດໃຫຍ່ (LMMs), ໂດຍສະເພາະ GPT-4V, ດີເລີດໃນການນໍາທາງ GUI ທີ່ມີຈຸດສູງສຸດໂດຍຜ່ານການຕີຄວາມຫນ້າຈໍແບບພິເສດ, ການໃຫ້ເຫດຜົນການປະຕິບັດ, ແລະຄວາມສາມາດທ້ອງຖິ່ນການປະຕິບັດທີ່ຊັດເຈນ. ພວກເຮົາທໍາອິດທີ່ benchmark MM-Navigator ໃນຊຸດຂໍ້ມູນຫນ້າຈໍ iOS ທີ່ເກັບກໍາຂອງພວກເຮົາ. ອີງຕາມການປະເມີນຂອງມະນຸດ, ລະບົບໄດ້ສະແດງອັດຕາຄວາມຖືກຕ້ອງ 91% ໃນການສ້າງຄໍາອະທິບາຍການປະຕິບັດທີ່ສົມເຫດສົມຜົນແລະອັດຕາຄວາມຖືກຕ້ອງ 75% ໃນການປະຕິບັດການປະຕິບັດທີ່ຖືກຕ້ອງສໍາລັບຄໍາແນະນໍາຂັ້ນຕອນດຽວໃນ iOS. ນອກຈາກນັ້ນ, ພວກເຮົາປະເມີນຕົວແບບຢູ່ໃນຊຸດຍ່ອຍຂອງຊຸດຂໍ້ມູນການນໍາທາງຂອງໜ້າຈໍ Android, ບ່ອນທີ່ຕົວແບບດັ່ງກ່າວມີຜົນດີກ່ວາຕົວນໍາທາງ GUI ທີ່ຜ່ານມາໃນຮູບແບບທີ່ບໍ່ມີການຍິງ. ດັດຊະນີ ແລະການວິເຄາະລາຍລະອຽດຂອງພວກເຮົາມີຈຸດປະສົງເພື່ອວາງພື້ນຖານທີ່ເຂັ້ມແຂງສໍາລັບການຄົ້ນຄວ້າໃນອະນາຄົດເຂົ້າໃນວຽກງານນໍາທາງ GUI. ຫນ້າໂຄງການຢູ່ທີ່ https://github.com/zzxslp/MM-Navigator.
ການສ້າງຕົວແທນທີ່ເປັນເອກະລາດທີ່ສາມາດພົວພັນກັບອຸປະກອນຄອມພິວເຕີແລະປະຕິບັດຕາມຄໍາສັ່ງຂອງມະນຸດໄດ້ເປັນຫົວຂໍ້ທີ່ຍາວນານໃນຊຸມຊົນການຮຽນຮູ້ເຄື່ອງຈັກ (Bolt, 1980; Lieberman et al., 1995). ນັບຕັ້ງແຕ່ການມາຂອງໂທລະສັບສະຫຼາດ, ມີຄວາມຕ້ອງການປະຕິບັດສໍາລັບການສ້າງຜູ້ຊ່ວຍ virtual, ເຊັ່ນ Siri, Cortana, ແລະຜູ້ຊ່ວຍ Google, ທີ່ມີທ່າແຮງທີ່ຈະເສີມຂະຫຍາຍປະສົບການຂອງຜູ້ໃຊ້ຢ່າງຫຼວງຫຼາຍແລະການຊ່ວຍເຫຼືອບຸກຄົນທີ່ມີຄວາມບົກຜ່ອງດ້ານຮ່າງກາຍຫຼືສະຖານະການ. ໂດຍຫລັກການແລ້ວ, ຜູ້ຊ່ວຍເຫຼົ່ານີ້ຈະມີຄວາມສາມາດປະຕິບັດວຽກງານປະຈໍາວັນໂດຍອີງໃສ່ຄໍາແນະນໍາພາສາທໍາມະຊາດ, ຕັ້ງແຕ່ການກະທໍາງ່າຍໆເຊັ່ນການຕັ້ງໂມງຈັບເວລາໄປຫາວຽກງານທີ່ສັບສົນຫຼາຍເຊັ່ນ: ການຊອກຫາໂຮງແຮມທີ່ເຫມາະສົມສໍາລັບການພັກຜ່ອນຂອງຄອບຄົວ.
ການສຶກສາທີ່ຜ່ານມາໄດ້ເລີ່ມຄົ້ນຫາການຄວບຄຸມອຸປະກອນມືຖືແລະການເຮັດວຽກຂອງໂທລະສັບສະຫຼາດອັດຕະໂນມັດຕາມຄໍາແນະນໍາຂອງມະນຸດ (Rawles et al., 2023; Wen et al., 2023; Zhan and Zhang, 2023; Wang et al., 2023). ວິທີການທີ່ເປັນຕົວແທນປະກອບມີການອະທິບາຍພາບຫນ້າຈໍດ້ວຍຂໍ້ຄວາມແລະການປຸງແຕ່ງຂໍ້ຄວາມທີ່ປ່ຽນດ້ວຍຕົວແບບພາສາຂະຫນາດໃຫຍ່ (LLMs) (Rawles et al., 2023; Wen et al., 2023), ຫຼືການຝຶກອົບຮົມແບບຈໍາລອງພາສາວິໄສທັດເພື່ອສ້າງການປະຕິບັດໃນລັກສະນະທີ່ມີການເບິ່ງແຍງ ( Rawles et al., 2023; Zhan and Zhang, 2023). ຢ່າງໃດກໍ່ຕາມ, ຮູບແບບທີ່ມີການເບິ່ງແຍງເຫຼົ່ານີ້, ເມື່ອໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບປະເພດສະເພາະຂອງຫນ້າຈໍ ແລະຄໍາແນະນໍາ (Rawles et al., 2023), ສະແດງໃຫ້ເຫັນປະສິດທິພາບທີ່ຈໍາກັດໃນການເຮັດໂດຍທົ່ວໄປກັບສະຖານະການຕົວຈິງ. ໃນອີກດ້ານຫນຶ່ງ, ວິທີການທີ່ອີງໃສ່ LLM ໂດຍທົ່ວໄປແມ່ນດີກວ່າ, ແຕ່ຂັ້ນຕອນລະຫວ່າງກາງຂອງການປ່ຽນຮູບພາບຫນ້າຈໍເປັນຂໍ້ຄວາມເຮັດໃຫ້ການສູນເສຍຂໍ້ມູນແລະຜົນເສຍຫາຍການປະຕິບັດ. ໄດ້ຮັບແຮງບັນດານໃຈຈາກປະສິດທິພາບ ແລະ ການນຳໃຊ້ທີ່ກວ້າງຂວາງຂອງຕົວແບບ multimodal ຂະໜາດໃຫຍ່ຫຼ້າສຸດ (LMMs), ພວກເຮົາສຳຫຼວດການນຳໃຊ້ LMM, GPT-4V (OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c), ສຳລັບ zeroshot smartphone GUI ການນຳທາງ, ແນໃສ່ສ້າງພື້ນຖານອັນໜັກແໜ້ນໃໝ່ໃຫ້ແກ່ວຽກງານທີ່ໜ້າສົນໃຈນີ້.
ພວກເຮົາກໍານົດສອງສິ່ງທ້າທາຍຕົ້ນຕໍສໍາລັບການນໍາທາງ GUI ກັບ LMMs, ຄືຄໍາອະທິບາຍການປະຕິບັດແລະການປະຕິບັດການທ້ອງຖິ່ນ. ທໍາອິດ, ຮູບແບບຄວນເຂົ້າໃຈຮູບພາບຫນ້າຈໍແລະຄໍາແນະນໍາຂໍ້ຄວາມ, ແລະໃຫ້ເຫດຜົນໃນໄລຍະການສອບຖາມເພື່ອກໍານົດການປະຕິບັດທີ່ເຫມາະສົມທີ່ຈະປະຕິບັດ, ເຊັ່ນການສະຫນອງຄໍາອະທິບາຍພາສາທໍາມະຊາດ "ຄລິກໃສ່ໄອຄອນ Amazon ໃນແຖວທີສາມແລະສີ່ຖັນ." ອັນທີສອງ, ຮູບແບບຄວນປ່ຽນຄວາມເຂົ້າໃຈລະດັບສູງດັ່ງກ່າວເປັນການປະຕິບັດຮູບແບບທີ່ສາມາດປະຕິບັດໄດ້ງ່າຍໂດຍອີງໃສ່ກົດລະບຽບ, ເຊັ່ນ: “{Action: Click, Location: (0.31, 0.57)}.” ໃນວິທີການຂອງພວກເຮົາ, ພວກເຮົາກະຕຸ້ນເຕືອນ GPT-4V ດ້ວຍຮູບພາບແລະຂໍ້ຄວາມສໍາລັບການວາງແຜນການປະຕິບັດ, ແລະວາງປ້າຍທີ່ກໍານົດໄວ້ (Yang et al., 2023b) ເພື່ອຍຶດເອົາຜົນຜະລິດທີ່ສ້າງຂຶ້ນ. ໂດຍສະເພາະ, ພວກເຮົາເຊື່ອມໂຍງເຄື່ອງຫມາຍເຫຼົ່ານີ້ກັບສະຖານທີ່ທາງກວ້າງຂອງພື້ນທີ່ໂດຍການຊ່ວຍເຫຼືອຂອງຮູບແບບການແບ່ງສ່ວນຫຼື OCR. ເພື່ອເຮັດສິ່ງນີ້, ລະບົບອີງໃສ່ GPT-4V ທີ່ສະເຫນີຂອງພວກເຮົາ, ຄື MM-Navigator, ສາມາດສ້າງການປະຕິບັດທີ່ສາມາດປະຕິບັດໄດ້ໃນຮູບພາບຫນ້າຈໍ, ຄໍາແນະນໍາຂໍ້ຄວາມແລະປະຫວັດການໂຕ້ຕອບຂອງມັນ.
ພວກເຮົາມາດຕະຖານ MM-Navigator ໃນສອງຊຸດຂໍ້ມູນ. ພວກເຮົາເລີ່ມຕົ້ນດ້ວຍຊຸດຂໍ້ມູນການນໍາທາງ iOS GUI ທີ່ມີຮູບໜ້າຈໍ ແລະຄຳແນະນຳຜູ້ໃຊ້ທີ່ພວກເຮົາເກັບເອົາເອງ. ຊຸດຂໍ້ມູນການວິເຄາະທີ່ສະອາດນີ້ຖືກອອກແບບມາເພື່ອສືບສວນຄວາມເຂົ້າໃຈສໍາລັບສອງສິ່ງທ້າທາຍໃນການນໍາທາງ GUI: ຄໍາອະທິບາຍການປະຕິບັດທີ່ມີຈຸດປະສົງແລະການປະຕິບັດການດໍາເນີນການທ້ອງຖິ່ນ. ການປະເມີນຜົນຂອງມະນຸດຖືກນໍາໃຊ້ເພື່ອປະເມີນ GPT-4V ໃນສອງຫນ້າວຽກນີ້, ມີອັດຕາຄວາມຖືກຕ້ອງຂອງ 91% ແລະ 75%, ຕາມລໍາດັບ. ນອກຈາກນັ້ນ, ພວກເຮົາປະເມີນຮູບແບບໃນຊຸດຍ່ອຍແບບສຸ່ມຈາກມາດຕະຖານການນໍາທາງ Android ທີ່ປ່ອຍອອກມາເມື່ອບໍ່ດົນມານີ້ (Rawles et al., 2023). ພວກເຮົາປະຕິບັດຕາມອະນຸສັນຍາການປະເມີນຜົນທີ່ສະເໜີໄວ້ໃນດັດຊະນີ, ພ້ອມກັບການປະເມີນຂອງມະນຸດເພີ່ມເຕີມ. ປະສິດທິພາບທີ່ເຂັ້ມແຂງສະແດງໃຫ້ເຫັນວ່າ MM-Navigator ເປັນຕົວນໍາທາງ GUI ທີ່ມີປະສິດທິພາບສໍາລັບໂທລະສັບສະຫຼາດ, ມີປະສິດທິພາບດີກວ່າວິທີການທີ່ອີງໃສ່ LLM ກ່ອນຫນ້ານີ້. ພວກເຮົາສະຫນອງການວິເຄາະໃນຄວາມເລິກຂອງຄວາມສໍາເລັດຕົວແທນແລະກໍລະນີຄວາມລົ້ມເຫຼວ. ພວກເຮົາພົບວ່າສະຖານະປະຈຸບັນຂອງ GPT-4V ອາດຈະມີປະສິດທິພາບໃນການຊ່ວຍມະນຸດໃນສະຖານະການນໍາທາງ GUI ໃນໂລກທີ່ແທ້ຈິງຕ່າງໆ, ດັ່ງທີ່ເຫັນໄດ້ຈາກຜົນໄດ້ຮັບຫຼາຍຫນ້າຈໍໃນຮູບ 4. ແນວໃດກໍ່ຕາມ, ການປັບປຸງຢ່າງຕໍ່ເນື່ອງແມ່ນຍັງມີຄວາມຈໍາເປັນທີ່ຈະເພີ່ມລະບົບຂອງລະບົບ. ຄວາມຫນ້າເຊື່ອຖື, ດັ່ງທີ່ເປີດເຜີຍໃນການວິເຄາະຂອງພວກເຮົາ.
ການປະກອບສ່ວນຂອງພວກເຮົາແມ່ນສະຫຼຸບໄດ້ດັ່ງຕໍ່ໄປນີ້
•ພວກເຮົານໍາສະເຫນີ MM-Navigator, ລະບົບຕົວແທນທີ່ສ້າງຂຶ້ນໃນ GPT-4V ສໍາລັບການນໍາທາງ GUI ໂທລະສັບສະຫຼາດ. MM-Navigator ມີປະສິດຕິຜົນລວມເອົາປະຫວັດການປະຕິບັດແລະແທັກທີ່ກໍານົດໄວ້ເພື່ອຜະລິດການປະຕິບັດທີ່ຊັດເຈນ.
• ພວກເຮົາເກັບກຳຊຸດຂໍ້ມູນການວິເຄາະໃໝ່ທີ່ມີໜ້າຈໍ iOS ທີ່ຫຼາກຫຼາຍ ແລະຄຳແນະນຳຂອງຜູ້ໃຊ້, ເຊິ່ງປະເມີນສອງສິ່ງທ້າທາຍຕົ້ນຕໍໃນການນຳທາງ GUI ດ້ວຍ LMMs: ລາຍລະອຽດຄຳສັ່ງທີ່ຕັ້ງໄວ້ ແລະການປະຕິບັດການດຳເນີນການໃນທ້ອງຖິ່ນ.
•ພວກເຮົາປະຕິບັດການປະເມີນຜົນຢ່າງກວ້າງຂວາງ, ທັງອັດຕະໂນມັດແລະມະນຸດ, ໃນສອງຊຸດຂໍ້ມູນແລະສະຫນອງການວິເຄາະລາຍລະອຽດ. ຜົນໄດ້ຮັບທີ່ຫນ້າປະທັບໃຈສະແດງໃຫ້ເຫັນເຖິງປະສິດທິພາບຂອງ MMNavigator ສໍາລັບການນໍາທາງ GUI.
ເອກະສານນີ້ ມີຢູ່ໃນ arxiv ພາຍໃຕ້ໃບອະນຸຍາດ CC BY 4.0 DEED.