ຜູ້ຂຽນ:  (1) An Yan, UC San Diego, ayan@ucsd.edu;  (2) Zhengyuan Yang, Microsoft Corporation, zhengyang@microsoft.com ດ້ວຍການປະກອບສ່ວນເທົ່າທຽມກັນ;  (3) Wanrong Zhu, UC Santa Barbara, wanrongzhu@ucsb.edu;  (4) Kevin Lin, Microsoft Corporation, keli@microsoft.com;  (5) Linjie Li, Microsoft Corporation, lindsey.li@mocrosoft.com;  (6) Jianfeng Wang, Microsoft Corporation, jianfw@mocrosoft.com;  (7) Jianwei Yang, Microsoft Corporation, jianwei.yang@mocrosoft.com;  (8) Yiwu Zhong, ມະຫາວິທະຍາໄລ Wisconsin-Madison, yzhong52@wisc.edu;  (9) Julian McAuley, UC San Diego, jmcauley@ucsd.edu;  (10) Jianfeng Gao, Microsoft Corporation, jfgao@mocrosoft.com;  (11) Zicheng Liu, Microsoft Corporation, zliu@mocrosoft.com;  (12) Lijuan Wang, Microsoft Corporation, lijuanw@mocrosoft.com.   ບັນທຶກຂອງບັນນາທິການ: ນີ້ແມ່ນສ່ວນ 1 ຂອງເອກະສານທີ່ປະເມີນການນໍາໃຊ້ AI ທົ່ວໄປເພື່ອນໍາທາງໂທລະສັບສະຫຼາດ. ທ່ານສາມາດອ່ານສ່ວນທີ່ເຫຼືອຂອງເອກະສານຜ່ານຕາຕະລາງຂອງການເຊື່ອມຕໍ່ຂ້າງລຸ່ມນີ້.  ຕາຕະລາງການເຊື່ອມໂຍງ   Abstract ແລະ 1 ບົດແນະນໍາ   2 ວຽກງານທີ່ກ່ຽວຂ້ອງ  3 MM-Navigator   3.1 ການສ້າງບັນຫາ ແລະ 3.2 ການວາງພື້ນໜ້າຈໍ ແລະ ການນຳທາງຜ່ານຊຸດເຄື່ອງໝາຍ   3.3 ການສ້າງປະຫວັດສາດໂດຍຜ່ານ Multimodal ສະຫຼຸບດ້ວຍຕົນເອງ  4 ການທົດລອງນໍາທາງຫນ້າຈໍ iOS   4.1 ການທົດລອງການຕິດຕັ້ງ   4.2 ລາຍລະອຽດການປະຕິບັດທີ່ຕັ້ງໃຈ   4.3 Localized Action Execution ແລະ 4.4 The Current State with GPT-4V  5 ການທົດລອງນໍາທາງໜ້າຈໍ Android   5.1 ການທົດລອງການຕິດຕັ້ງ   5.2 ການປຽບທຽບປະສິດທິພາບ   5.3 ການສຶກສາ Ablation   5.4 ການວິເຄາະຄວາມຜິດພາດ   6 ການສົນທະນາ   7 ບົດສະຫຼຸບ ແລະເອກະສານອ້າງອີງ  ບົດຄັດຫຍໍ້  ພວກເຮົານຳສະເໜີ MM-Navigator, ຕົວແທນທີ່ອີງໃສ່ GPT-4V ສໍາລັບໜ້າວຽກການນຳທາງແບບກຣາຟິກຂອງສະມາດໂຟນ (GUI). MM-Navigator ສາມາດໂຕ້ຕອບກັບໜ້າຈໍສະມາດໂຟນໃນຖານະຜູ້ໃຊ້ຂອງມະນຸດ, ແລະກຳນົດການດຳເນີນການຕໍ່ໄປເພື່ອປະຕິບັດຕາມຄຳແນະນຳທີ່ໃຫ້ໄວ້. ການຄົ້ນພົບຂອງພວກເຮົາສະແດງໃຫ້ເຫັນວ່າແບບຈໍາລອງ multimodal ຂະຫນາດໃຫຍ່ (LMMs), ໂດຍສະເພາະ GPT-4V, ດີເລີດໃນການນໍາທາງ GUI ທີ່ມີຈຸດສູງສຸດໂດຍຜ່ານການຕີຄວາມຫນ້າຈໍແບບພິເສດ, ການໃຫ້ເຫດຜົນການປະຕິບັດ, ແລະຄວາມສາມາດທ້ອງຖິ່ນການປະຕິບັດທີ່ຊັດເຈນ. ພວກເຮົາທໍາອິດທີ່ benchmark MM-Navigator ໃນຊຸດຂໍ້ມູນຫນ້າຈໍ iOS ທີ່ເກັບກໍາຂອງພວກເຮົາ. ອີງຕາມການປະເມີນຂອງມະນຸດ, ລະບົບໄດ້ສະແດງອັດຕາຄວາມຖືກຕ້ອງ 91% ໃນການສ້າງຄໍາອະທິບາຍການປະຕິບັດທີ່ສົມເຫດສົມຜົນແລະອັດຕາຄວາມຖືກຕ້ອງ 75% ໃນການປະຕິບັດການປະຕິບັດທີ່ຖືກຕ້ອງສໍາລັບຄໍາແນະນໍາຂັ້ນຕອນດຽວໃນ iOS. ນອກຈາກນັ້ນ, ພວກເຮົາປະເມີນຕົວແບບຢູ່ໃນຊຸດຍ່ອຍຂອງຊຸດຂໍ້ມູນການນໍາທາງຂອງໜ້າຈໍ Android, ບ່ອນທີ່ຕົວແບບດັ່ງກ່າວມີຜົນດີກ່ວາຕົວນໍາທາງ GUI ທີ່ຜ່ານມາໃນຮູບແບບທີ່ບໍ່ມີການຍິງ. ດັດຊະນີ ແລະການວິເຄາະລາຍລະອຽດຂອງພວກເຮົາມີຈຸດປະສົງເພື່ອວາງພື້ນຖານທີ່ເຂັ້ມແຂງສໍາລັບການຄົ້ນຄວ້າໃນອະນາຄົດເຂົ້າໃນວຽກງານນໍາທາງ GUI. ຫນ້າໂຄງການຢູ່ທີ່ https://github.com/zzxslp/MM-Navigator.  1 ບົດແນະນຳ  ການສ້າງຕົວແທນທີ່ເປັນເອກະລາດທີ່ສາມາດພົວພັນກັບອຸປະກອນຄອມພິວເຕີແລະປະຕິບັດຕາມຄໍາສັ່ງຂອງມະນຸດໄດ້ເປັນຫົວຂໍ້ທີ່ຍາວນານໃນຊຸມຊົນການຮຽນຮູ້ເຄື່ອງຈັກ (Bolt, 1980; Lieberman et al., 1995). ນັບຕັ້ງແຕ່ການມາຂອງໂທລະສັບສະຫຼາດ, ມີຄວາມຕ້ອງການປະຕິບັດສໍາລັບການສ້າງຜູ້ຊ່ວຍ virtual, ເຊັ່ນ Siri, Cortana, ແລະຜູ້ຊ່ວຍ Google, ທີ່ມີທ່າແຮງທີ່ຈະເສີມຂະຫຍາຍປະສົບການຂອງຜູ້ໃຊ້ຢ່າງຫຼວງຫຼາຍແລະການຊ່ວຍເຫຼືອບຸກຄົນທີ່ມີຄວາມບົກຜ່ອງດ້ານຮ່າງກາຍຫຼືສະຖານະການ. ໂດຍຫລັກການແລ້ວ, ຜູ້ຊ່ວຍເຫຼົ່ານີ້ຈະມີຄວາມສາມາດປະຕິບັດວຽກງານປະຈໍາວັນໂດຍອີງໃສ່ຄໍາແນະນໍາພາສາທໍາມະຊາດ, ຕັ້ງແຕ່ການກະທໍາງ່າຍໆເຊັ່ນການຕັ້ງໂມງຈັບເວລາໄປຫາວຽກງານທີ່ສັບສົນຫຼາຍເຊັ່ນ: ການຊອກຫາໂຮງແຮມທີ່ເຫມາະສົມສໍາລັບການພັກຜ່ອນຂອງຄອບຄົວ.  ການສຶກສາທີ່ຜ່ານມາໄດ້ເລີ່ມຄົ້ນຫາການຄວບຄຸມອຸປະກອນມືຖືແລະການເຮັດວຽກຂອງໂທລະສັບສະຫຼາດອັດຕະໂນມັດຕາມຄໍາແນະນໍາຂອງມະນຸດ (Rawles et al., 2023; Wen et al., 2023; Zhan and Zhang, 2023; Wang et al., 2023). ວິທີການທີ່ເປັນຕົວແທນປະກອບມີການອະທິບາຍພາບຫນ້າຈໍດ້ວຍຂໍ້ຄວາມແລະການປຸງແຕ່ງຂໍ້ຄວາມທີ່ປ່ຽນດ້ວຍຕົວແບບພາສາຂະຫນາດໃຫຍ່ (LLMs) (Rawles et al., 2023; Wen et al., 2023), ຫຼືການຝຶກອົບຮົມແບບຈໍາລອງພາສາວິໄສທັດເພື່ອສ້າງການປະຕິບັດໃນລັກສະນະທີ່ມີການເບິ່ງແຍງ ( Rawles et al., 2023; Zhan and Zhang, 2023). ຢ່າງໃດກໍ່ຕາມ, ຮູບແບບທີ່ມີການເບິ່ງແຍງເຫຼົ່ານີ້, ເມື່ອໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບປະເພດສະເພາະຂອງຫນ້າຈໍ ແລະຄໍາແນະນໍາ (Rawles et al., 2023), ສະແດງໃຫ້ເຫັນປະສິດທິພາບທີ່ຈໍາກັດໃນການເຮັດໂດຍທົ່ວໄປກັບສະຖານະການຕົວຈິງ. ໃນອີກດ້ານຫນຶ່ງ, ວິທີການທີ່ອີງໃສ່ LLM ໂດຍທົ່ວໄປແມ່ນດີກວ່າ, ແຕ່ຂັ້ນຕອນລະຫວ່າງກາງຂອງການປ່ຽນຮູບພາບຫນ້າຈໍເປັນຂໍ້ຄວາມເຮັດໃຫ້ການສູນເສຍຂໍ້ມູນແລະຜົນເສຍຫາຍການປະຕິບັດ. ໄດ້ຮັບແຮງບັນດານໃຈຈາກປະສິດທິພາບ ແລະ ການນຳໃຊ້ທີ່ກວ້າງຂວາງຂອງຕົວແບບ multimodal ຂະໜາດໃຫຍ່ຫຼ້າສຸດ (LMMs), ພວກເຮົາສຳຫຼວດການນຳໃຊ້ LMM, GPT-4V (OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c), ສຳລັບ zeroshot smartphone GUI ການ​ນຳ​ທາງ, ​ແນ​ໃສ່​ສ້າງ​ພື້ນຖານ​ອັນ​ໜັກ​ແໜ້ນ​ໃໝ່​ໃຫ້​ແກ່​ວຽກ​ງານ​ທີ່​ໜ້າ​ສົນ​ໃຈ​ນີ້.  ພວກເຮົາກໍານົດສອງສິ່ງທ້າທາຍຕົ້ນຕໍສໍາລັບການນໍາທາງ GUI ກັບ LMMs, ຄືຄໍາອະທິບາຍການປະຕິບັດແລະການປະຕິບັດການທ້ອງຖິ່ນ. ທໍາອິດ, ຮູບແບບຄວນເຂົ້າໃຈຮູບພາບຫນ້າຈໍແລະຄໍາແນະນໍາຂໍ້ຄວາມ, ແລະໃຫ້ເຫດຜົນໃນໄລຍະການສອບຖາມເພື່ອກໍານົດການປະຕິບັດທີ່ເຫມາະສົມທີ່ຈະປະຕິບັດ, ເຊັ່ນການສະຫນອງຄໍາອະທິບາຍພາສາທໍາມະຊາດ "ຄລິກໃສ່ໄອຄອນ Amazon ໃນແຖວທີສາມແລະສີ່ຖັນ." ອັນທີສອງ, ຮູບແບບຄວນປ່ຽນຄວາມເຂົ້າໃຈລະດັບສູງດັ່ງກ່າວເປັນການປະຕິບັດຮູບແບບທີ່ສາມາດປະຕິບັດໄດ້ງ່າຍໂດຍອີງໃສ່ກົດລະບຽບ, ເຊັ່ນ: “{Action: Click, Location: (0.31, 0.57)}.” ໃນວິທີການຂອງພວກເຮົາ, ພວກເຮົາກະຕຸ້ນເຕືອນ GPT-4V ດ້ວຍຮູບພາບແລະຂໍ້ຄວາມສໍາລັບການວາງແຜນການປະຕິບັດ, ແລະວາງປ້າຍທີ່ກໍານົດໄວ້ (Yang et al., 2023b) ເພື່ອຍຶດເອົາຜົນຜະລິດທີ່ສ້າງຂຶ້ນ. ໂດຍສະເພາະ, ພວກເຮົາເຊື່ອມໂຍງເຄື່ອງຫມາຍເຫຼົ່ານີ້ກັບສະຖານທີ່ທາງກວ້າງຂອງພື້ນທີ່ໂດຍການຊ່ວຍເຫຼືອຂອງຮູບແບບການແບ່ງສ່ວນຫຼື OCR. ເພື່ອເຮັດສິ່ງນີ້, ລະບົບອີງໃສ່ GPT-4V ທີ່ສະເຫນີຂອງພວກເຮົາ, ຄື MM-Navigator, ສາມາດສ້າງການປະຕິບັດທີ່ສາມາດປະຕິບັດໄດ້ໃນຮູບພາບຫນ້າຈໍ, ຄໍາແນະນໍາຂໍ້ຄວາມແລະປະຫວັດການໂຕ້ຕອບຂອງມັນ.  ພວກເຮົາມາດຕະຖານ MM-Navigator ໃນສອງຊຸດຂໍ້ມູນ. ພວກເຮົາເລີ່ມຕົ້ນດ້ວຍຊຸດຂໍ້ມູນການນໍາທາງ iOS GUI ທີ່ມີຮູບໜ້າຈໍ ແລະຄຳແນະນຳຜູ້ໃຊ້ທີ່ພວກເຮົາເກັບເອົາເອງ. ຊຸດຂໍ້ມູນການວິເຄາະທີ່ສະອາດນີ້ຖືກອອກແບບມາເພື່ອສືບສວນຄວາມເຂົ້າໃຈສໍາລັບສອງສິ່ງທ້າທາຍໃນການນໍາທາງ GUI: ຄໍາອະທິບາຍການປະຕິບັດທີ່ມີຈຸດປະສົງແລະການປະຕິບັດການດໍາເນີນການທ້ອງຖິ່ນ. ການປະເມີນຜົນຂອງມະນຸດຖືກນໍາໃຊ້ເພື່ອປະເມີນ GPT-4V ໃນສອງຫນ້າວຽກນີ້, ມີອັດຕາຄວາມຖືກຕ້ອງຂອງ 91% ແລະ 75%, ຕາມລໍາດັບ. ນອກຈາກນັ້ນ, ພວກເຮົາປະເມີນຮູບແບບໃນຊຸດຍ່ອຍແບບສຸ່ມຈາກມາດຕະຖານການນໍາທາງ Android ທີ່ປ່ອຍອອກມາເມື່ອບໍ່ດົນມານີ້ (Rawles et al., 2023). ພວກເຮົາປະຕິບັດຕາມອະນຸສັນຍາການປະເມີນຜົນທີ່ສະເໜີໄວ້ໃນດັດຊະນີ, ພ້ອມກັບການປະເມີນຂອງມະນຸດເພີ່ມເຕີມ. ປະສິດທິພາບທີ່ເຂັ້ມແຂງສະແດງໃຫ້ເຫັນວ່າ MM-Navigator ເປັນຕົວນໍາທາງ GUI ທີ່ມີປະສິດທິພາບສໍາລັບໂທລະສັບສະຫຼາດ, ມີປະສິດທິພາບດີກວ່າວິທີການທີ່ອີງໃສ່ LLM ກ່ອນຫນ້ານີ້. ພວກ​ເຮົາ​ສະ​ຫນອງ​ການ​ວິ​ເຄາະ​ໃນ​ຄວາມ​ເລິກ​ຂອງ​ຄວາມ​ສໍາ​ເລັດ​ຕົວ​ແທນ​ແລະ​ກໍ​ລະ​ນີ​ຄວາມ​ລົ້ມ​ເຫຼວ​. ພວກເຮົາພົບວ່າສະຖານະປະຈຸບັນຂອງ GPT-4V ອາດຈະມີປະສິດທິພາບໃນການຊ່ວຍມະນຸດໃນສະຖານະການນໍາທາງ GUI ໃນໂລກທີ່ແທ້ຈິງຕ່າງໆ, ດັ່ງທີ່ເຫັນໄດ້ຈາກຜົນໄດ້ຮັບຫຼາຍຫນ້າຈໍໃນຮູບ 4. ແນວໃດກໍ່ຕາມ, ການປັບປຸງຢ່າງຕໍ່ເນື່ອງແມ່ນຍັງມີຄວາມຈໍາເປັນທີ່ຈະເພີ່ມລະບົບຂອງລະບົບ. ຄວາມຫນ້າເຊື່ອຖື, ດັ່ງທີ່ເປີດເຜີຍໃນການວິເຄາະຂອງພວກເຮົາ.  ການປະກອບສ່ວນຂອງພວກເຮົາແມ່ນສະຫຼຸບໄດ້ດັ່ງຕໍ່ໄປນີ້  •ພວກເຮົານໍາສະເຫນີ MM-Navigator, ລະບົບຕົວແທນທີ່ສ້າງຂຶ້ນໃນ GPT-4V ສໍາລັບການນໍາທາງ GUI ໂທລະສັບສະຫຼາດ. MM-Navigator ມີປະສິດຕິຜົນລວມເອົາປະຫວັດການປະຕິບັດແລະແທັກທີ່ກໍານົດໄວ້ເພື່ອຜະລິດການປະຕິບັດທີ່ຊັດເຈນ.  • ພວກເຮົາເກັບກຳຊຸດຂໍ້ມູນການວິເຄາະໃໝ່ທີ່ມີໜ້າຈໍ iOS ທີ່ຫຼາກຫຼາຍ ແລະຄຳແນະນຳຂອງຜູ້ໃຊ້, ເຊິ່ງປະເມີນສອງສິ່ງທ້າທາຍຕົ້ນຕໍໃນການນຳທາງ GUI ດ້ວຍ LMMs: ລາຍລະອຽດຄຳສັ່ງທີ່ຕັ້ງໄວ້ ແລະການປະຕິບັດການດຳເນີນການໃນທ້ອງຖິ່ນ.  •ພວກເຮົາປະຕິບັດການປະເມີນຜົນຢ່າງກວ້າງຂວາງ, ທັງອັດຕະໂນມັດແລະມະນຸດ, ໃນສອງຊຸດຂໍ້ມູນແລະສະຫນອງການວິເຄາະລາຍລະອຽດ. ຜົນໄດ້ຮັບທີ່ຫນ້າປະທັບໃຈສະແດງໃຫ້ເຫັນເຖິງປະສິດທິພາບຂອງ MMNavigator ສໍາລັບການນໍາທາງ GUI.  ເອກະສານນີ້   ພາຍໃຕ້ໃບອະນຸຍາດ CC BY 4.0 DEED. ມີຢູ່ໃນ arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

FEW SHOT .tech

ສຽງນີ້ຖືກຜະລິດເປັນພາສາຕົ້ນສະບັບຂອງເລື່ອງ!

ນັກຄົ້ນຄວ້າ Microsoft ກ່າວວ່າຕົວແບບ AI ໃຫມ່ສາມາດ 'ເບິ່ງ' ຫນ້າຈໍໂທລະສັບຂອງທ່ານ

About Author

ຄຳເຫັນ

ວາງປ້າຍ

ບົດຄວາມນີ້ໄດ້ຖືກນໍາສະເຫນີໃນ

Related Stories

Meet Leobit: HackerNoon Company of the Week

Design Shifts at HackerNoon: Streamlined Top Nav, Quick Search and Settings Dashboard 🚀

Starting 2025 with New Features: Settings Dashboard, HackerNoon Decoded, Updated Search UI, and More

THE EVENING SKY AT THE VERNAL EQUINOX

Meet Leobit: HackerNoon Company of the Week

Design Shifts at HackerNoon: Streamlined Top Nav, Quick Search and Settings Dashboard 🚀

Starting 2025 with New Features: Settings Dashboard, HackerNoon Decoded, Updated Search UI, and More

THE EVENING SKY AT THE VERNAL EQUINOX

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps

ນັກຄົ້ນຄວ້າ Microsoft ກ່າວວ່າຕົວແບບ AI ໃຫມ່ສາມາດ 'ເບິ່ງ' ຫນ້າຈໍໂທລະສັບຂອງທ່ານ

About Author

ຄຳເຫັນ

ວາງປ້າຍ

ບົດ​ຄວາມ​ນີ້​ໄດ້​ຖືກ​ນໍາ​ສະ​ເຫນີ​ໃນ

Related Stories

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps

ບົດຄວາມນີ້ໄດ້ຖືກນໍາສະເຫນີໃນ