ຜູ້ຂຽນ:
(1) Hanoona Rasheed, Mohamed bin Zayed University of AI ແລະເທົ່າທຽມກັນປະກອບສ່ວນຜູ້ຂຽນຄັ້ງທໍາອິດ;
(2) Muhammad Maaz, Mohamed bin Zayed University of AI ແລະເທົ່າທຽມກັນປະກອບສ່ວນຜູ້ຂຽນຄັ້ງທໍາອິດ;
(3) Sahal Shaji, Mohamed bin Zayed University of AI;
(4) Abdelrahman Shaker, Mohamed bin Zayed University of AI;
(5) Salman Khan, Mohamed bin Zayed University of AI ແລະມະຫາວິທະຍາໄລແຫ່ງຊາດອົດສະຕາລີ;
(6) Hisham Cholakkal, Mohamed bin Zayed University of AI;
(7) Rao M. Anwer, Mohamed bin Zayed University of AI ແລະ Aalto University;
(8) Eric Xing, Mohamed bin Zayed University of AI ແລະ Carnegie Mellon University;
(9) Ming-Hsuan Yang, ມະຫາວິທະຍາໄລ California - Merced ແລະ Google Research;
(10) Fahad S. Khan, Mohamed bin Zayed University of AI ແລະ Linköping University.
ຫມາຍເຫດຂອງບັນນາທິການ: ນີ້ແມ່ນສ່ວນ 1 ຂອງ 10 ຂອງການສຶກສາລາຍລະອຽດການພັດທະນາຂອງຕົວແບບ AI ທີ່ຖືກອອກແບບມາເພື່ອອະທິບາຍຮູບພາບກັບຜູ້ໃຊ້. ອ່ານສ່ວນທີ່ເຫຼືອຂ້າງລຸ່ມນີ້.
ວັດສະດຸເສີມ (ຕອນທີ 1)
ວັດສະດຸເສີມ (ຕອນທີ 2)
ຕົວແບບ Multimodal ຂະຫນາດໃຫຍ່ (LMMs) ຂະຫຍາຍຕົວແບບພາສາຂະຫນາດໃຫຍ່ໄປສູ່ໂດເມນວິໄສທັດ. LMMs ໃນເບື້ອງຕົ້ນໄດ້ນໍາໃຊ້ຮູບພາບລວມແລະຂໍ້ຄວາມເຕືອນເພື່ອສ້າງການຕອບສະຫນອງຂໍ້ຄວາມທີ່ບໍ່ມີພື້ນຖານ. ບໍ່ດົນມານີ້, LMMs ລະດັບພາກພື້ນໄດ້ຖືກນໍາໃຊ້ເພື່ອສ້າງການຕອບໂຕ້ໂດຍສາຍຕາ. ຢ່າງໃດກໍ່ຕາມ, ພວກມັນຖືກຈໍາກັດພຽງແຕ່ການອ້າງອີງເຖິງປະເພດວັດຖຸດຽວໃນເວລາດຽວ, ຮຽກຮ້ອງໃຫ້ຜູ້ໃຊ້ກໍານົດພາກພື້ນ, ຫຼືບໍ່ສາມາດສະຫນອງການວາງພື້ນຖານວັດຖຸ pixel-wise ຫນາແຫນ້ນ. ໃນການເຮັດວຽກນີ້, ພວກເຮົານໍາສະເຫນີ Grounding LMM (GLaMM), ຮູບແບບທໍາອິດທີ່ສາມາດສ້າງການຕອບສະຫນອງພາສາທໍາມະຊາດ intertwined seamlessly ກັບຫນ້າກາກການແບ່ງສ່ວນວັດຖຸທີ່ສອດຄ້ອງກັນ. GLaMM ບໍ່ພຽງແຕ່ອີງໃສ່ວັດຖຸທີ່ປາກົດຢູ່ໃນການສົນທະນາເທົ່ານັ້ນ, ແຕ່ມີຄວາມຍືດຫຍຸ່ນພຽງພໍທີ່ຈະຍອມຮັບທັງຂໍ້ຄວາມແລະສາຍຕາທາງເລືອກ (ພາກພື້ນທີ່ມີຄວາມສົນໃຈ) ເປັນການປ້ອນຂໍ້ມູນ. ນີ້ເຮັດໃຫ້ຜູ້ໃຊ້ສາມາດພົວພັນກັບຕົວແບບໃນລະດັບຕ່າງໆຂອງ granularity, ທັງໃນໂດເມນຂໍ້ຄວາມແລະສາຍຕາ. ເນື່ອງຈາກການຂາດມາດຕະຖານມາດຕະຖານສໍາລັບການສ້າງຕັ້ງໃຫມ່ຂອງການສ້າງການສົນທະນາທີ່ມີພື້ນຖານສາຍຕາ (GCG), ພວກເຮົາແນະນໍາອະນຸສັນຍາການປະເມີນຜົນທີ່ສົມບູນແບບກັບການສົນທະນາທີ່ມີພື້ນຖານຂອງພວກເຮົາ. ວຽກງານ GCG ທີ່ສະເຫນີຂອງພວກເຮົາຮຽກຮ້ອງໃຫ້ມີແນວຄວາມຄິດພື້ນຖານທີ່ຫນາແຫນ້ນໃນ scenes ທໍາມະຊາດໃນຂະຫນາດໃຫຍ່. ເພື່ອເຮັດສິ່ງນີ້, ພວກເຮົາສະເຫນີຊຸດຂໍ້ມູນ Grounding-anything (GranD) ທີ່ມີຄວາມຫນາແຫນ້ນໂດຍນໍາໃຊ້ທໍ່ຄໍາບັນຍາຍອັດຕະໂນມັດທີ່ສະເຫນີຂອງພວກເຮົາທີ່ກວມເອົາແນວຄວາມຄິດທີ່ເປັນເອກະລັກ 7.5M ພື້ນຖານໃນຈໍານວນທັງຫມົດ 810 ລ້ານພາກພື້ນທີ່ມີຫນ້າກາກການແບ່ງສ່ວນ. ນອກເໜືອໄປຈາກ GCG, GLaMM ຍັງປະຕິບັດຢ່າງມີປະສິດຕິພາບໃນຫຼາຍໜ້າວຽກລຸ່ມນ້ຳ, ເຊັ່ນ: ການແບ່ງສ່ວນການສະແດງອອກ, ການອ້າງອີງຮູບພາບ ແລະຄຳບັນຍາຍລະດັບພາກພື້ນ ແລະການສົນທະນາທາງວິໄສທັດ.
ຂັບເຄື່ອນໂດຍຄື້ນ AI ການຜະລິດ, ແບບຈໍາລອງ Multimodal ຂະຫນາດໃຫຍ່ (LMMs) ໄດ້ກາຍເປັນຄວາມກ້າວຫນ້າທີ່ສໍາຄັນ, ຮັດແຄບຊ່ອງຫວ່າງລະຫວ່າງວິໄສທັດແລະວຽກງານພາສາ [2]. ຄວາມພະຍາຍາມເບື້ອງຕົ້ນເຊັ່ນ [6, 8, 22, 29, 52, 61] ສະແດງໃຫ້ເຫັນການຕອບສະຫນອງຂໍ້ຄວາມທີ່ມີປະສິດທິພາບໂດຍອີງໃສ່ຮູບພາບທີ່ປ້ອນເຂົ້າ. ເຖິງແມ່ນວ່າຕົວແບບເຫຼົ່ານີ້ມີຄວາມຊັບຊ້ອນ, ແຕ່ພວກມັນຍັງບໍ່ສາມາດອີງໃສ່ການຕອບໂຕ້ຂອງເຂົາເຈົ້າຢູ່ໃນສະພາບສາຍຕາ. ພື້ນຖານດັ່ງກ່າວແມ່ນສໍາຄັນສໍາລັບຄໍາຮ້ອງສະຫມັກທີ່ກ້າວຫນ້າເຊັ່ນ: ຄວາມເຂົ້າໃຈທາງສາຍຕາຢ່າງລະອຽດ, ຕົວແທນທີ່ມີການໂຕ້ຕອບ, ແລະການຈັດການເນື້ອຫາໃນທ້ອງຖິ່ນ. ຄວາມພະຍາຍາມທີ່ຜ່ານມາໄດ້ເລີ່ມຕົ້ນເພື່ອແກ້ໄຂຂໍ້ຈໍາກັດນີ້ໂດຍການເປີດໃຊ້ຕົວແບບເພື່ອປະມວນຜົນພາກພື້ນທີ່ຜູ້ໃຊ້ກໍານົດໄວ້ໂດຍຜ່ານກ່ອງຂອບ [5, 31, 35, 36, 57].
ສອງສາມວຽກງານທີ່ຜ່ານມາໄດ້ຄົ້ນຫາການສ້າງການຕອບໂຕ້ຂໍ້ຄວາມທີ່ມີພື້ນຖານ [5, 21, 35, 59] ແຕ່ບໍ່ໄດ້ສະຫນອງການພື້ນຖານລະດັບ pixels ລວງຢ່າງລະອຽດ. ຂະຫນານກັບສິ່ງເຫຼົ່ານີ້, ຄວາມພະຍາຍາມໄດ້ຖືກດໍາເນີນໃນວັນນະຄະດີການແບ່ງສ່ວນທີ່ອ້າງອີງໃສ່ຄໍາອະທິບາຍຂໍ້ຄວາມພື້ນຖານໃນຮູບພາບທໍາມະຊາດ [21]. ຢ່າງໃດກໍຕາມ, ເຂົາເຈົ້າໄດ້ຖືກຈໍາກັດພຽງແຕ່ພື້ນຖານວັດຖຸດຽວແລະບໍ່ສາມາດເຂົ້າຮ່ວມໃນການສົນທະນາທໍາມະຊາດ, ສອດຄ່ອງ, ດັ່ງນັ້ນການຈໍາກັດການປະຕິບັດຂອງເຂົາເຈົ້າໃນວຽກງານການໂຕ້ຕອບທີ່ຮຽກຮ້ອງໃຫ້ມີຄວາມເຂົ້າໃຈເລິກຂອງເນື້ອໃນຮູບພາບແລະຂໍ້ຄວາມ. ເພື່ອແກ້ໄຂຂໍ້ຈໍາກັດເຫຼົ່ານີ້ຂອງວຽກງານທີ່ມີຢູ່ແລ້ວ, ພວກເຮົາແນະນໍາ Grounding LMM (GLaMM), ທີ່ພ້ອມໆກັນໃຫ້ຄວາມເຂົ້າໃຈໃນພາກພື້ນໃນຄວາມເລິກ, ພື້ນດິນໃນລະດັບ pixels, ແລະຄວາມສາມາດໃນການສົນທະນາໂດຍຜ່ານວິທີການຝຶກອົບຮົມ end-to-end (ເບິ່ງຮູບ 1 ແລະ Tab. 1).
ເພື່ອແກ້ໄຂການຂາດມາດຕະຖານສໍາລັບການສົນທະນາທີ່ມີສາຍຕາ, ພວກເຮົາແນະນໍາວຽກງານໃຫມ່ຂອງ Grounded Conversation Generation (GCG). ວຽກງານ GCG ມີຈຸດປະສົງເພື່ອຜະລິດການຕອບສະຫນອງພາສາທໍາມະຊາດ interleaved ກັບຫນ້າກາກການແບ່ງສ່ວນວັດຖຸ. ວຽກງານທີ່ທ້າທາຍນີ້ລວມເອົາຫຼາຍວຽກງານທີ່ມີຢູ່ແລ້ວໃນວິໄສທັດຄອມພິວເຕີທີ່ປົກກະຕິແລ້ວແມ່ນປະຕິບັດໃນຄວາມໂດດດ່ຽວ, ie, ການອ້າງອິງ segmentation, ການບັນຍາຍຮູບພາບແລະລະດັບພາກພື້ນ, ພື້ນຖານປະໂຫຍກ, ແລະການສົນທະນາພາສາວິໄສທັດ. ດ້ວຍເຫດນີ້, ຮູບແບບທີ່ເປັນເອກະພາບຂອງພວກເຮົາ ແລະຊຸດຂໍ້ມູນການຝຶກຊ້ອມທີ່ສະເໜີມານັ້ນສາມາດໂອນໄປສູ່ຫຼາຍໜ້າວຽກລຸ່ມນ້ຳໄດ້ຢ່າງມີປະສິດທິພາບ (ການແບ່ງສ່ວນການສະແດງອອກ, ການບັນຍາຍລະດັບພາກພື້ນ, ການບັນຍາຍຮູບພາບ ແລະ QA ແບບການສົນທະນາ). ພວກເຮົານໍາສະເຫນີ GLaMM ເປັນຕົວແບບທໍາອິດທີ່ອອກແບບໂດຍສະເພາະສໍາລັບວຽກງານທີ່ທ້າທາຍນີ້. ບໍ່ເຫມືອນກັບວຽກງານທີ່ຜ່ານມາ, GLaMM ສາມາດເຮັດວຽກໄດ້ທັງຂໍ້ຄວາມແລະສາຍຕາແລະສາມາດສ້າງຜົນໄດ້ຮັບທີ່ມີສາຍຕາ, ດັ່ງນັ້ນສະເຫນີປະສົບການຜູ້ໃຊ້ທີ່ຫຼາກຫຼາຍ.
ຄວາມເຂົ້າໃຈລະດັບພາກພື້ນຢ່າງລະອຽດຮຽກຮ້ອງໃຫ້ມີຂະບວນການທີ່ຫຍຸ້ງຍາກໃນການເກັບກໍາຄໍາບັນຍາຍຂະຫນາດໃຫຍ່ສໍາລັບພາກພື້ນຮູບພາບ. ພວກເຮົາສະເຫນີທໍ່ອັດຕະໂນມັດເພື່ອອະທິບາຍເຖິງຊຸດຂໍ້ມູນ Grounding-anything (GranD) ຂະຫນາດໃຫຍ່ເພື່ອຫຼຸດຜ່ອນຄວາມພະຍາຍາມການຕິດສະຫຼາກຄູ່ມື. ການໃຊ້ທໍ່ສົ່ງອັດຕະໂນມັດດ້ວຍຂັ້ນຕອນການຢັ້ງຢືນທີ່ອຸທິດຕົນ, GranD ປະກອບດ້ວຍ 7.5M ແນວຄວາມຄິດທີ່ເປັນເອກະລັກທີ່ຍຶດຫມັ້ນຢູ່ໃນພາກພື້ນ 810M, ແຕ່ລະຄົນມີຫນ້າກາກແບ່ງສ່ວນ. ດ້ວຍການໃຊ້ວິໄສທັດ ແລະຮູບແບບພາສາທີ່ທັນສະໄໝ, ຊຸດຂໍ້ມູນອະທິບາຍພາບ SAM [18] ໂດຍຜ່ານລະບົບການຈັດລໍາດັບຫຼາຍລະດັບທີ່ປັບປຸງຄຸນນະພາບການບັນຍາຍ. ດ້ວຍ 11M ຮູບພາບ, 84M ການສະແດງອອກ, ແລະຄຳບັນຍາຍພື້ນຖານ 33M, GranD ກຳນົດມາດຕະຖານໃໝ່ໃນຄວາມສົມບູນແບບ. ນອກເຫນືອຈາກຊຸດຂໍ້ມູນທີ່ສ້າງຂື້ນໂດຍອັດຕະໂນມັດສໍາລັບ GCG, ພວກເຮົາສະຫນອງຊຸດຂໍ້ມູນທີ່ມີຄຸນນະພາບສູງທໍາອິດສໍາລັບການສົນທະນາພື້ນຖານທີ່ໄດ້ຮັບໂດຍການປັບປຸງຊຸດຂໍ້ມູນທີ່ມີຄໍາບັນຍາຍດ້ວຍຕົນເອງທີ່ມີຢູ່ [16, 37, 49] ສໍາລັບ GCG ໂດຍໃຊ້ GPT-4 [34] ການຮຽນຮູ້ incontext. ພວກເຮົາອ້າງອີງເຖິງຊຸດຂໍ້ມູນທີ່ມີຄຸນນະພາບສູງເປັນ GranDf, ສະແດງໃຫ້ເຫັນເຖິງຄວາມເໝາະສົມຂອງມັນສຳລັບການປັບລະອຽດ.
ວຽກງານຂອງພວກເຮົາມີສາມການປະກອບສ່ວນຕົ້ນຕໍ:
• ພວກເຮົານຳສະເໜີ GLaMM, ຮູບແບບທຳອິດທີ່ສາມາດຕອບສະໜອງພາສາທຳມະຊາດທີ່ປະສົມປະສານເຂົ້າກັບໜ້າກາກການແບ່ງສ່ວນວັດຖຸ. ບໍ່ເຫມືອນກັບຕົວແບບທີ່ມີຢູ່ແລ້ວ, GLaMM ຮອງຮັບການກະຕຸ້ນຂໍ້ຄວາມແລະສາຍຕາ, ອໍານວຍຄວາມສະດວກໃນການໂຕ້ຕອບຜູ້ໃຊ້ multimodal ປັບປຸງ.
• ການຮັບຮູ້ການຂາດມາດຕະຖານມາດຕະຖານສໍາລັບການສົນທະນາທີ່ມີພື້ນຖານທາງສາຍຕາ, ພວກເຮົາສະເຫນີວຽກງານການສ້າງການສົນທະນາທີ່ມີພື້ນຖານໃຫມ່ (GCG). ພວກເຮົາຍັງແນະນໍາອະນຸສັນຍາການປະເມີນຜົນທີ່ສົມບູນແບບເພື່ອວັດແທກປະສິດທິພາບຂອງຕົວແບບສໍາລັບ GCG ທີ່ລວມເອົາວຽກງານທີ່ໂດດດ່ຽວຫຼາຍ, ຕື່ມຊ່ອງຫວ່າງທີ່ສໍາຄັນໃນວັນນະຄະດີ.
• ເພື່ອອໍານວຍຄວາມສະດວກໃຫ້ແກ່ການຝຶກອົບຮົມແບບຈໍາລອງ ແລະການປະເມີນຜົນ, ພວກເຮົາສ້າງຊຸດຂໍ້ມູນ Grounding-anything (GranD), ເປັນຊຸດຂໍ້ມູນທີ່ມີຄວາມໜາແໜ້ນຂະໜາດໃຫຍ່. ພັດທະນາໂດຍນໍາໃຊ້ທໍ່ການອະທິບາຍອັດຕະໂນມັດແລະເງື່ອນໄຂການຢັ້ງຢືນ, ມັນກວມເອົາ 7.5 ລ້ານແນວຄວາມຄິດທີ່ເປັນເອກະລັກໂດຍພື້ນຖານໃນພາກພື້ນ 810 ລ້ານ. ນອກຈາກນັ້ນ, ພວກເຮົາສະເຫນີ GranDf, ຊຸດຂໍ້ມູນທີ່ມີຄຸນນະພາບສູງທີ່ຖືກອອກແບບຢ່າງຈະແຈ້ງສໍາລັບການປັບຫນ້າວຽກ GCG, ໂດຍ repurposing ຊຸດຂໍ້ມູນ open-source ທີ່ມີຢູ່ແລ້ວ.
ເອກະສານນີ້ ມີຢູ່ໃນ arxiv ພາຍໃຕ້ໃບອະນຸຍາດ CC BY 4.0 DEED.