```html ຜູ້ຂຽນ: Mayank Mishra⋆, IBM Matt Stallone⋆, IBM Gaoyuan Zhang⋆, IBM Yikang Shen, IBM Aditya Prasad, IBM Adriana Meza Soria, IBM Michele Merler, IBM Parameswaran Selvam, IBM Saptha Surendran, IBM Shivdeep Singh, IBM Manish Sethi, IBM Xuan-Hong Dang, IBM Pengyuan Li, IBM Kun-Lung Wu, IBM Syed Zawad, IBM Andrew Coleman, IBM Matthew White, IBM Mark Lewis, IBM Raju Pavuluri, IBM Yan Koyfman, IBM Boris Lublinsky, IBM Maximilien de Bayser, IBM Ibrahim Abdelaziz, IBM Kinjal Basu, IBM Mayank Agarwal, IBM Yi Zhou, IBM Chris Johnson, IBM Aanchal Goyal, IBM Hima Patel, IBM Yousaf Shah, IBM Petros Zerfos, IBM Heiko Ludwig, IBM Asim Munawar, IBM Maxwell Crouse, IBM Pavan Kapanipathi, IBM Shweta Salaria, IBM Bob Calio, IBM Sophia Wen, IBM Seetharami Seelam, IBM Brian Belgodere, IBM Carlos Fonseca, IBM Amith Singhee, IBM Nirmit Desai, IBM David D. Cox, IBM Ruchir Puri†, IBM Rameswar Panda†, IBM ບົດຄັດຫຍໍ້ ແບບຈໍາລອງພາສາຂະຫນາດໃຫຍ່ (LLMs) ທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບລະຫັດກໍາລັງປະຕິວັດຂະບວນການພັດທະນາຊອບແວ. ມື້ນີ້, code LLMs ໄດ້ຖືກນໍາເຂົ້າໄປໃນສະພາບແວດລ້ອມການພັດທະນາຊອບແວເພື່ອປັບປຸງການຜະລິດຂອງນັກຂຽນໂປແກຼມ, ແລະ agents ທີ່ອີງໃສ່ LLM ໄດ້ເລີ່ມສະແດງໃຫ້ເຫັນສັນຍານໃນການຈັດການວຽກງານທີ່ສັບສົນ. ການບັນລຸທ່າແຮງເຕັມທີ່ຂອງ code LLMs ຮຽກຮ້ອງໃຫ້ມີຄວາມສາມາດທີ່ຫລາກຫລາຍ, ລວມທັງການສ້າງລະຫັດ, ການແກ້ໄຂຂໍ້ຜິດພາດ, ການອະທິບາຍແລະການເອກະສານລະຫັດ, ການຮັກສາ repository, ແລະອື່ນໆ. ວຽກງານນີ້, ພວກເຮົານໍາສະເຫນີຊຸດຂອງແບບຈໍາລອງລະຫັດທີ່ມີການຖອດລະຫັດເທົ່ານັ້ນສໍາລັບວຽກງານການສ້າງລະຫັດ, ຝຶກອົບຮົມດ້ວຍລະຫັດທີ່ຂຽນດ້ວຍພາສາການຂຽນໂປຣແກຣມ 116 ພາສາ. ຄອບຄົວຂອງແບບຈໍາລອງ Granite Code ປະກອບດ້ວຍແບບຈໍາລອງທີ່ມີຂະຫນາດຕັ້ງແຕ່ 3 ຫາ 34 ພັນລ້ານພາລາມິເຕີ, ເຫມາະສໍາລັບການນໍາໃຊ້ຕັ້ງແຕ່ວຽກງານການທັນສະໄຫມຄໍາຮ້ອງສະຫມັກທີ່ສັບສົນໄປຈົນເຖິງກໍລະນີການນໍາໃຊ້ທີ່ຈໍາກັດຄວາມຊົງຈໍາໃນອຸປະກອນ. ການປະເມີນຜົນກ່ຽວກັບຊຸດວຽກງານທີ່ສົມບູນແບບສະແດງໃຫ້ເຫັນວ່າແບບຈໍາລອງ Granite Code ບັນລຸຜົນການປະຕິບັດການສ້າງລາຍການຂອງລັດທ່າມກາງ code LLMs ທີ່ເປີດແຫຼ່ງ. ຄອບຄົວຂອງແບບຈໍາລອງ Granite Code ໄດ້ຮັບການປັບປຸງໃຫ້ເຫມາະສົມສໍາລັບຂະບວນການເຮັດວຽກການພັດທະນາຊອບແວຂອງວິສາຫະກິດ ແລະ ປະຕິບັດໄດ້ດີໃນວຽກງານລະຫັດທີ່ຫລາກຫລາຍ (ເຊັ່ນ: ການສ້າງລະຫັດ, ການແກ້ໄຂ ແລະ ການອະທິບາຍ), ເຮັດໃຫ້ມັນເປັນແບບຈໍາລອງລະຫັດ "ທຸກຮອບ" ທີ່ຫລາກຫລາຍ. ພວກເຮົາປ່ອຍແບບຈໍາລອງ Granite Code ທັງຫມົດຂອງພວກເຮົາພາຍໃຕ້ໃບອະນຸຍາດ Apache 2.0 ສໍາລັບການຄົ້ນຄວ້າແລະການຄ້າ. https://github.com/ibm-granite/granite-code-models 1 ບົດນໍາ ໃນສອງສາມທົດສະວັດທີ່ຜ່ານມາ, ຊອບແວໄດ້ຖືກຖັກທໍເຂົ້າໄປໃນຜ້າຂອງທຸກແງ່ມุมຂອງສັງຄົມຂອງພວກເຮົາ. ໃນຂະນະທີ່ຄວາມຕ້ອງການສໍາລັບການພັດທະນາຊອບແວເພີ່ມຂຶ້ນ, ມັນຈຶ່ງສໍາຄັນກວ່າທີ່ເຄີຍມີມາເພື່ອເພີ່ມການຜະລິດການພັດທະນາຊອບແວ, ແລະ LLMs ສະຫນອງເສັ້ນທາງທີ່ມີຄວາມຫວັງໃນການເພີ່ມນັກຂຽນໂປຣແກຣມ. ບັນດາກໍລະນີການນໍາໃຊ້ວິສາຫະກິດທີ່ໂດດເດັ່ນສໍາລັບ LLMs ໃນການຜະລິດການພັດທະນາຊອບແວລວມມີການສ້າງລະຫັດ, ການອະທິບາຍລະຫັດ, ການແກ້ໄຂລະຫັດ, ການທົດສອບຫົວຫນ່ວຍແລະການສ້າງເອກະສານ, ການທັນສະໄຫມຄໍາຮ້ອງສະຫມັກ, ການກວດຈັບການລະເມີດ, ການແປລະຫັດ, ແລະອື່ນໆ. ໃນປີທີ່ຜ່ານມາໄດ້ເຫັນຄວາມກ້າວຫນ້າຢ່າງວ່ອງໄວໃນຄວາມສາມາດຂອງ LLM ໃນການສ້າງແລະຈັດການລະຫັດ, ແລະມີຊຸດຂອງແບບຈໍາລອງທີ່ມີຄວາມສາມາດໃນການຂຽນລະຫັດທີ່ຫນ້າປະທັບໃຈມີໃຫ້ໃນມື້ນີ້. ບັນດາແບບຈໍາລອງມີຂະຫນາດຕັ້ງແຕ່ພັນລ້ານພາລາມິເຕີທີ່ມີຕົວເລກດຽວ (ເຊັ່ນ Llama-7B (Touvron et al., 2023), Gemma-7B (Gemma-Team et al., 2024), ເປັນຕົ້ນ) ໄປຮອດຫຼາຍຮ້ອຍພັນລ້ານ: DBRX (Databricks), Arctic (Snowflake), Grok, Mixtral 8x22B (MistralAI), Command R+ (Cohere), ແລະແຕກຕ່າງກັນໃນຄວາມທົ່ວໄປຂອງການນໍາໃຊ້ທີ່ຕັ້ງໃຈ, ໂດຍມີແບບຈໍາລອງບາງອັນມີຈຸດປະສົງເພື່ອກວມເອົາການນໍາໃຊ້ທີ່ຫລາກຫລາຍນອກເຫນືອຈາກລະຫັດ, ໃນຂະນະທີ່ແບບຈໍາລອງອື່ນໆເນັ້ນຫນັກໃສ່ວຽກງານທີ່ກ່ຽວຂ້ອງກັບລະຫັດ (ເຊັ່ນ StarCoder (Li et al., 2023a; Lozhkov et al., 2024), CodeGen (Nijkamp et al., 2023), CodeLlama (Rozie`re et al., 2023), ແລະ CodeGemma (CodeGemma Team et al., 2024)). ຢ່າງໃດກໍຕາມ, ຍັງມີຊ່ອງຫວ່າງທີ່ສໍາຄັນໃນພາກສະຫນາມຂອງ LLMs ສໍາລັບລະຫັດໃນປະຈຸບັນ, ໂດຍສະເພາະໃນສະພາບຂອງການພັດທະນາຊອບແວຂອງວິສາຫະກິດ. ກ່ອນອື່ນຫມົດ, ໃນຂະນະທີ່ LLMs ທົ່ວໄປຂະຫນາດໃຫຍ່ສາມາດບັນລຸປະສິດທິພາບໃນການຂຽນລະຫັດທີ່ດີເລີດ, ຂະຫນາດຂອງມັນເຮັດໃຫ້ມັນມີລາຄາແພງໃນການນໍາໃຊ້. ບັນດາແບບຈໍາລອງລະຫັດຂະຫນາດນ້ອຍທີ່ສຸມໃສ່ລະຫັດ ( , ; , ; , ; , ; , ) ສາມາດບັນລຸປະສິດທິພາບໃນການສ້າງລະຫັດທີ່ດີເລີດໃນຊຸດທີ່ນ້ອຍກວ່າແລະຍືດຫຍຸ່ນກວ່າ, ແຕ່ປະສິດທິພາບໃນວຽກງານການຂຽນລະຫັດນອກເຫນືອຈາກການສ້າງ (ເຊັ່ນ, ການແກ້ໄຂແລະການອະທິບາຍ) ອາດຈະຕ່ໍາກວ່າປະສິດທິພາບໃນການສ້າງລະຫັດ. Li et al. 2023a Lozhkov et al. 2024 Nijkamp et al. 2023 Rozie`re et al. 2023 CodeGemma Team et al. 2024 ໃນກໍລະນີວິສາຫະກິດຈໍານວນຫລາຍ, ການນໍາໃຊ້ code LLM ອາດຈະໄດ້ຮັບການສັບສົນຕື່ມອີກໂດຍປັດໄຈທີ່ຢູ່ນອກເຫນືອຈາກປະສິດທິພາບຂອງແບບຈໍາລອງ. ຕົວຢ່າງເຊັ່ນ, ແມ່ນແຕ່ແບບຈໍາລອງເປີດບາງຄັ້ງກໍຖືກລົບກວນໂດຍການຂາດຄວາມໂປ່ງໃສກ່ຽວກັບແຫລ່ງຂໍ້ມູນແລະວິທີການປຸງແຕ່ງຂໍ້ມູນທີ່ເຂົ້າໄປໃນແບບຈໍາລອງ, ເຊິ່ງສາມາດເຮັດໃຫ້ຄວາມໄວ້ເນື້ອເຊື່ອໃຈໃນແບບຈໍາລອງໃນກໍລະນີທີ່ສໍາຄັນຕໍ່ການເຮັດວຽກແລະການຄວບຄຸມ. ຍິ່ງໄປກວ່ານັ້ນ, ເງື່ອນໄຂໃບອະນຸຍາດໃນ LLMs ເປີດໃນປະຈຸບັນສາມາດເຮັດໃຫ້ຄວາມສາມາດຂອງວິສາຫະກິດໃນການນໍາໃຊ້ແບບຈໍາລອງສັບສົນແລະຍຸ່ງຍາກ. ໃນທີ່ນີ້, ພວກເຮົານໍາສະເຫນີແບບຈໍາລອງ Granite Code, ຊຸດຂອງ code LLMs ທີ່ມີຄວາມສາມາດສູງ, ອອກແບບມາເພື່ອສະຫນັບສະຫນູນການພັດທະນາຊອບແວຂອງວິສາຫະກິດໃນວຽກງານການຂຽນລະຫັດທີ່ຫລາກຫລາຍ. ບັນດາແບບຈໍາລອງ Granite Code ມີສອງຮູບແບບຫລັກທີ່ພວກເຮົາປ່ອຍອອກມາໃນຂະຫນາດທີ່ແຕກຕ່າງກັນສີ່ຂະຫນາດ (3B, 8B, 20B, ແລະ 34B): ບັນດາແບບຈໍາລອງພື້ນຖານສໍາລັບວຽກງານທີ່ກ່ຽວຂ້ອງກັບລະຫັດ; Granite Code Base: ບັນດາແບບຈໍາລອງທີ່ປະຕິບັດຕາມຄໍາແນະນໍາທີ່ໄດ້ຮັບການປັບປຸງໂດຍໃຊ້ການປະສົມຂອງການ commit Git ທີ່ຄູ່ກັບຄໍາແນະນໍາຂອງມະນຸດແລະຊຸດຂໍ້ມູນຄໍາແນະນໍາລະຫັດທີ່ສັງເຄາະເປີດແຫລ່ງ. Granite Code Instruct: ບັນດາແບບຈໍາລອງພື້ນຖານໃນຊຸດໄດ້ຮັບການຝຶກອົບຮົມຕັ້ງແຕ່ຕົ້ນດ້ວຍຍຸດທະສາດການຝຶກອົບຮົມສອງໄລຍະ. ໃນໄລຍະ 1, ແບບຈໍາລອງຂອງພວກເຮົາໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບ 3 ຫາ 4 ພັນລ້ານ token ທີ່ມາຈາກ 116 ພາສາການຂຽນໂປຣແກຣມ, ຮັບປະກັນຄວາມເຂົ້າໃຈທີ່ສົມບູນແບບກ່ຽວກັບພາສາການຂຽນໂປຣແກຣມແລະໄວຍະກອນ. ໃນໄລຍະ 2, ແບບຈໍາລອງຂອງພວກເຮົາໄດ້ຮັບການຝຶກອົບຮົມເພີ່ມເຕີມກ່ຽວກັບ 500 ພັນລ້ານ token ດ້ວຍການປະສົມຂໍ້ມູນທີ່ມີຄຸນນະພາບສູງຈາກໂດເມນລະຫັດແລະພາສາທໍາມະຊາດເພື່ອປັບປຸງຄວາມສາມາດຂອງແບບຈໍາລອງໃນການຄິດໄລ່. ພວກເຮົາໃຊ້ຈຸດປະສົງການສ້າງແບບຈໍາລອງພາສາທີ່ບໍ່ໄດ້ຮັບການເບິ່ງແຍງເພື່ອຝຶກອົບຮົມແບບຈໍາລອງພື້ນຖານໃນທັງສອງໄລຍະຂອງການຝຶກອົບຮົມ. ບັນດາແບບຈໍາລອງຄໍາແນະນໍາໄດ້ຮັບການໄດ້ຮັບໂດຍການປັບປຸງແບບຈໍາລອງພື້ນຖານທີ່ໄດ້ຮັບການຝຶກອົບຮົມຂ້າງເທິງກ່ຽວກັບການປະສົມຂອງຮູບແບບການກັ່ນຕອງຂອງ CommitPack ( , ), ຊຸດຂໍ້ມູນຄໍາແນະນໍາພາສາທໍາມະຊາດ (OASST ( , ), HelpSteer ( , )) ແລະຊຸດຂໍ້ມູນຄະນິດສາດທີ່ສັງເຄາະເປີດແຫລ່ງ (MathInstruct ( , ) ແລະ MetaMathQA ( , )), ລວມທັງຊຸດຂໍ້ມູນລະຫັດທີ່ສັງເຄາະເພື່ອປັບປຸງຄວາມສາມາດໃນການປະຕິບັດຕາມຄໍາແນະນໍາແລະການຄິດໄລ່. Muennighoff et al. 2023 Ko¨ pf et al. 2023 Wang et al. 2023 Yue et al. 2023 Yu et al. 2023 ພວກເຮົາໄດ້ດໍາເນີນການປະເມີນຜົນຢ່າງກວ້າງຂວາງຂອງ code LLMs ຂອງພວກເຮົາກ່ຽວກັບຊຸດການວັດແທກທີ່ສົມບູນ, ລວມທັງ HumanEvalPack ( , ), MBPP(+) ( , ; , ), RepoBench ( , ), ReCode ( , ), ແລະອື່ນໆ. ຊຸດການວັດແທກນີ້ກວມເອົາປະເພດຂອງວຽກງານການຂຽນລະຫັດທີ່ແຕກຕ່າງກັນຫຼາຍກ່ວາພຽງແຕ່ການສັງເຄາະລະຫັດໃນ Python, ເຊັ່ນ, ການແກ້ໄຂລະຫັດ, ການອະທິບາຍລະຫັດ, ການແກ້ໄຂລະຫັດ, ການແປລະຫັດ, ແລະອື່ນໆ, ໃນພາສາການຂຽນໂປຣແກຣມຫລັກສ່ວນໃຫຍ່ (Python, JavaScript, Java, Go, C++, Rust, ເປັນຕົ້ນ). Muennighoff et al. 2023 Austin et al. 2021 Liu et al. 2023a Liu et al. 2023b Wang et al. 2022 ຜົນການຄົ້ນພົບຂອງພວກເຮົາສະແດງໃຫ້ເຫັນວ່າໃນບັນດາແບບຈໍາລອງເປີດແຫລ່ງ, ບັນດາແບບຈໍາລອງ Granite Code ໂດຍລວມສະແດງໃຫ້ເຫັນປະສິດທິພາບທີ່ແຂງແຮງຫລາຍໃນທຸກຂະຫນາດແບບຈໍາລອງແລະການວັດແທກ (ມັກຈະດີກ່ວາບັນດາແບບຈໍາລອງລະຫັດເປີດແຫລ່ງອື່ນໆທີ່ມີຂະຫນາດໃຫຍ່ກ່ວາສອງເທົ່າເມື່ອທຽບກັບ Granite). ເພື່ອເປັນການສະແດງໃຫ້ເຫັນ, ຮູບພາບ (ດ້ານເທິງ) ສະແດງການປຽບທຽບຂອງ Granite-8B-Code-Base ກັບ LLMs ພື້ນຖານລະຫັດເປີດແຫລ່ງອື່ນໆ, ລວມທັງ LLMs ພື້ນຖານທົ່ວໄປທີ່ມີປະສິດທິພາບສູງຫລ້າສຸດເຊັ່ນ Mistral ( , ) ແລະ LLama-3 ( , ) ກ່ຽວກັບ HumanEvalPack ( , ). ໃນຂະນະທີ່ CodeGemma ແລະ StarCoder2 ປະຕິບັດໄດ້ດີໃນການສ້າງລະຫັດ, ພວກມັນປະຕິບັດໄດ້ຕ່ໍາກ່ວາຢ່າງມີນัยສໍາຄັນໃນການແກ້ໄຂລະຫັດແລະການອະທິບາຍຮູບແບບຂອງ HumanEvalPack. ໂດຍສະເລ່ຍ, Granite-8B-Code-Base ດີກ່ວາແບບຈໍາລອງ CodeGemma-8B ທີ່ແຂ່ງຂັນທີ່ສຸດໂດຍເກືອບ 12 ຈຸດໃນ HumanEvalPack (33.2% ເມື່ອທຽບກັບ 21.3%), ເຖິງແມ່ນວ່າຈະໄດ້ຮັບການຝຶກອົບຮົມດ້ວຍຈໍານວນ token ຫນ້ອຍກ່ວາ (4.5T ເມື່ອທຽບກັບ 7.5T tokens). ນອກເຫນືອຈາກແບບຈໍາລອງພື້ນຖານ, ຮູບແບບທີ່ໄດ້ຮັບການປັບປຸງຄໍາແນະນໍາຂອງແບບຈໍາລອງ Granite Code ຂອງພວກເຮົາກໍສະແດງໃຫ້ເຫັນປະສິດທິພາບທີ່ແຂງແຮງໃນ HumanEvalPack, ດີກ່ວາແບບຈໍາລອງຄໍາແນະນໍາເປີດແຫລ່ງອື່ນໆ (ລະຫັດ), ສະແດງໃຫ້ເຫັນຜົນປະໂຫຍດຕໍ່ຊຸດວຽກງານການຂຽນລະຫັດທີ່ຫລາກຫລາຍດ້ວຍຄໍາແນະນໍາພາສາທໍາມະຊາດ (ເບິ່ງຮູບ (ດ້ານລຸ່ມ)). 1 Jiang et al. 2023b AI@Meta 2024 Muennighoff et al. 2023 1 ຍິ່ງໄປກວ່ານັ້ນ, ເນື່ອງຈາກການຄິດໄລ່ມີຄວາມສໍາຄັນໃນການແກ້ໄຂບັນຫາແລະວຽກງານທີ່ສັບສົນ, ພວກເຮົາຍັງໄດ້ທົດສອບແບບຈໍາລອງ Granite-8B-Code-Base ຂອງພວກເຮົາກ່ຽວກັບການວັດແທກຄະນິດສາດຫົກຢ່າງ, ລວມທັງ MATH ( , ), GSM8K ( , ) ແລະການແກ້ໄຂບັນຫາໂດຍມີການເຂົ້າເຖິງເຄື່ອງມືຄິດໄລ່, ໃນນັ້ນແບບຈໍາລອງ Granite 8B ຂອງພວກເຮົາບັນລຸປະສິດທິພາບທີ່ດີກ່ວາ LLMs 7B ຫຼື 8B ຫລ້າສຸດສ່ວນໃຫຍ່. ຕົວຢ່າງເຊັ່ນ, Granite-8B-Code-Base ດີກ່ວາ Llama-3-8B-Base ປະມານ 12 ຈຸດໃນ GSM8K ແລະປະມານ 6 ຈຸດໃນ MATH (ເບິ່ງຕາຕະລາງ ). Cobbe et al. 2021 Cobbe et al. 2021 15 ຂໍ້ໄດ້ປຽບຫລັກຂອງແບບຈໍາລອງ Granite Code ປະກອບມີ: : ບັນດາແບບຈໍາລອງ Granite Code ບັນລຸປະສິດທິພາບທີ່ແຂ່ງຂັນຫຼືເປັນລັດຂອງສິນລະປະໃນວຽກງານທີ່ກ່ຽວຂ້ອງກັບລະຫັດທີ່ແຕກຕ່າງກັນ, ລວມທັງການສ້າງລະຫັດ, ການອະທິບາຍ, ການແກ້ໄຂ, ການແກ້ໄຂ, ການແປລະຫັດ, ແລະອື່ນໆ, ສະແດງໃຫ້ເຫັນຄວາມສາມາດຂອງພວກເຂົາໃນການແກ້ໄຂວຽກງານລະຫັດທີ່ຫລາກຫລາຍ; All-rounder Code LLM : ບັນດາແບບຈໍາລອງທັງຫມົດຂອງພວກເຮົາໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຂໍ້ມູນທີ່ອະນຸຍາດໃຫ້ມີໃບອະນຸຍາດທີ່ໄດ້ຮັບການເກັບກໍາຕາມຫຼັກການຈັນຍາບັນ AI ຂອງ IBM ແລະໄດ້ຮັບການນໍາພາໂດຍທີມກົດຫມາຍຂອງ IBM ສໍາລັບການນໍາໃຊ້ວິສາຫະກິດທີ່ໄວ້ເນື້ອເຊື່ອໃຈ. ບັນດາແບບຈໍາລອງ Granite Code ທັງຫມົດໄດ້ຮັບການປ່ອຍອອກມາພາຍໃຕ້ໃບອະນຸຍາດ Apache 2.0. Trustworthy Enterprise-Grade LLM 1 ພວກເຮົາອະທິບາຍຂະບວນການເກັບກໍາຂໍ້ມູນ, ການກັ່ນຕອງ, ແລະການປຸງແຕ່ງຄືນໃຫມ່ທັງຫມົດຂອງພວກເຮົາໃນພາກ . ພາກ ອະທິບາຍລາຍລະອຽດຂອງສະຖາປັດຕະຍະກໍາຂອງແບບຈໍາລອງ, ຕາມດ້ວຍລາຍລະອຽດການຝຶກອົບຮົມໃນ ພາກ . ພາກ ສະຫນອງລາຍລະອຽດກ່ຽວກັບການປັບປຸງຄໍາແນະນໍາ, ແລະພາກ ອະທິບາຍການທົດລອງແລະຜົນການປະເມີນຜົນທີ່ປຽບທຽບແບບຈໍາລອງ Granite Code ກັບ LLMs ເປີດແຫລ່ງອື່ນໆ. 2 3 4 5 6 2 ການເກັບກໍາຂໍ້ມູນ ໃນພາກນີ້, ພວກເຮົາອະທິບາຍຂະບວນການຂອງການລວບລວມແລະການກັ່ນຕອງ (Sec. ), ການລົບຂໍ້ມູນທີ່ຊໍ້າກັນ (Sec. ), HAP/PII ການກັ່ນຕອງ (Sec. ) ທີ່ໃຊ້ໃນການກຽມຂໍ້ມູນລະຫັດສໍາລັບການຝຶກອົບຮົມແບບຈໍາລອງ. ພວກເຮົາຍັງສະຫນອງພາບລວມຂອງຂໍ້ມູນພາສາທໍາມະຊາດທີ່ມີຄຸນນະພາບສູງທີ່ໃຊ້ເພື່ອປັບປຸງຄວາມເຂົ້າໃຈພາສາແລະທັກສະການຄິດໄລ່ຄະນິດສາດຂອງແບບຈໍາລອງ. 2.1 2.2 2.3 2.1 ການລວບລວມແລະການກັ່ນຕອງຂໍ້ມູນ ຂໍ້ມູນລະຫັດການ pretraining ໄດ້ມາຈາກການປະສົມຂອງຊຸດຂໍ້ມູນສາທາລະນະເຊັ່ນ Github Code Clean , StarCoderdata , ແລະrepository ລະຫັດສາທາລະນະແລະບັນຫາເພີ່ມເຕີມຈາກ GitHub. ພວກເຮົາກັ່ນຕອງຂໍ້ມູນດິບເພື່ອຮັກສາບັນຊີລາຍການຂອງ 116 ພາສາການຂຽນໂປຣແກຣມຈາກ 300+ ພາສາ, ຕາມທີ່ສະແດງໃນພາກເພີ່ມເຕີມ . ການມອບຫມາຍຂໍ້ມູນໃຫ້ພາສາການຂຽນໂປຣແກຣມແມ່ນໄດ້ດໍາເນີນການໂດຍອາໄສສ່ວນຂະຫຍາຍຂອງເອກสารເທົ່ານັ້ນ, ຄ້າຍຄືກັບ StarCoder ( 2 3 A