```html ليکوالان: Mayank Mishra⋆, IBM Matt Stallone⋆, IBM Gaoyuan Zhang⋆, IBM Yikang Shen, IBM Aditya Prasad, IBM Adriana Meza Soria, IBM Michele Merler, IBM Parameswaran Selvam, IBM Saptha Surendran, IBM Shivdeep Singh, IBM Manish Sethi, IBM Xuan-Hong Dang, IBM Pengyuan Li, IBM Kun-Lung Wu, IBM Syed Zawad, IBM Andrew Coleman, IBM Matthew White, IBM Mark Lewis, IBM Raju Pavuluri, IBM Yan Koyfman, IBM Boris Lublinsky, IBM Maximilien de Bayser, IBM Ibrahim Abdelaziz, IBM Kinjal Basu, IBM Mayank Agarwal, IBM Yi Zhou, IBM Chris Johnson, IBM Aanchal Goyal, IBM Hima Patel, IBM Yousaf Shah, IBM Petros Zerfos, IBM Heiko Ludwig, IBM Asim Munawar, IBM Maxwell Crouse, IBM Pavan Kapanipathi, IBM Shweta Salaria, IBM Bob Calio, IBM Sophia Wen, IBM Seetharami Seelam, IBM Brian Belgodere, IBM Carlos Fonseca, IBM Amith Singhee, IBM Nirmit Desai, IBM David D. Cox, IBM Ruchir Puri†, IBM Rameswar Panda†, IBM پېژندنه د کوډونو په روزل شوي لویو ژبو ماډلونه (LLMs) د سافټویر پراختیا پروسې کې انقلاب راولي. په زیاتیدونکي توګه، د کوډ LLMs د انسان پروګرامرانو تولید زیاتولو لپاره د سافټویر پراختیا چاپیریال کې مدغم کیږي، او د LLM پر بنسټ استازي د پیچلو کارونو په خپلواکه توګه ترسره کولو لپاره امید ښیې. د کوډ LLMs بشپړ ظرفیت ترلاسه کولو لپاره پراخه وړتیاوې ته اړتیا لري، په شمول د کوډ تولید، د بګونو ترمیم، د کوډ تشریح او مستند کول، ریپوزیتوریو ساتل، او نور. پدې کار کې، موږ د کوډ د تولیدي کارونو لپاره د ډیکوډر-یوازې د کوډ ماډلونو ګرانیټ لړۍ معرفي کوو، په 116 پروګرامي ژبو کې د کوډ سره روزل شوي. د ګرانیټ کوډ ماډل کورنۍ له 3 څخه تر 34 ملیارد پیرامیټرو پورې ماډلونه لري، د پیچلو غوښتنلیکونو عصري کولو کارونو څخه تر آن-وسیلې حافظې محدود کارونو پورې د غوښتنلیکونو لپاره مناسب دي. د دندو په بشپړ سیټ باندې ارزونه ښیې چې ګرانیټ کوډ ماډلونه په ثابت ډول د موجودو خلاصې سرچینې کوډ LLMs په مینځ کې د دولت-څخه-څخه-هنر فعالیت ته رسي. د ګرانیټ کوډ ماډل کورنۍ د تصدۍ سافټویر پراختیا ورک فلوز لپاره غوره شوې او د کوډونو په پراخه لړۍ کې ښه فعالیت کوي (د مثال په توګه، د کوډ تولید، ترمیم او تشریح)، دا یو متنوع "هر اړخیز" کوډ ماډل جوړوي. موږ زموږ ټول ګرانیټ کوډ ماډلونه د څیړنې او سوداګریز کارونې دواړو لپاره د اپاچی 2.0 جواز لاندې خپروو. https://github.com/ibm-granite/granite-code-models 1 معرفي په تیرو لسیزو کې، سافټویر زموږ د ټولنې په هره برخه کې په اوبدل شوی دی. لکه څنګه چې د سافټویر پراختیا تقاضا زیاتیږي، د سافټویر پراختیا تولید زیاتول خورا مهم دي، او LLMs د انساني پروګرامرانو د لوړولو لپاره یوه ژمنه لاره وړاندې کوي. د سافټویر پراختیا په تولید کې د LLMs برجسته تصدۍ کارونې کې د کوډ تولید، د کوډ تشریح، د کوډ ترمیم، واحد ازموینې او مستند تولید، د غوښتنلیک عصري کول، د زیان مننې کشف، د کوډ ژباړه، او نور شامل دي. وروستیو کلونو د LLM وړتیا د کوډ تولید او سمبالولو کې چټک پرمختګ لیدلی، او د اغیزمن کوډ وړتیاو سره ماډلونه نن ورځ شتون لري. ماډلونه له یوه عدد ملياردونو پیرامیټرو (د مثال په توګه، Llama-7B (Touvron et al., 2023), Gemma-7B (Gemma-Team et al., 2024), etc.) څخه تر سلګونو ملیاردو پورې توپیر لري: DBRX (Databricks), Arctic (Snowflake), Grok, Mixtral 8x22B (MistralAI), Command R+ (Cohere), او د پ intended شوي کارونې عموميتوب کې توپیر لري، ځینې ماډلونه د کوډ څخه بهر د کارونو پراخه لړۍ پوښلو لپاره په نښه کوي، پداسې حال کې چې نور په لومړي سر کې د کوډ پورې تړلو کارونو باندې تمرکز کوي (د مثال په توګه، StarCoder (Li et al., 2023a; Lozhkov et al., 2024), CodeGen (Nijkamp et al., 2023), CodeLlama (Rozie`re et al., 2023), and CodeGemma (CodeGemma Team et al., 2024)). په هرصورت، د کوډ لپاره د LLMs په اوسني ساحه کې مهم تشې پاتې دي، په ځانګړي توګه د تصدۍ سافټویر پراختیا په شرایطو کې. لومړی، پداسې حال کې چې خورا لوی، عمومي LLMs کولی شي عالي کوډ فعالیت ترلاسه کړي، د دوی اندازه دوی د ځای پرځای کولو لپاره ګران کوي. کوچني کوډ-متمرکز ماډلونه ( , ; , ; , ; , ; , ) کولی شي په کوچني او ډیر انعطاف منونکي بسته کې عالي کوډ تولید فعالیت ترلاسه کړي، مګر له تولید څخه هاخوا د کوډ په دندو کې فعالیت (د مثال په توګه، ترمیم او تشریح) د کوډ تولید فعالیت څخه وروسته پاتې کیدی شي. Li et al. 2023a Lozhkov et al. 2024 Nijkamp et al. 2023 Rozie`re et al. 2023 CodeGemma Team et al. 2024 په ډیری تصدۍ شرایطو کې، د کوډ LLM adoption کولی شي د ماډلونو فعالیت هاخوا عواملو له امله پیچل شي. د مثال په توګه، حتی خلاص ماډلونه کله ناکله د معلوماتو سرچینو او معلوماتو پروسس کولو میتودونو په اړه د شفافیت نشتوالي سره مخ کیږي چې په ماډل کې تللي، کوم چې کولی شي په مهم او تنظیم شوي شرایطو کې په ماډلونو باور له منځه یوسي. برسېره پردې، نن ورځ په خلاص LLMs کې د جواز شرایط کولی شي د ماډل کارولو لپاره د تصدۍ وړتیا محدود او پیچل کړي. دلته، موږ د ګرانیټ کوډ ماډلونه وړاندې کوو، د خورا وړ کوډ LLMs لړۍ، د تصدۍ سافټویر پراختیا مالتړ لپاره ډیزاین شوي د پراخه کوډ کارونو په اوږدو کې. ګرانیټ کوډ ماډلونه دوه اصلي ډولونه لري چې موږ یې په څلورو مختلفو اندازو (3B، 8B، 20B، او 34B) کې خپروو: د کوډ پورې تړلو کارونو لپاره د بنسټ ماډلونه؛ ګرانیټ کوډ اساس: د لارښود تعقیب ماډلونه چې د Git commitونو په ترکیب سره د انساني لارښوونو او خلاصې سرچینې مصنوعي کوډ لارښود ډیټا سیټونو سره فینټون شوي. ګرانیټ کوډ لارښود: په لړۍ کې د اساس ماډلونه د دوه پړاوونو روزنې ستراتیژۍ سره له صفر څخه روزل شوي. په پړاو 1 کې، زموږ ماډل په 116 پروګرامي ژبو کې له 3 څخه تر 4 ټریلیون ټوکنونو باندې روزل شوی، چې د پروګرامي ژبو او نحو جامع پوهه تضمینوي. په پړاو 2 کې، زموږ ماډل په 500 ملیارد ټوکنونو سره د کوډ او طبیعي ژبې ساحو څخه د لوړ کیفیت لرونکي معلوماتو په احتیاط سره ډیزاین شوي مخلوط سره نور روزل کیږي ترڅو د ماډل د استدلال وړتیا ښه کړي. موږ د روزنې دواړو پړاوونو کې د اساس ماډلونو روزنې لپاره غیر نظارت شوي ژبې ماډلینګ هدف کاروو. لارښود ماډلونه د CommitPack ( , ) د فلټر شوي ډول، طبیعي ژبې لارښود تعقیب ډیټا سیټونو (OASST ( , ), HelpSteer ( , )) او خلاصې سرچینې ریاضیاتو ډیټا سیټونو (MathInstruct ( , ) او MetaMathQA ( , ))، په شمول د مصنوعي کوډ ډیټا سیټونو چې د لارښود تعقیب او استدلال وړتیاوې ښه کولو لپاره دي، په ترکیب کې د پورته روزل شوي اساس ماډلونو په فینټون کولو سره ترلاسه کیږي. Muennighoff et al. 2023 Ko¨ pf et al. 2023 Wang et al. 2023 Yue et al. 2023 Yu et al. 2023 موږ زموږ د کوډ LLMs پراخه ارزونه په بشپړ دندو سیټ باندې ترسره کوو، په شمول HumanEvalPack ( , ), MBPP(+) ( , ; , ), RepoBench ( , ), ReCode ( , ), او نور. دا د دندو سیټ د Python څخه هاخوا ډیری مختلف ډوله کوډ کارونه لري، د مثال په توګه، د کوډ ترمیم، د کوډ تشریح، د کوډ سمبالول، د کوډ ژباړه، او نور. په ډیری لویو پروګرامي ژبو (Python, JavaScript, Java, Go, C++, Rust, etc.). Muennighoff et al. 2023 Austin et al. 2021 Liu et al. 2023a Liu et al. 2023b Wang et al. 2022 زموږ موندنې ښیې چې د خلاصې سرچینې ماډلونو په مینځ کې، ګرانیټ کوډ ماډلونه په عمومي ډول د ټولو ماډل اندازو او بنچمارکونو په اوږدو کې خورا قوي فعالیت ښیې (اکثرا د ګرانیټ په پرتله دوه چنده لویو نورو خلاصو سرچینې کوډ ماډلونو څخه ښه فعالیت کوي). د مثال په توګه، شکل (پورته) د ګرانیټ-8B-Code-Base د نورو خلاصو سرچینې اساس کوډ LLMs سره پرتله ښیې، په شمول وروستي لوړ فعالیت لرونکي عمومي موخې اساس LLMs لکه Mistral ( , ) او LLama-3 ( , ) په HumanEvalPack ( , ) باندې. پداسې حال کې چې CodeGemma او StarCoder2 د کوډ په تولید کې معقول ښه فعالیت کوي، دوی په HumanEvalPack د کوډ ترمیم او تشریح ډولونو باندې په پام وړ ضعیف فعالیت کوي. په اوسط ډول، Granite-8B-Code-Base د سبقت وړ CodeGemma-8B ماډل څخه په HumanEvalPack باندې تقریبا 12 ټکي (33.2% بمقابله 21.3%) غوره فعالیت کوي، سره له دې چې په پام وړ لږ شمیر ټوکنونو (4.5T بمقابله 7.5T ټوکنونو) روزل شوي. د اساس ماډلونو څخه هاخوا، زموږ د ګرانیټ کوډ ماډلونو لارښود ټون شوي ډولونه هم په HumanEvalPack باندې قوي فعالیت ښیې، نور خلاصې سرچینې (کوډ) لارښود ماډلونو څخه غوره فعالیت کوي، چې د طبیعي ژبې لارښوونو سره د کوډ کارونو پراخه سیټ ته ګټې ښیې (لاندې شکل وګورئ (لاندې)). 1 Jiang et al. 2023b AI@Meta 2024 Muennighoff et al. 2023 1 برسېره پردې، ځکه چې استدلال د پیچلو پوښتنو او کارونو حل کولو لپاره مهم دی، موږ د ریاضیاتو په شپږو بنچمارکونو باندې زموږ د ګرانیټ-8B-Code-Base ماډل هم ازموینه کوو، په شمول MATH ( , ), GSM8K ( , ) او د محاسبې وسیلو ته د لاسرسي سره د ستونزو حل کول، چیرې چې زموږ ګرانیټ 8B ماډل د ډیری عصري 7B یا 8B LLMs په پرتله ښه فعالیت ترلاسه کوي. د مثال په توګه، Granite-8B-Code-Base د GSM8K باندې Llama-3-8B-Base څخه ~12 ټکي او د MATH باندې ~6 ټکي غوره فعالیت کوي (لاندې جدول وګورئ ). Cobbe et al. 2021 Cobbe et al. 2021 1 د ګرانیټ کوډ ماډلونو کلیدي ګټې په شمول: : ګرانیټ کوډ ماډلونه د مختلفو کوډ پورې تړلو کارونو په اوږدو کې سیالي یا د دولت-څخه-څخه-هنر فعالیت ترلاسه کوي، په شمول د کوډ تولید، تشریح، ترمیم، سمبالول، ژباړه، او نور، د دوی د مختلفو کوډ کارونو حل کولو وړتیا ښیې؛ هر اړخیز کوډ LLM : زموږ ټول ماډلونه د IBM د AI اخلاقو اصولو پیروي سره د جواز وړ معلوماتو باندې روزل شوي او د باورليک تصدۍ کارونې لپاره د IBM د ستراتیژیکو حقوقي ټیم لخوا لارښود شوي. ټول ګرانیټ کوډ ماډلونه د اپاچی 2.0 جواز لاندې خپاره شوي. باورليک تصدۍ-درجه LLM 1 موږ زموږ د معلوماتو ټولولو، فلتر کولو، او پری پروسس کولو بشپړ پایپ لاین په برخو کې تشریح کوو . برخه د ماډل معمارۍ توضیحات تشریح کوي، د برخو 4 کې د روزنې توضیحات تعقیبوي. برخه د لارښود ټون کولو په اړه توضیحات چمتو کوي، او برخه د ګرانیټ کوډ ماډلونو د نورو خلاصو سرچینې LLMs سره پرتله کولو تجربې او پایلې تشریح کوي. 2 3 5 6 2 معلومات ټولول پدې برخه کې، موږ د معلوماتو کرال کولو او فلتر کولو (Sec. )، ډیپليشن (Sec. )، HAP/PII فلتر کول (Sec. ) پروسه تشریح کوو چې د ماډل روزنې لپاره د کوډ معلوماتو چمتو کولو لپاره کارول کیږي. موږ د ماډل د ژبې پوهه او ریاضیاتو استدلال مهارتونو ته وده ورکولو لپاره کارول شوي لوړ کیفیت لرونکي طبیعي ژبې معلوماتو عمومي کتنه هم چمتو کوو. 2.1 2.2 2.3 2.1 معلومات کرال کول او فلتر کول د پریټرینینګ کوډ معلومات د عامه شته ډیټا سیټونو لکه ګیت هب کوډ کلین , StarCoderdata , او اضافي عامه کوډ ریپوزیتوریو او د ګیت هب څخه مسلې څخه اخیستل شوي. موږ خام معلومات فلتر کوو ترڅو له 300+ څخه ډیرو ژبو څخه د 116 پروګرامي ژبو لیست وساتو، لکه څنګه چې په ضمیمه کې لیست شوي. معلوماتو ته د پروګرامي ژبو ته تفویض د فایل توسیع پراساس ترسره کیږي، په ورته ډول StarCoder ( , ). د ژبې فلتر کولو وروسته، موږ د ټیټ کیفیت کوډ فلټر کولو لپاره څلور کلیدي فلتر کولو قواعد پلي کوو ( , ): (1) د 25% څخه کم الفبایي حروف لرونکي فایلونه لرې کړئ، (2) د XSLT ژبې پرته، هغه فایلونه فلتر کړئ چیرې چې لومړیو 100 حروفونو کې "<?xml version=”" تار شتون لري، (3) د HTML فایلونو لپاره، یوازې هغه فایلونه وساتئ چیرې چې ښکاره متن د HTML کوډ 20٪ جوړوي او لږترلږه 100 حروف اوږدوالی لري، (4) د JSON او YAML فایلونو لپاره، یوازې هغه فایلونه وساتئ چې د 50 څخه تر 5000 حروفونو ترمینځ د حروف شمیره لري. موږ د کیفیت معیارونو سیټ په کارولو سره د ګیت هب مسلو هم فلتر کوو چې د اتوماتیک تولید شوي متن لرې کول، غیر انګلیسي مسلو فلتر کول، د بوټانو څخه تبصرې خارج کول، او د کیفیت نښه په توګه په خبرو اترو کې د کاروونکو شمیر کارول شامل دي. موږ د ماډل روزنې لپاره د جواز معلوماتو سره د کوډ فایل هم تشریح کوو چې د اړونده ریپوزیتوري څخه اخیستل شوي، د ګیت هب API له لارې موندل شوي او یوازې د جواز لرونکي جوازونو سره فایلونه ساتو. 2 3 A Li et al. 2023a Li et al. 2023a 2.2 دقیق او فوځي ډیپلیشن موږ په خپلو روزنیزو سیټونو کې (نږدې) ورته کوډ مینځپانګې لرونکي اسناد لرې کولو لپاره د دقیق او فوځي ډیپلیشن دواړه په شمول یوه ظالمانه ډیپلیشن ستراتیژي غوره کوو. د دقیق ډیپلیشن لپاره، موږ لومړی د سند مینځپانګې باندې SHA256 هش محاسبه کوو او ورته هش لرونکي ریکارډونه لرې کوو. دقیق ډیپلیشن وروسته، موږ د فوځي ډیپلیشن پلي کوو چې هدف یې د کوډ فایلونو لرې کول دي چې ممکن لږ توپیرونه ولري او پدې توګه معلومات لا نور بې طرفه کړي. موږ د دې لپاره دوه پړاو میتود پلي کوو: (1) د ټولو اسنادو MinHashes محاسبه کړئ او بیا د MinHash فنټ پرنټونو پراساس اسناد ګروپ کولو لپاره ځایی حساس هش (LSH) وکاروئ، (2) په ورته بالک کې د هر سند جوړه ترمینځ جیکارډ مشابهت اندازه کړئ او له یو څخه پرته نور اسناد د 0.7 مشابهت حد پراساس نقلونه په توګه تشریح کړئ. موږ دا نږدې-ډیپلیشن پروسه د روزنیزې ډیټا سیټ بډایه او تنوع ته وده ورکولو لپاره د ګیت هب مسلو په شمول په ټولو پروګرامي ژبو باندې پلي کوو. 2.3 HAP، PII، مالویر فلتر کول د ماډلونو څخه د نفرت، ناوړه، یا بد اخلاقه ژبې تولید احتمال کمولو لپاره، موږ په روزنیزو سیټونو کې د HAP مینځپانګې فلتر کولو لپاره هوښیار هڅې کوو. موږ لومړی د HAP کلیدي ټکو یو قاموس جوړوو او بیا د مینځپانګې په شمول تبصرو کې د داسې کلیدي ټکو د پیښو شمیر سره هر کوډ سند تشریح کوو. موږ هغه اسناد فلتر کوو چې د HAP حد څخه تیریږي، کوم چې د توزیع شوي تحلیل او د کوډ فایلونو لاسي تفتیش پراساس محاسبه کیږي. برسېره پردې، د محرمیت ساتلو لپاره، موږ StarCoder ( , ) تعقیب کوو او په روزنیزو سیټونو کې د شخصي پیژندنې معلوماتو (PII) څخه د خلاصون لپاره هوښیار هڅې کوو. په ځانګړې توګه، موږ د IP پتې، کیلي، بریښنالیک پتې، نومونه، د کاروونکي نومونه، او پاسورډونه چې په مینځپانګه کې موندل شوي دي کشف کولو لپاره StarPII ماډل کاروو. د PII خلاصولو مرحله PII متن د اړونده ټوکنونو NAME ، EMAIL ، KEY ، PASSWORD سره بدلوي او د IP پته د مصنوعي IP پته سره بدلوي، لکه څنګه چې په Li et al. (2023a) کې. موږ د سرچینې کوډ کې د مالویر instances پیژندلو او لرې کولو لپاره زموږ د ډیټا سیټونو سکین هم کوو. Li et al. 2023a 4 2.4 طبیعي ژبې ډیټا سیټونه د ماډل روزنې لپاره د کوډ معلوماتو راټولولو سربیره، موږ د ماډل مهارتونو ته وده ورکولو لپاره څو عامه شته لوړ کیفیت لرونکي طبیعي ژبې ډیټا سیټونه تنظیم کوو په ژبې پوهه او ریاضیاتو استدلال کې. د دې کټګورۍ لاندې استازي ډیټا سیټونو کې د ویب اسناد (Stackexchange, CommonCrawl)، رياضي ویب متن (OpenWeb-Math; ( ), StackMathQA; ( ))، اکادمیک متن (Arxiv, Wikipedia)، او لارښود ټونینګ ډیټا سیټونه (FLAN; ( ), HelpSteer ( , )). موږ دا دمخه پروسس شوي طبیعي ژبې ډیټا سیټونه نه دي ډیپلیټ کړي. Paster et al. 2023 Zhang 2024 Longpre et al. 2023 Wang et al. 2023 3 ماډل معمارۍ موږ د ټرانسفارمر ډیکوډر معمارۍ ( , ) پراساس د مختلفو اندازو د کوډ ماډلونو لړۍ روزو. د دې ماډلونو لپاره ماډل هایپر پیرامیټرونه په جدول کې ورکړل شوي. د ټولو ماډل معمارۍ لپاره، موږ د پاملرنې او MLP بلاکونو ان پټ باندې پلي شوي مخکیني منظمول ( , ) کاروو. Vaswani et al. 2017 1 Xiong et al. 2020 : د ګرانیټ-کوډ ماډل کورنۍ ترټولو کوچنی ماډل د RoPE امبیډینګ ( , ) او ملټي هیډ اټینشن ( , ) سره روزل شوی. دا ماډل د MLP لپاره د GLU ( , ) سره د سویش فعالولو فنکشن ( , ) کاروي، چې معمولا د سوګلګ په نوم هم یادیږي. د منظمولو لپاره، موږ RMSNorm ( , ) کاروو ځکه چې دا د لییرنورم ( , ) څخه ډیر اغیزمن دی. 3B ماډل د 2048 ټوکنونو د شرایطو اوږدوالی سره روزل شوی. 3B Su et al. 2023 Vaswani et al. 2017 Shazeer 2020 Ramachandran et al. 2017 Zhang & Sennrich 2019 Ba et al. 2016 : 8B ماډل د 3B ماډل په څیر ورته معمارۍ لري پرته له دې چې د ګروپ شوي-استفاده اټینشن (GQA) ( , ) کارول. د GQA کارول په دې پیمانه د ماډل فعالیت او استنتاج موثریت ترمنځ یو ښه توازن چمتو کوي. موږ 8B ماډل د 4096 ټوکنونو د شرایطو اوږدوالی سره روزو. 8B Ainslie et al. 2023 : 20B کوډ ماډل د زده شوي مطلق موقعیت امبیډینګونو سره روزل شوی. موږ د اغیزمن پایښت لرونکي استنتاج لپاره د روزنې پرمهال ملټي-کويري اټینشن ( , ) کاروو. د MLP بلاک لپاره، موږ GELU فعالولو فنکشن ( , ) کاروو. د فعالیتونو منظمولو لپاره، موږ لییرنورم ( , ) کاروو. دا ماډل د 8192 ټوکنونو د شرایطو اوږدوالی سره روزل شوی. 20B Shazeer 2019 Hendrycks & Gimpel 2023 Ba et al. 2016 : د 34B ماډل روزلو لپاره، موږ د 20B ماډل د ژوروالي لوړولو لپاره د لخوا د طریقې پیروي کوو. په ځانګړې توګه، موږ لومړی د 52 طبقو سره 20B کوډ ماډل کاپي کوو او بیا د اصلي ماډل څخه وروستي 8 طبقې او د دې نقل څخه لومړۍ 8 طبقې لرې کوو ترڅو دوه ماډلونه جوړ کړو. 34B Kim et al. په پای کې، موږ د ګرانیټ-34B-Code ماډل د 88 طبقو سره د دواړو ماډلونو سره یوځای کوو (د تشریح لپاره لاندې انځور وګورئ ). د ژوروالي لوړولو وروسته، موږ ګورو چې د 20B ماډل په پرتله د فعالیت کمښت خورا لږ دی د دې برعکس چې د لخوا لیدل کیږي. دا فعالیت د لوړ شوي 34B ماډل پریټرینینګ په دوام سره ډیر ژر بیرته ترلاسه کیږي. د 20B په څیر، موږ د پریټرینینګ پرمهال د 8192 ټوکنونو شرایط کاروو. 2 Kim et al. 4 پریټرینینګ پدې برخه کې، موږ د دوه پړاوونو روزنې (Sec. )، د روزنې اهداف (Sec. )، اصلاح (Sec. ) او زیربنا (Sec. ) په اړه توضیحات چمتو کوو چې په ماډلونو کې د پریټرینینګ لپاره کارول کیږي. 4.1 4.2 4.3 4.4 4.1 دوه پړاو روزنه ګرانیټ کوډ ماډلونه د کوډ معلوماتو او کوډ پورې تړلو طبیعي ژبې ډ