লেখক:
(1) মিংজি লিউ, NVIDIA {সমান অবদান};
(2) টিওডোর-ডুমিত্রু এনি, এনভিআইডিএ {সমান অবদান};
(3) রবার্ট কিরবি, NVIDIA {সমান অবদান};
(4) ক্রিস চেং, NVIDIA {সমান অবদান};
(5) নাথানিয়েল পিঙ্কনি, NVIDIA {সমান অবদান};
(6) Rongjian Liang, NVIDIA {সমান অবদান};
(7) জোনাহ আলবেন, এনভিআইডিএ;
(8) হিমাংশু আনন্দ, NVIDIA;
(9) সন্মিত্র ব্যানার্জী, NVIDIA;
(10) Ismet Bayraktaroglu, NVIDIA;
(11) বনিতা ভাস্করন, NVIDIA;
(12) Bryan Catanzaro, NVIDIA;
(13) অর্জুন চৌধুরী, NVIDIA;
(14) শ্যারন ক্লে, NVIDIA;
(15) বিল ডালি, NVIDIA;
(16) লরা ড্যাং, NVIDIA;
(17) পরীক্ষিত দেশপান্ডে, NVIDIA;
(18) সিদ্ধান্ত ধোধি, NVIDIA;
(19) সমীর হালেপেট, NVIDIA;
(20) এরিক হিল, NVIDIA;
(21) জিয়াং হু, এনভিআইডিএ;
(22) সুমিত জৈন, NVIDIA;
(23) ব্রুসেক খাইলানি, NVIDIA;
(24) জর্জ কোকাই, NVIDIA;
(25) কিশোর কুনাল, NVIDIA;
(26) Xiaowei Li, NVIDIA;
(27) চার্লি লিন্ড, NVIDIA;
(28) হাও লিউ, NVIDIA;
(29) স্টুয়ার্ট ওবারম্যান, NVIDIA;
(30) সুজিত ওমর, NVIDIA;
(31) শ্রীধর প্রাট্টি, NVIDIA;
(23) জোনাথন রাইমান, এনভিআইডিএ;
(33) অম্বর সরকার, NVIDIA;
(34) Zhengjiang Shao, NVIDIA;
(35) হানফেই সান, এনভিআইডিএ;
(36) প্রতীক পি সুথার, NVIDIA;
(37) বরুণ তেজ, NVIDIA;
(38) ওয়াকার টার্নার, NVIDIA;
(39) কাইজে জু, NVIDIA;
(40) Haoxing Ren, NVIDIA.
সংগ্রহটি শেল এবং পাইথন স্ক্রিপ্টের একটি সেটের সাথে বাস্তবায়িত হয়েছিল, প্রাসঙ্গিক ডিজাইন ডেটা এবং ডকুমেন্টেশন সনাক্ত করার জন্য ডিজাইন করা হয়েছে, প্রযোজ্য হলে সেগুলিকে প্লেইন টেক্সটে রূপান্তর করতে, বেসিক কোয়ালিটি মেট্রিক্স ব্যবহার করে ফিল্টার করতে, সুনির্দিষ্ট ফাইল ডিডুপ্লিকেশনের জন্য একটি চেকসাম গণনা করতে এবং স্টোরেজের জন্য সংকুচিত করতে। সংগ্রহের প্রবাহে অফ-দ্য-শেল্ফ LLM-নির্দিষ্ট স্ক্র্যাপিং এবং সংগ্রহের স্ক্রিপ্টগুলি ব্যবহার করা হয়নি, কারণ আমরা অভ্যন্তরীণ ডেটা উত্সগুলির (নেটওয়ার্কযুক্ত ফাইল সিস্টেম এবং অভ্যন্তরীণ ওয়েব অ্যাপ্লিকেশন উভয়ই) ইন-সিটু ডেটা সংগ্রহের মাধ্যমে স্থানের প্রয়োজনীয়তা হ্রাস করার লক্ষ্য রেখেছিলাম। ফাইল সিস্টেম-ভিত্তিক সংগ্রহের জন্য, স্থানীয়ভাবে কাঁচা ডেটার অতিরিক্ত সেট সংরক্ষণের পরিবর্তে গুণমানের জন্য ফিল্টার করার সময় ডেটা যথাস্থানে রাখা হয়েছিল।
নকশা এবং যাচাইকরণের ডেটা সংগ্রহে ভেরিলগ এবং ভিএইচডিএল (আরটিএল এবং নেটলিস্ট), সি++, স্পাইস, টিসিএল, বিভিন্ন স্ক্রিপ্টিং ভাষা এবং বিল্ড-সম্পর্কিত কনফিগারেশন ফাইল সহ বিভিন্ন উৎস ফাইল রয়েছে। অভ্যন্তরীণ ওয়েব পরিষেবাগুলি থেকে ডেটা REST API কল এবং প্রচলিত ক্রলিং উভয়ের মাধ্যমেই সংগ্রহ করা হয়েছিল, এইচটিএমএল ফর্ম্যাটিং ওপেন-সোর্স বিউটিফুলসুপ [৫২] পাইথন লাইব্রেরি ব্যবহার করে অপসারণ করা হয়েছে উভয় ক্ষেত্রেই কোডিং উদাহরণের অসাবধানতাবশত অপসারণ কমানোর জন্য, আরও বয়লার প্রবর্তনের খরচে। প্লেট নেভিগেশন বার এবং অন্যান্য HTML পৃষ্ঠা উপাদান। আমাদের ডেটা সংগ্রহের প্রবাহ .docx, .pptx, এবং .pdf সহ প্রচলিত ডকুমেন্টেশন ফর্ম্যাটগুলিকে সমর্থন করে, সহজলভ্য পাইথন রূপান্তর লাইব্রেরি এবং ওপেন-সোর্স টুল ব্যবহার করে।
যেহেতু বেশিরভাগ অভ্যন্তরীণ ডেটা উচ্চ মানের বলে বিশ্বাস করা হয়, ন্যূনতম ফিল্টারিং প্রয়োগ করা হয়েছিল: লাইন গণনা ফিল্টারিং নিশ্চিত করতে ব্যবহার করা হয়েছিল যে অত্যধিক বড় বা ছোট ফাইলগুলি বাদ দেওয়া হয়েছে এবং ফাইলগুলিকে ম্যানুয়ালি লিখিত বনাম টুল-জেনারেটেডের বিস্তৃত বিভাগে সাজানো হয়েছে।
এই বিভাগে আমরা আমাদের ডোমেন অভিযোজিত পূর্বপ্রশিক্ষিত মডেলের বিস্তারিত ফলাফল উপস্থাপন করি। আমরা ডোমেন অভিযোজিত প্রাক-প্রশিক্ষণের উপর আমাদের বিলুপ্তির পরীক্ষাগুলিও বিশদ করি।
DAPT হাইপারপ্যারামিটার: বিশদ বিবরণ সারণি VI এ উপস্থাপিত হয়েছে।
অটো ইভাল ফলাফল: আমরা সারণি VII এবং টেবিল VIII-এ স্বয়ংক্রিয় মূল্যায়ন বেঞ্চমার্কের উপর বিস্তারিত ফলাফল উপস্থাপন করি। সরলতার জন্য, বিভাগটির অবশিষ্টাংশে আমরা অ্যাবলেশন অধ্যয়নের জন্য সমষ্টিগত বেঞ্চমার্ক ফলাফল উপস্থাপন করি:
• চিপ : আমরা টেবিল III (5-শট) থেকে ইন-ডোমেন ডিজাইন, স্ক্রিপ্টিং, বাগ এবং সার্কিট বেঞ্চমার্কের গড় ফলাফল রিপোর্ট করি।
• MMLU: আমরা MMLU (5- শট) [22] বিভিন্ন বিষয়ের উপর একটি জনপ্রিয় সমষ্টিগত বেঞ্চমার্কের সামগ্রিক ফলাফলের প্রতিবেদন করি।
• যুক্তি : আমরা সাধারণ জ্ঞানের যুক্তিতে (0-শট) জনপ্রিয় পাবলিক বেঞ্চমার্কের গড় ফলাফলের রিপোর্ট করি, যার মধ্যে রয়েছে Winogrande [53], hellaswag [54], ARC-ইজি [55], এবং RACE-High [56]।
• কোড : আমরা হিউম্যানইভাল [২৩], ভেরিলগইভাল-মেশিন [১২], এবং ভেরিলগইভাল-হিউম্যান [১২] সহ লোভনীয় ডিকোডিং সহ কোডিং বেঞ্চমার্কের গড় পাস-রেট রিপোর্ট করি।
টোকেনাইজার অগমেন্টেশন: আমরা বিভাগ III-A-এ বর্ণিত মূল LLaMA2 টোকেনাইজার এবং অগমেন্টেড টোকেনাইজার ব্যবহার করে DAPT-এর সাথে পরীক্ষা করেছি। চিত্র 11 মূল অপরিবর্তিত টোকেনাইজার সহ ChipNeMo-এর জন্য মসৃণ প্রশিক্ষণের ক্ষতি চিত্রিত করে। চিত্র 2-এর সাথে তুলনা করলে, আমরা লক্ষ্য করি যে একটি বর্ধিত টোকেনাইজারের প্রাথমিককরণের পরে বৃহত্তর প্রশিক্ষণের ক্ষতি হয়, কারণ যোগ করা টোকেনগুলি ফাউন্ডেশন মডেল প্রাক-প্রশিক্ষণের সময় কখনও দেখা যায় না। DAPT-এর জন্য 1 যুগে অনুরূপ প্রশিক্ষণের ক্ষতি সাধিত হয়।
সারণি IX সমষ্টিগত স্বয়ংক্রিয় মূল্যায়ন বেঞ্চমার্ক ফলাফল উপস্থাপন করে। আমরা লক্ষ্য করি যে সতর্কতামূলক টোকেনাইজার বৃদ্ধি এবং ওজন প্রাথমিককরণ সাধারণ একাডেমিক বেঞ্চমার্কগুলিতে মডেলের কার্যকারিতাকে সামান্য প্রভাবিত করে। DAPT ভেরিলগ কোডিং সহ যেকোন টোকেনাইজারের সাথে ডোমেন বেঞ্চমার্কগুলিকে উল্লেখযোগ্যভাবে উন্নত করেছে (হিউম্যানইভালে কোনও বড় পার্থক্য নেই)। আমরা উপসংহারে পৌঁছেছি যে টোকেনাইজারকে বৃদ্ধি করা উন্নত টোকেনাইজার এবং প্রশিক্ষণ দক্ষতার সুবিধার সাথে আসে যার মডেল সাধারণ ভাষা এবং ডোমেনের ক্ষমতার কোন অবনতি হয় না।
পাবলিক ডেটাসেট মিক্স-ইন: বিভাগ II-A-তে প্রবর্তিত হিসাবে আমরা DAPT-তে পাবলিক ডেটা অন্তর্ভুক্ত করেছি, ফাউন্ডেশন মডেল প্রাক-প্রশিক্ষণের জন্য সাধারণভাবে ব্যবহৃত পাবলিক ডেটাসেট থেকে নমুনা। আমরা প্রাথমিকভাবে আশা করেছিলাম যে DAPT-তে উইকিপিডিয়ার মতো পাবলিক ডেটা মেশানো টোকেনাইজার বৃদ্ধির দ্বারা আনা "সঠিক" ব্যাঘাতকে সাহায্য করতে পারে এবং সাধারণ ভাষাগত ক্ষমতা উন্নত করতে পারে।
মডেলের আমরা শুধুমাত্র ডোমেন ডেটা ব্যবহার করে টোকেনাইজার অগমেন্টেশন সহ DAPT-এর আরেকটি রাউন্ড পরিচালনা করেছি, প্রায় 1.1 যুগের ডেটার সমতুল্য একই সংখ্যক ধাপের প্রশিক্ষণ। আমরা দেখেছি যে পাবলিক ডেটা মিক্স-ইন ফলাফলের কিছুটা উন্নতি করে। আমরা টেবিল X এ বিস্তারিত ফলাফল উপস্থাপন করি।
চিত্র 12 পাবলিক ডেটাসেট মিক্স-ইন সহ অগমেন্টেড টোকেনাইজার সহ ChipNeMo-7B-এর প্রশিক্ষণের ক্ষতি দেখায়। আমরা 13B মূল DAPT হাইপারপ্যারামিটারের চেয়ে 7B মডেলের জন্য চূড়ান্ত প্রশিক্ষণের ক্ষতির সাথে প্রাথমিক প্রশিক্ষণের ধাপে প্রশিক্ষণের ক্ষতির বড় বৃদ্ধি লক্ষ্য করেছি। যাইহোক, আমরা ইন-ডোমেন চিপ ডিজাইন সহ সারণি XII-তে দেখানো প্রাকৃতিক ভাষার বেঞ্চমার্ক জুড়ে যথেষ্ট অবনতি লক্ষ্য করি। কোডিং ক্ষমতা [32] এর ফলাফলের সাথে সামঞ্জস্যপূর্ণ হিসাবে উন্নত হয়েছে।
আমরা হাইলাইট করি যে আমাদের কেস [32] এর থেকে আলাদা। যদিও আমরা পূর্ব-প্রশিক্ষিত চেকপয়েন্ট থেকে শুরু করে "অবিচ্ছিন্ন প্রাক-প্রশিক্ষণ" পরিচালনা করি, আমরা পছন্দ করি যে মডেলটি সাধারণ ক্ষমতার উপর উচ্চ ডিগ্রী পারফরম্যান্স বজায় রাখুক,
ডোমেন ডেটাসেট তথ্য এবং জ্ঞান (মডেল প্রিট্রেইনিং-এ অদেখা) মডেল ওজনে পাতানো। বিপরীতে, [৩২] সর্বজনীনভাবে উপলব্ধ কোড ডেটা ব্যবহার করুন যেগুলিতে প্রধানত প্রাকৃতিক ভাষা উপাদানগুলির অভাব রয়েছে, কোডিং-সম্পর্কিত কাজগুলিতে তাদের প্রাথমিক ফোকাসকে জোর দেয়। আমরা অনুমান করি যে একটি ছোট শেখার হার ডোমেন অভিযোজনের জন্য দ্বৈত ভূমিকা পালন করে, DAPT-এর মাধ্যমে ডোমেন জ্ঞানের পাতনকে সহজতর করে এমন একটি ভারসাম্য বজায় রাখে যা বেস মডেল থেকে খুব বেশি দূরে না যায়, এইভাবে সাধারণ প্রাকৃতিক ভাষা ক্ষমতা সংরক্ষণ করে এবং উল্লেখযোগ্যভাবে পারফরম্যান্সের উন্নতি করে। -ডোমেন কাজ
প্যারামিটার এফিসিয়েন্ট ফাইন-টিউনিং (PEFT): প্যারামিটার দক্ষ ফাইন-টিউনিং পূর্ব-প্রশিক্ষিত মডেলের ওজন হিমায়িত করে এবং ডাউনস্ট্রিম কাজগুলির দক্ষ সূক্ষ্ম-টিউনিংয়ের জন্য ছোট অ্যাডাপ্টার মডেলগুলিতে প্রশিক্ষণযোগ্য প্যারামিটারগুলিকে ইনজেকশন করে। আমরা নিম্ন-র্যাঙ্ক অ্যাডাপ্টেশন (LoRA) ব্যবহার করে DAPT-এ PEFT-এর ব্যবহার অন্বেষণ করি [16]। যেহেতু আমাদের ট্রান্সফরমার লেয়ার ইমপ্লিমেন্টেশন KQV কে একটি একক প্রজেকশনে ফিউজ করে, তাই আমরা সম্মিলিত ফ্যাশনে প্রতিটি সেলফ অ্যাটেনশন লেয়ারের জন্য একটি একক নিম্ন-র্যাঙ্ক প্রজেকশনের জন্য LoRA অ্যাডাপ্টার যোগ করি। আমরা মূল LLaMA2 টোকেনাইজার সহ LLaMA2-13B মডেলগুলিতে পরীক্ষা করি, টেবিল VI-তে একই DAPT প্রশিক্ষণ সেটআপগুলি ব্যবহার করে। আমরা দুটি পরীক্ষা চালিয়েছি, যথাক্রমে 26.4 মিলিয়ন (ছোট) এবং 211.2 মিলিয়ন (বড়) এর অতিরিক্ত প্রশিক্ষণযোগ্য পরামিতি প্রবর্তন করেছি।
চিত্র 13 LoRA মডেলের প্রশিক্ষণ ক্ষতির বক্ররেখা দেখায় এবং সম্পূর্ণ প্যারামিটার প্রশিক্ষণের সাথে তুলনা করে। উভয় LoRA মডেলের জন্য, ক্ষতি দ্রুত একত্রিত হয় এবং একটি নির্দিষ্ট বিন্দু ছাড়িয়ে কমতে থামে। সারণী XIII LoRA মডেলের মূল্যায়ন ফলাফল রিপোর্ট করে। উভয় LoRA মডেলই ইন-ডোমেন চিপ ডিজাইনের কাজগুলিতে সম্পূর্ণ প্যারামিটার প্রশিক্ষণ উল্লেখযোগ্যভাবে কম করে। LoRA মডেলগুলি তাদের ননডিএপিটি প্রতিপক্ষের তুলনায় চিপ ডিজাইনের কাজগুলিতে উন্নতি করে, বড় মডেলগুলি কিছুটা ভাল (কিন্তু উল্লেখযোগ্য নয়) ফলাফল প্রদর্শন করে।
ম্যানুয়ালি প্রশিক্ষণের নমুনা তৈরি করা খুবই পরিশ্রমের কাজ, তাই আমরা সেগুলিকে স্বয়ংক্রিয়ভাবে তৈরি করার জন্য একটি প্রক্রিয়া বাস্তবায়ন করতে বেছে নিয়েছি। যেহেতু আমরা আমাদের মডেলকে সুন্দর করার জন্য বৈপরীত্যমূলক শিক্ষা ব্যবহার করছি, তাই প্রতিটি নমুনার জন্য ইতিবাচক প্যাসেজ এবং নেতিবাচক উভয় প্যাসেজের একটি সেট প্রয়োজন, বিশেষ করে নির্ভুলতা সর্বাধিক করার জন্য কঠিন নেতিবাচক।
1) ডেটাসেট স্যাম্পলিং পদ্ধতি: চিত্র 14 একটি নমুনা তৈরি করার জন্য নেওয়া পদক্ষেপগুলি বর্ণনা করে:
• ধাপ 1: এলোমেলোভাবে ডকুমেন্ট কর্পাস থেকে একটি প্যাসেজ নির্বাচন করুন
• ধাপ 2: প্যাসেজ থেকে একটি বৈধ প্রশ্ন তৈরি করতে একটি ভাষা মডেল (ভিকুনা) ব্যবহার করুন
• ধাপ 3: কোয়েরির জন্য ডকুমেন্ট কর্পাস থেকে টপ-এন প্যাসেজগুলি আনার জন্য একটি প্রাক-বিদ্যমান পুনরুদ্ধার মডেল (বাক্য ট্রান্সফরমার) ব্যবহার করুন যেখানে প্রতিটি প্যাসেজ সম্ভাব্য হার্ড-নেগেটিভ
• ধাপ 4: এটা সম্ভব যে কিছু আনা প্যাসেজ আসলে ইতিবাচক, তাই ইতিবাচক প্যাসেজগুলি ফিল্টার করতে একই ভাষা মডেল ব্যবহার করুন
• ধাপ 5: এই ফিল্টারিং প্রক্রিয়ার পরে যদি পর্যাপ্ত নেতিবাচক প্যাসেজ না থাকে, তাহলে কর্পাস থেকে এলোমেলো প্যাসেজগুলির সাথে পরিপূরক করুন
আমাদের প্রাথমিক গবেষণার জন্য আমরা ভিকুনা [৪] এবং সেন্টেন্স ট্রান্সফরমার [৩৩] ব্যবহার করেছি; যাইহোক, বাণিজ্যিকভাবে টেকসই একটি পুনরুদ্ধার মডেল তৈরি করতে এগুলিকে যথাক্রমে LLaMA2 [5] এবং BM25 [42] দিয়ে প্রতিস্থাপন করা যেতে পারে।
2) হিট মানের তুলনা: সব হিট সমান তৈরি হয় না। নীচের বিশেষ উদাহরণের প্যাসেজটি স্পষ্টভাবে এবং সম্পূর্ণভাবে এর প্রশ্নের উত্তর দেয়। বিল্ড উদাহরণে উত্তরটি রয়েছে; যাইহোক, প্রশ্নের উত্তর দিতে আরও প্রসঙ্গ প্রয়োজন।
বিশেষ উদাহরণ: হিট প্যাসেজ স্পষ্টভাবে প্রশ্নের উত্তর দেয়।
উদাহরণ তৈরি করুন: প্রশ্নের সম্পূর্ণ উত্তর দিতে অতিরিক্ত তথ্য প্রয়োজন। যেমন: DL কি? আমরা কিভাবে জানি আর্চ-বিল্ড-হটসিট-এক্সএক্সএক্স একটি ডিএল?
D. অতিরিক্ত মূল্যায়ন ডেটা
সারণী XIV প্রকৌশল সহকারী চ্যাটবট অ্যাপ্লিকেশনে সমস্ত মডেলের মূল্যায়ন ডেটা দেখায়।
টেবিল XV EDA স্ক্রিপ্ট জেনারেশন টাস্কে সমস্ত মডেলের জন্য আমাদের মূল্যায়ন ফলাফল দেখায়।
সারণী XVI বাগ সংক্ষিপ্তকরণ এবং বিশ্লেষণ টাস্কের সমস্ত মডেলের জন্য আমাদের মূল্যায়ন ফলাফল দেখায়।
1) প্রকৌশল সহকারী চ্যাটবট:
2) EDA স্ক্রিপ্ট জেনারেশন: কিছু ফাংশনের নাম এবং কমান্ড অস্পষ্ট।
3) বাগ সারাংশ এবং বিশ্লেষণ: ব্যবহারকারীর নাম, চিপের নাম এবং পথগুলি অস্পষ্ট।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।