paint-brush
ChipNeMo: চিপ ডিজাইনের জন্য ডোমেন-অ্যাডাপ্টেড এলএলএম: মূল্যায়নদ্বারা@textmodels
117 পড়া

ChipNeMo: চিপ ডিজাইনের জন্য ডোমেন-অ্যাডাপ্টেড এলএলএম: মূল্যায়ন

দ্বারা Writings, Papers and Blogs on Text Models9m2024/06/06
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

গবেষকরা ChipNeMo উপস্থাপন করেন, চিপ ডিজাইনের জন্য LLM উন্নত করতে ডোমেন অভিযোজন ব্যবহার করে, আরও ভাল পারফরম্যান্সের সাথে 5x পর্যন্ত মডেলের আকার হ্রাস করা।
featured image - ChipNeMo: চিপ ডিজাইনের জন্য ডোমেন-অ্যাডাপ্টেড এলএলএম: মূল্যায়ন
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

লেখক:

(1) মিংজি লিউ, NVIDIA {সমান অবদান};

(2) টিওডোর-ডুমিত্রু এনি, এনভিআইডিএ {সমান অবদান};

(3) রবার্ট কিরবি, NVIDIA {সমান অবদান};

(4) ক্রিস চেং, NVIDIA {সমান অবদান};

(5) নাথানিয়েল পিঙ্কনি, NVIDIA {সমান অবদান};

(6) Rongjian Liang, NVIDIA {সমান অবদান};

(7) জোনাহ আলবেন, এনভিআইডিএ;

(8) হিমাংশু আনন্দ, NVIDIA;

(9) সন্মিত্র ব্যানার্জী, NVIDIA;

(10) Ismet Bayraktaroglu, NVIDIA;

(11) বনিতা ভাস্করন, NVIDIA;

(12) Bryan Catanzaro, NVIDIA;

(13) অর্জুন চৌধুরী, NVIDIA;

(14) শ্যারন ক্লে, NVIDIA;

(15) বিল ডালি, NVIDIA;

(16) লরা ড্যাং, NVIDIA;

(17) পরীক্ষিত দেশপান্ডে, NVIDIA;

(18) সিদ্ধান্ত ধোধি, NVIDIA;

(19) সমীর হালেপেট, NVIDIA;

(20) এরিক হিল, NVIDIA;

(21) জিয়াং হু, এনভিআইডিএ;

(22) সুমিত জৈন, NVIDIA;

(23) ব্রুসেক খাইলানি, NVIDIA;

(24) জর্জ কোকাই, NVIDIA;

(25) কিশোর কুনাল, NVIDIA;

(26) Xiaowei Li, NVIDIA;

(27) চার্লি লিন্ড, NVIDIA;

(28) হাও লিউ, NVIDIA;

(29) স্টুয়ার্ট ওবারম্যান, NVIDIA;

(30) সুজিত ওমর, NVIDIA;

(31) শ্রীধর প্রাট্টি, NVIDIA;

(23) জোনাথন রাইমান, এনভিআইডিএ;

(33) অম্বর সরকার, NVIDIA;

(34) Zhengjiang Shao, NVIDIA;

(35) হানফেই সান, এনভিআইডিএ;

(36) প্রতীক পি সুথার, NVIDIA;

(37) বরুণ তেজ, NVIDIA;

(38) ওয়াকার টার্নার, NVIDIA;

(39) কাইজে জু, NVIDIA;

(40) Haoxing Ren, NVIDIA.

লিঙ্কের টেবিল

V. মূল্যায়ন

আমরা এই বিভাগে আমাদের প্রশিক্ষণ পদ্ধতি এবং অ্যাপ্লিকেশন কর্মক্ষমতা মূল্যায়ন. আমরা প্রশিক্ষণ পদ্ধতির মূল্যায়নে 7B এবং 13B মডেল উভয়ই অধ্যয়ন করি এবং অ্যাপ্লিকেশন কর্মক্ষমতা মূল্যায়নে শুধুমাত্র 13B মডেল অধ্যয়ন করি। তুলনা করার জন্য, আমরা দুটি বেসলাইন চ্যাট মডেলের মূল্যায়ন করি: LLaMA2-13B-Chat* এবং LLaMA2-70B-Chat। LLaMA2-13B-Chat* হল ফাউন্ডেশন LLaMA2 13B বেস মডেল যা আমাদের সাধারণ উদ্দেশ্যের চ্যাট নির্দেশনা ডেটাসেটের সাথে সূক্ষ্মভাবে তৈরি করা হয়েছে, যা মানুষের প্রতিক্রিয়া (RLHF) থেকে রিইনফোর্সমেন্ট লার্নিং সহ প্রশিক্ষিত মূল LLaMA2-13B-চ্যাট মডেল থেকে আলাদা। আমরা একই মডেল সারিবদ্ধ পদ্ধতির অধীনে ডোমেন অভিযোজিত মডেল এবং বেস মডেলগুলির ন্যায্য তুলনা করার জন্য এটি বেছে নিয়েছি। LLaMA2-70B-Chat হল সর্বজনীনভাবে প্রকাশিত LLaMA2-চ্যাট মডেল যা RLHF এর সাথে প্রশিক্ষিত, যেটিকে অত্যাধুনিক (SOTA) ওপেন-সোর্স চ্যাট মডেল হিসাবে বিবেচনা করা হয়।


উঃ টোকেনাইজার


আমরা LLaMA2 টোকেনাইজারকে (32K টোকেন সমন্বিত) চিপ ডিজাইন ডেটাসেটের সাথে পূর্বে বর্ণিত চার ধাপের প্রক্রিয়া ব্যবহার করে মানিয়ে নিই। LLaMA2 টোকেনাইজারে প্রায় 9K নতুন টোকেন যোগ করা হয়েছে। অভিযোজিত টোকেনাইজারগুলি চিত্র 5-এ দেখানো বিভিন্ন চিপ ডিজাইন ডেটাসেটগুলিতে টোকেনাইজেশন দক্ষতা 1.6% থেকে 3.3% পর্যন্ত উন্নত করতে পারে।


চিত্র 5: ChipNeMo টোকেনাইজার অগমেন্টেশন উন্নতি।


পাবলিক ডেটাতে টোকেনাইজারের দক্ষতার পরিবর্তন। গুরুত্বপূর্ণভাবে, আমরা DAPT-এর আগেও কাস্টম অগমেন্টেড টোকেনাইজার ব্যবহার করার সময় পাবলিক বেঞ্চমার্কে LLM-এর নির্ভুলতার উল্লেখযোগ্য পতন লক্ষ্য করিনি।


B. ডোমেন অ্যাডাপটিভ প্রিট্রেনিং


চিত্র 6 চিপ ডিজাইন ডোমেন এবং ওপেন ডোমেন একাডেমিক বেঞ্চমার্কের জন্য অটোইভাল বেঞ্চমার্কে ChipNeMo মডেলের ফলাফল উপস্থাপন করে। আমাদের গবেষণার ফলাফলগুলি নিম্নরূপ সংক্ষিপ্ত করা যেতে পারে:


  1. DAPT মডেলগুলি ওপেন-ডোমেন একাডেমিক বেঞ্চমার্কে নির্ভুলতার ক্ষেত্রে সামান্য অবনতি প্রদর্শন করে।


  2. DAPT ডোমেনের মধ্যেই কাজগুলিতে যথেষ্ট ইতিবাচক প্রভাব ফেলে। এই প্রভাবটি অভ্যন্তরীণ নকশা জ্ঞানের পাশাপাশি সাধারণ সার্কিট নকশা জ্ঞানের উল্লেখযোগ্য উন্নতিতে প্রকাশিত হয়।


  3. বৃহত্তর এবং আরও বেশি পারফরম্যান্ট ফাউন্ডেশনাল মডেলের ব্যবহার ডোমেন-নির্দিষ্ট কাজগুলিতে আরও ভাল শূন্য-শট ফলাফল দেয়। অধিকন্তু, উচ্চতর বেস মডেলের কর্মসংস্থানের ফলে DAPT-পরবর্তী ডোমেন মডেলগুলি উন্নত হয়, যা ইন-ডোমেন কাজগুলিতে উচ্চতর কর্মক্ষমতার দিকে পরিচালিত করে।


  4. ইন-ডোমেন টাস্কগুলির সাথে DAPT-কে দায়ী করা উন্নতিগুলি মডেল আকারের সাথে একটি ইতিবাচক সম্পর্ক প্রদর্শন করে, বড় মডেলগুলি DAPT-পরবর্তী ডোমেন-নির্দিষ্ট টাস্ক পারফরম্যান্সে আরও সুস্পষ্ট বর্ধন প্রদর্শন করে।


C. প্রশিক্ষণ বিবর্ধন অধ্যয়ন


আমাদের অ্যাবলেশন অধ্যয়নের জন্য, আমরা ডোমেন অভিযোজিত প্রাক-প্রশিক্ষণের একাধিক রাউন্ড পরিচালনা করেছি। আমরা সংক্ষিপ্ত সারসংক্ষেপ প্রদান করি এবং বিস্তারিত জানার জন্য পরিশিষ্ট B দেখুন।


বর্ধিত টোকেনাইজার এবং আসল টোকেনাইজারের সাথে প্রশিক্ষণের মধ্যে পার্থক্যগুলি নগণ্য বলে মনে হয়েছিল। আমরা এইভাবে প্রাথমিকভাবে একাডেমিক বেঞ্চমার্কের নির্ভুলতা হ্রাসকে ডোমেন ডেটার জন্য দায়ী করি। অধিকন্তু, পাবলিক ডেটাসেট অপসারণ শুধুমাত্র একাডেমিক বেঞ্চমার্ক সহ বেশিরভাগ কাজগুলিতে সামান্য পিছিয়ে গেছে, ভেরিলগ কোডিং বাদে, যেখানে আমরা একটি লক্ষণীয় পার্থক্য লক্ষ্য করেছি। এটি পরামর্শ দেয় যে গিটহাব ভেরিলগ ডেটার অন্তর্ভুক্তি বর্ধিত ভেরিলগ কোডিং ক্ষমতাগুলিতে অবদান রেখেছে, বিশেষ করে যখন এই ডোমেনে বেস ফাউন্ডেশন মডেলগুলির পর্যাপ্ত ডেটার অভাব ছিল।


আমাদের অন্বেষণে, আমরা CodeLLaMA [32] এর মতো একটি বৃহত্তর শিক্ষার হার নিয়োগের সাথে পরীক্ষা করেছি। আমরা প্রাথমিক প্রশিক্ষণের ধাপে প্রশিক্ষণের ক্ষতির বড় স্পাইক লক্ষ্য করেছি। যদিও এই পদ্ধতিটি শেষ পর্যন্ত উন্নত প্রশিক্ষণ এবং বৈধতা ক্ষতির দিকে পরিচালিত করেছিল, আমরা কোডিং ব্যতীত সমস্ত ডোমেন-নির্দিষ্ট এবং একাডেমিক বেঞ্চমার্কগুলিতে উল্লেখযোগ্য অবনতি লক্ষ্য করেছি। আমরা অনুমান করি যে একটি ছোট শিক্ষার হার একটি দ্বৈত ভূমিকা পালন করে, DAPT এর মাধ্যমে ডোমেন জ্ঞানের পাতনকে সহজতর করে এমন একটি ভারসাম্য বজায় রাখে যা বেস মডেল থেকে খুব বেশি দূরে নয়, এইভাবে সাধারণ প্রাকৃতিক ভাষা ক্ষমতা সংরক্ষণ করে।


আমরা ডোমেন-অ্যাডাপ্টিভ প্রিট্রেনিং (DAPT)-এর প্রেক্ষাপটে প্যারামিটার এফিশিয়েন্ট ফাইন-টিউনিং (PEFT) এর প্রয়োগও অন্বেষণ করেছি। এই সাধনায়, আমরা LoRA অ্যাডাপ্টারগুলি [16] অন্তর্ভুক্ত করার সাথে জড়িত দুটি পরীক্ষা পরিচালনা করেছি, যথাক্রমে 26.4 মিলিয়ন (ছোট) এবং 211.2 মিলিয়ন (বড়) এর অতিরিক্ত পরামিতি প্রবর্তন করেছি। উভয় ক্ষেত্রেই, পূর্ণ-প্যারামিটার DAPT পদ্ধতির সাথে তুলনা করার সময় আমাদের অনুসন্ধানগুলি ইন-ডোমেন কাজগুলিতে একটি উল্লেখযোগ্য নির্ভুলতার ব্যবধান প্রকাশ করেছে। অধিকন্তু, ছোট এবং বড় PEFT মডেলগুলির মধ্যে ফলাফলের বিপরীতে, আমরা ইন-ডোমেন টাস্ক নির্ভুলতার উপর একটি প্রান্তিক বর্ধন লক্ষ্য করেছি, বড় মডেলগুলি সামান্য উন্নতি প্রদর্শন করে।


D. প্রশিক্ষণ খরচ


সমস্ত মডেল 128 A100 GPU ব্যবহার করে প্রশিক্ষণ নিয়েছে। আমরা সারণি IV-তে চিত্রিত হিসাবে ChipNeMo-এর জন্য ডোমেন অভিযোজিত প্রাক-প্রশিক্ষণের সাথে সম্পর্কিত খরচগুলি অনুমান করি। এটি লক্ষণীয় যে DAPT প্রথম থেকে একটি ভিত্তি মডেলের পূর্বপ্রশিক্ষণের সামগ্রিক ব্যয়ের 1.5% এর কম।


টেবিল IV: GPU ঘন্টায় LLaMA2 মডেলের প্রশিক্ষণের খরচ। প্রাক-প্রশিক্ষণ খরচ [5] থেকে।


E. RAG এবং ইঞ্জিনিয়ারিং সহকারী চ্যাটবট


আমরা ডিজাইন চ্যাট সহায়তার কর্মক্ষমতা মূল্যায়ন করার জন্য একটি বেঞ্চমার্ক তৈরি করেছি, যা RAG পদ্ধতি ব্যবহার করে। এই বেঞ্চমার্কে তিনটি বিভাগে 88টি প্রশ্ন রয়েছে: আর্কিটেকচার/ডিজাইন/যাচাই স্পেসিফিকেশন (স্পেকস), টেস্টবেঞ্চ রিগ্রেশন ডকুমেন্টেশন (টেস্টবেঞ্চ), এবং বিল্ড ইনফ্রাস্ট্রাকচার ডকুমেন্টেশন (বিল্ড)। প্রতিটি প্রশ্নের জন্য, আমরা সুবর্ণ উত্তরের পাশাপাশি নকশা নথিতে অনুচ্ছেদগুলি নির্দিষ্ট করি যাতে উত্তরের জন্য প্রাসঙ্গিক জ্ঞান রয়েছে। এই প্রশ্নগুলি পুনরুদ্ধারের জন্য ডেটা স্টোর হিসাবে ডিজাইন নথিগুলির একটি সেটের উপর ভিত্তি করে ডিজাইনারদের দ্বারা ম্যানুয়ালি তৈরি করা হয়। এতে প্রায় 1.8K নথি রয়েছে, যা 67K প্যাসেজে বিভক্ত ছিল, প্রতিটিতে প্রায় 512 অক্ষর।


প্রথমত, আমরা আমাদের ডোমেন অভিযোজিত পুনরুদ্ধার মডেলের সাথে সেন্টেন্স ট্রান্সফরমার [৩৩] এবং e5_small_unsupervised [৩০] প্রতিটি বিভাগে তুলনা করি। প্রতিটি মডেল ডেটা স্টোর থেকে তার শীর্ষ 8টি প্যাসেজ নিয়ে আসে।


স্পেক্স বিভাগের প্রশ্নগুলি নথির প্যাসেজগুলি থেকে সরাসরি উদ্ভূত হয়, তাই তাদের উত্তরগুলি প্রায়শই একটি সংক্ষিপ্ত প্যাসেজে সুন্দরভাবে অন্তর্ভুক্ত থাকে এবং স্পষ্টভাবে প্রশ্নটির সমাধান করে


চিত্র 6: ChipNeMo-এর জন্য অটোইভাল বেঞ্চমার্ক ফলাফল।


চিত্র 7: পুনরুদ্ধার মডেল সঠিকতা তুলনা


অন্যদিকে, টেস্টবেঞ্চ এবং বিল্ড বিভাগগুলির প্রশ্নগুলি সরাসরি প্যাসেজ থেকে নেওয়া হয় না, তাই তাদের উত্তরগুলি প্রায়শই আনা প্যাসেজে তেমন স্পষ্ট ছিল না এবং আরও প্রসঙ্গ প্রয়োজন ছিল (বিস্তারিত উদাহরণের জন্য পরিশিষ্ট সি দেখুন)। এটি উল্লেখযোগ্যভাবে বিভাগগুলির মধ্যে পুনরুদ্ধারের মানের পার্থক্যে অবদান রাখে।


আমরা RAG সহ এবং ছাড়া একাধিক ChipNeMo মডেল এবং LLaMA2 মডেলের মূল্যায়ন পরিচালনা করেছি। ফলাফলগুলি তখন মানব মূল্যায়নকারীদের দ্বারা 10 পয়েন্ট স্কেলে স্কোর করা হয়েছিল এবং চিত্র 8 এ দেখানো হয়েছে।


আমরা নিম্নলিখিত পর্যবেক্ষণ করেছি:


• RAG উল্লেখযোগ্যভাবে মানুষের স্কোর বাড়ায়। RAG LLaMA2-13B-Chat*, ChipNeMo-13B-Chat, এবং LLaMA2-70B-Chat-এর স্কোরকে যথাক্রমে 3.82, 2.19 এবং 5.05 দ্বারা উন্নত করে৷ মনে রাখবেন, স্কোর সাধারণত বেশি হয় এমনকি RAG মিস, বিশেষ করে LLaMA2 মডেলে। আমরা অনুমান করি যে অতিরিক্ত ইন-ডোমেন প্রসঙ্গ কর্মক্ষমতা বাড়াতে সাহায্য করে।


• ChipNeMo-13B-চ্যাট একই আকারের LLaMA2- 13B-Chat* কে ছাড়িয়ে গেছে শুধুমাত্র মডেলে এবং RAG মূল্যায়ন যথাক্রমে 2.88 এবং 1.25 দ্বারা।


• ChipNeMo-13B-RAG-এর সাথে চ্যাট একই স্কোর (7.4) অর্জন করে যেমন 5X বড় মডেল LLaMA2-70B-RAG-এর সাথে চ্যাট করে, যেখানে LLaMA2-70B-চ্যাট হিটগুলির উত্তর বের করতে আরও ভাল করে; যাইহোক, ডোমেইন অভিযোজন মিস এর জন্য এটি তৈরি করে।


চিত্র 8: বিভিন্ন মডেলের মানব মূল্যায়ন। মডেল শুধুমাত্র RAG ছাড়া ফলাফল উপস্থাপন করে। RAG (হিট)/(মিস) শুধুমাত্র এমন প্রশ্নগুলি অন্তর্ভুক্ত করে যেগুলির পুনরুদ্ধার করা প্যাসেজগুলি তাদের আদর্শ প্রসঙ্গে আঘাত/মিস করে, RAG (মোট) সমস্ত প্রশ্ন অন্তর্ভুক্ত করে।


• ডোমেন SFT ChipNeMo-13B-Chat-এর কর্মক্ষমতা 0.28 (RAG সহ) এবং 0.33 (RAG ছাড়া) উন্নত করতে সাহায্য করে।


সমস্ত মডেলের সম্পূর্ণ মূল্যায়নের ফলাফল পরিশিষ্ট D এ দেখানো হয়েছে।


F. EDA স্ক্রিপ্ট জেনারেশন


EDA স্ক্রিপ্ট জেনারেশন টাস্কে আমাদের মডেল মূল্যায়ন করার জন্য, আমরা দুটি ভিন্ন ধরনের বেঞ্চমার্ক তৈরি করেছি। প্রথমটি হল "সহজ" এবং "মাঝারি" অসুবিধার কাজগুলির একটি সেট (1-4 লাইন সমাধান) যা একটি সুবর্ণ প্রতিক্রিয়ার সাথে তুলনা করে মানুষের হস্তক্ষেপ ছাড়াই মূল্যায়ন করা যেতে পারে। এই বেঞ্চমার্কগুলি তৈরি এবং মূল্যায়ন করার জন্য প্রয়োজনীয় কাজের কারণে আমাদের পাইথন টাস্কের জন্য এই মূল্যায়ন সেট করা আছে। দ্বিতীয় সেট টাস্ক ("হার্ড") বাস্তব ব্যবহারের ক্ষেত্রে পরিস্থিতি থেকে আসে যা আমাদের প্রকৌশলীরা বেছে নিয়েছেন। এই কাজগুলি অনেক কঠিন যার সমাধানের জন্য 10 লাইনের প্রয়োজন৷ যেহেতু এইগুলি একটি স্বয়ংক্রিয় উপায়ে মূল্যায়ন করা কঠিন, আমরা মানব প্রকৌশলীদের 0% এবং 100% এর মধ্যে সঠিকতা বিচার করেছি৷ এই বেঞ্চমার্কগুলির আকারগুলি সারণি V-তে বর্ণিত হয়েছে৷ আমাদের এই মডেলগুলিকে আরও উন্নত করার অনুমতি দেওয়ার জন্য এই বেঞ্চমার্কগুলির আকার এবং সুযোগ উভয়ই বাড়ানোর জন্য কাজ চলছে৷


আমরা আবিষ্কার করেছি যে আমাদের মডেলগুলি আমাদের কিছু কঠিন কাজগুলির উত্তর দিতে অক্ষম ছিল৷ কাজের জন্য অনেক টুল API-এর জ্ঞান প্রয়োজন এবং মডেলটি নিয়ন্ত্রণ প্রবাহকে সঠিকভাবে সংগঠিত রাখার সময় সঠিক বিষয়ে সিদ্ধান্ত নিতে অক্ষম বলে মনে হচ্ছে। এটি প্রশমিত করার জন্য, আমরা প্রতিটি প্রশ্নের জন্য নির্দিষ্ট, প্রম্পটে একটি মানব কিউরেটেড প্রসঙ্গ যুক্ত করেছি। এই প্রসঙ্গে সঠিকভাবে পছন্দসই স্ক্রিপ্ট লেখার জন্য প্রয়োজনীয় বিভিন্ন ফাংশন বা বৈশিষ্ট্যের ব্যাখ্যা রয়েছে। আমরা এটি শুধুমাত্র "প্রসঙ্গ সহ কঠিন" বেঞ্চমার্ক বিভাগের জন্য প্রদান করেছি। এটি আমাদের একটি পুনরুদ্ধার ভিত্তিক সমাধানের সম্ভাব্য প্রভাব অধ্যয়ন করার অনুমতি দেয়, যা আমরা ভবিষ্যতের কাজে ছেড়ে দিই।


চিত্র 9-এ বিলুপ্তির ফলাফলে দেখা যায়, আমাদের সমস্যার জন্য DAPT এবং ডোমেন SFT উভয়ই গুরুত্বপূর্ণ ছিল। DAPT ব্যতীত, মডেলটির অন্তর্নিহিত API গুলি সম্পর্কে খুব কম বোঝা ছিল না এবং স্বয়ংক্রিয়ভাবে মূল্যায়ন করা বেঞ্চমার্কগুলিতে খারাপভাবে কাজ করেছিল। ডোমেন এসএফটি ফলাফল আরও উন্নত করেছে। আমরা বিশ্বাস করি এটি কারণ আমাদের ডোমেন SFT ডেটা মডেলটিকে সবচেয়ে সরাসরি প্রযোজ্য ফ্যাশনে চূড়ান্ত স্ক্রিপ্ট উপস্থাপন করতে সহায়তা করে।


একটি আকর্ষণীয় ফলাফল হল LLaMA2-70B পাসের হার "প্রসঙ্গ সহ কঠিন" বেঞ্চমার্কে। এটি পাইথন টুলের বেশিরভাগ মডেলের চেয়ে ভালো পারফর্ম করে কিন্তু Tcl টুলে খারাপভাবে। এটি সম্ভবত কারণ সঠিক প্রেক্ষাপটে প্রদান করা হলে, LLaMA2-70B এর উচ্চতর সাধারণ পাইথন কোডিং ক্ষমতা অভিনব সমস্যাগুলি সমাধান করতে সক্ষম হয় যার বিষয়ে এটি প্রশিক্ষিত হয়নি। যাইহোক, LLaMA2-70B মডেলটি Tcl টুলে তার কোডিং ক্ষমতাকে সাধারণীকরণ করতে অক্ষম, সম্ভবত এটি Tcl কোডের একটি বড় ভলিউমের সংস্পর্শে আসেনি। কম-ভলিউম বা মালিকানাধীন প্রোগ্রামিং ভাষার ক্ষেত্রে এটি DAPT-এর সুবিধা তুলে ধরে।


চিত্র 9: EDA স্ক্রিপ্ট জেনারেশন মূল্যায়ন ফলাফল


G. বাগ সংক্ষিপ্তকরণ এবং বিশ্লেষণ


বাগ সংক্ষিপ্তকরণ এবং বিশ্লেষণে আমাদের মডেলগুলিকে মূল্যায়ন করার জন্য আমাদের কাছে 40টি বাগ রয়েছে যা সংক্ষিপ্তকরণের জন্য আদর্শ প্রার্থী। এর মধ্যে রয়েছে একটি দীর্ঘ মন্তব্যের ইতিহাস বা অন্যান্য ডেটা যা বাগগুলিকে দ্রুত সংক্ষিপ্ত করা মানুষের পক্ষে কঠিন করে তোলে। তারপরে আমরা মানুষকে সংক্ষিপ্তকরণের উভয় পদ্ধতির পাশাপাশি LLM-এর প্রস্তাবিত বাগ অ্যাসাইনমেন্টকে রেট দিতে বলি। মূল্যায়ন মেট্রিক একটি 7 পয়েন্ট লিকার্ট স্কেলের উপর ভিত্তি করে। আমাদের ফলাফল চিত্র 10 এ অন্তর্ভুক্ত করা হয়েছে।


টেবিল V: EDA স্ক্রিপ্ট জেনারেশন ইভালুয়েশন বেঞ্চমার্ক


চিত্র 10: বাগ সংক্ষিপ্তকরণ এবং বিশ্লেষণ মূল্যায়ন ফলাফল


ChipNeMo-13B-চ্যাট মডেলগুলি তিনটি কাজের জন্য বেস LLaMA2- 13B-Chat* মডেলকে ছাড়িয়ে যায়, প্রযুক্তিগত সারাংশ, ব্যবস্থাপনাগত সারাংশ এবং অ্যাসাইনমেন্ট সুপারিশের জন্য যথাক্রমে 7 পয়েন্ট লিকার্ট স্কোর 0.82, 1.09 এবং 0.61 দ্বারা উন্নত করে৷ ডোমেন এসএফটি ম্যানেজারিয়াল সারাংশ এবং টাস্ক অ্যাসাইনমেন্টে ডোমেন এসএফটি ছাড়াই পারফরম্যান্সকে উল্লেখযোগ্যভাবে উন্নত করে।


আমরা অনুমান করি যে প্রযুক্তিগত সংক্ষিপ্তকরণ টাস্কের বিপরীতে যার গুণমান এবং প্রযুক্তিগত বিষয়বস্তু প্রাকৃতিক ভাষার শব্দার্থবিদ্যার মডেলের বোঝার উপর বেশি নির্ভরশীল, ব্যবস্থাপনাগত সারাংশের জন্য মডেলটিকে বোঝার প্রয়োজন হয় কিভাবে মূল কর্মী/ইঞ্জিনিয়ারের নাম ধরে রাখার সময় ইনপুট ডেটার সারসংক্ষেপ করা যায়। এর জন্য এলএলএম-এর আরও সতর্ক নির্দেশ-ভিত্তিক ফাইনটিউনিং প্রয়োজন।


LLaMA2-70B-চ্যাট মডেলটিও তিনটি কাজেই খুব ভালো পারফর্ম করে, চিপনেমো-13B মডেলকে সব টাস্কের উপর পরাজিত করে। উল্লেখ্য যে LLaMA2-70B-চ্যাট মডেলটি 4096 প্রসঙ্গ আকারের সাথে দীর্ঘ-প্রসঙ্গ চ্যালেঞ্জেও ভুগছে, আমরা বিশ্বাস করি কার্যকর চুনক্যান্ড-কম্বাইন স্কিম (হায়ারার্কিক্যাল এবং ইনক্রিমেন্টাল), সারাংশের বিভিন্ন পর্যায়ে নির্দেশমূলক প্রম্পটের পছন্দ, টাস্ক অ্যাসাইনমেন্টের সময় প্রম্পটের পছন্দ, এবং অশোধিত ডেটা ফরম্যাটিং/প্রিপ্রসেসিং দীর্ঘ-প্রসঙ্গ চ্যালেঞ্জকে ঠেকাতে সাহায্য করে এবং DAPT এবং ডোমেন SFT ছাড়াও উচ্চ স্কোর অর্জন করতে LLaMA2-70B-Chat সক্ষম করে।



এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ