paint-brush
ChipNeMo: চিপ ডিজাইনের জন্য ডোমেন-অ্যাডাপ্টেড এলএলএম: স্বীকৃতি, অবদান এবং রেফারেন্স দ্বারা@textmodels

ChipNeMo: চিপ ডিজাইনের জন্য ডোমেন-অ্যাডাপ্টেড এলএলএম: স্বীকৃতি, অবদান এবং রেফারেন্স

দ্বারা Writings, Papers and Blogs on Text Models
Writings, Papers and Blogs on Text Models HackerNoon profile picture

Writings, Papers and Blogs on Text Models

@textmodels

We publish the best academic papers on rule-based techniques, LLMs,...

7 মিনিট read2024/06/06
Read on Terminal Reader
Read this story in a terminal
Print this story

অতিদীর্ঘ; পড়তে

গবেষকরা ChipNeMo উপস্থাপন করেন, চিপ ডিজাইনের জন্য LLM উন্নত করতে ডোমেন অভিযোজন ব্যবহার করে, আরও ভাল পারফরম্যান্সের সাথে 5x পর্যন্ত মডেলের আকার হ্রাস করা।
featured image - ChipNeMo: চিপ ডিজাইনের জন্য ডোমেন-অ্যাডাপ্টেড এলএলএম: স্বীকৃতি, অবদান এবং রেফারেন্স
Writings, Papers and Blogs on Text Models HackerNoon profile picture
Writings, Papers and Blogs on Text Models

Writings, Papers and Blogs on Text Models

@textmodels

We publish the best academic papers on rule-based techniques, LLMs, & the generation of text that resembles human text.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

লেখক:

(1) মিংজি লিউ, NVIDIA {সমান অবদান};

(2) টিওডোর-ডুমিত্রু এনি, এনভিআইডিএ {সমান অবদান};

(3) রবার্ট কিরবি, NVIDIA {সমান অবদান};

(4) ক্রিস চেং, NVIDIA {সমান অবদান};

(5) নাথানিয়েল পিঙ্কনি, এনভিআইডিএ {সমান অবদান};

(6) Rongjian Liang, NVIDIA {সমান অবদান};

(7) জোনাহ আলবেন, এনভিআইডিএ;

(8) হিমাংশু আনন্দ, NVIDIA;

(9) সন্মিত্র ব্যানার্জী, NVIDIA;

(10) Ismet Bayraktaroglu, NVIDIA;

(11) বনিতা ভাস্করন, NVIDIA;

(12) Bryan Catanzaro, NVIDIA;

(13) অর্জুন চৌধুরী, NVIDIA;

(14) শ্যারন ক্লে, NVIDIA;

(15) বিল ডালি, NVIDIA;

(16) লরা ড্যাং, NVIDIA;

(17) পরীক্ষিত দেশপান্ডে, NVIDIA;

(18) সিদ্ধান্ত ধোধি, NVIDIA;

(19) সমীর হালেপেট, NVIDIA;

(20) এরিক হিল, NVIDIA;

(21) জিয়াং হু, এনভিআইডিএ;

(22) সুমিত জৈন, NVIDIA;

(23) ব্রুসেক খাইলানি, NVIDIA;

(24) জর্জ কোকাই, NVIDIA;

(25) কিশোর কুনাল, NVIDIA;

(26) Xiaowei Li, NVIDIA;

(27) চার্লি লিন্ড, NVIDIA;

(28) হাও লিউ, NVIDIA;

(29) স্টুয়ার্ট ওবারম্যান, NVIDIA;

(30) সুজিত ওমর, NVIDIA;

(31) শ্রীধর প্রাট্টি, NVIDIA;

(23) জোনাথন রাইমান, এনভিআইডিএ;

(33) অম্বর সরকার, NVIDIA;

(34) Zhengjiang Shao, NVIDIA;

(35) হানফেই সান, এনভিআইডিএ;

(36) প্রতীক পি সুথার, NVIDIA;

(37) বরুণ তেজ, NVIDIA;

(38) ওয়াকার টার্নার, NVIDIA;

(39) কাইজে জু, NVIDIA;

(40) Haoxing Ren, NVIDIA.

লিঙ্কের টেবিল

IX. স্বীকৃতি

লেখকরা ধন্যবাদ জানাতে চাই: NVIDIA IT টিম NVBugs ইন্টিগ্রেশনে তাদের সমর্থনের জন্য; NVIDIA হার্ডওয়্যার নিরাপত্তা দল নিরাপত্তা সংক্রান্ত বিষয়ে তাদের সহায়তার জন্য; ChipNeMo মডেলের প্রশিক্ষণ এবং অনুমান সম্পর্কে তাদের সহায়তা এবং নির্দেশনার জন্য NVIDIA NeMo টিম; প্রকল্পের জন্য GPU প্রশিক্ষণ এবং অনুমান সংস্থান সমর্থন করার জন্য NVIDIA পরিকাঠামো দল; NVIDIA হার্ডওয়্যার ডিজাইন দল তাদের সমর্থন এবং অন্তর্দৃষ্টি জন্য.

X. অবদান

মিংজি লিউ DAPT এবং SFT মডেল প্রশিক্ষণ পরিচালনা করেন।


টিওডোর-ডুমিত্রু এনি, রবার্ট কিরবি অনুমান এবং প্রয়োগ মূল্যায়ন পরিকাঠামো তৈরি করেছেন।


ক্রিস চেং RAG ফ্রেমওয়ার্ক তৈরি করেছেন।


নাথানিয়েল পিঙ্কনি প্রশিক্ষণের জন্য ডেটা সেট সংগ্রহ ও প্রস্তুত করেছেন।


Rongjian Liang কাস্টম টোকেনাইজার তৈরি করেছে।


ওয়াকার টার্নার, চার্লি লিন্ড, জর্জ কোকাই একটি সাধারণ সার্কিট ডিজাইন জ্ঞানের মানদণ্ড তৈরি করেছেন।


সিদ্ধান্ত ধোধি, ইসমেত বায়রাক্টরোগ্লু, হিমাংশু আনন্দ, এরিক হিল প্রকৌশল সহকারী চ্যাটবট ডিজাইন করেছেন, ডোমেন নির্দেশনা ডেটাসেট, মূল্যায়ন বেঞ্চমার্ক প্রদান করেছেন এবং মূল্যায়ন পরিচালনা করেছেন।


পরীক্ষিত দেশপান্ডে, ঝেংজিয়াং শাও, কাইজে জু, জিয়াং হু, লরা ডাং, জিয়াওই লি, হাও লিউ, আম্বার সরকার ইঞ্জিনিয়ারিং সহকারী চ্যাটবট অ্যাপ্লিকেশন তৈরি করেছেন।


শ্রীধর প্রাট্টি, কিশোর কুনাল, বরুণ তেজ, সুমিত জৈন, সুজিত ওমর, প্রতীক পি সুথার, হানফেই সান EDA স্ক্রিপ্ট জেনারেশন অ্যাপ্লিকেশন তৈরি করেছেন, ডোমেন নির্দেশনা ডেটাসেট এবং মূল্যায়ন বেঞ্চমার্ক প্রদান করেছেন।


বনিতা ভাস্করন, অর্জুন চৌধুরী, সন্মিত্র ব্যানার্জী বাগ সংক্ষিপ্তকরণ এবং বিশ্লেষণ অ্যাপ্লিকেশন তৈরি করেছেন, ডোমেন নির্দেশনা ডেটাসেট এবং মূল্যায়ন বেঞ্চমার্ক প্রদান করেছেন।


ব্রুসেক খাইলানি, স্টুয়ার্ট ওবারম্যান, শ্যারন ক্লে, সমীর হ্যালেপেট, জোনাথন রাইমান, ব্রায়ান ক্যাটানজারো, জোনাহ অ্যালবেন, বিল ডালি এআই গবেষণা এবং হার্ডওয়্যার ইঞ্জিনিয়ারিং দৃষ্টিকোণ থেকে পরামর্শ দিয়েছেন।


হাওক্সিং রেন গবেষণার ডিজাইন ও নেতৃত্ব দেন।

তথ্যসূত্র

[১] বি. খাইলানি এট আল 40, না। 6, পৃ. 23-32, 2020।

[২] H. Ren এবং M. Fojtik, 2021 58th ACM/IEEE ডিজাইন অটোমেশন কনফারেন্স (DAC), 2021-এ "আমন্ত্রিত- nvcell: উন্নত প্রযুক্তির নোডগুলিতে স্ট্যান্ডার্ড সেল লেআউট রিইনফোর্সমেন্ট লার্নিং"।


[৩] R. Roy et al., "PrefixRL: গভীর শক্তিবৃদ্ধি শিক্ষা ব্যবহার করে সমান্তরাল প্রিফিক্স সার্কিটের অপ্টিমাইজেশন," 2021 58 তম ACM/IEEE ডিজাইন অটোমেশন কনফারেন্স (DAC), 2021 এ।


[৪] W.-L. চিয়াং এট আল উপলব্ধ: https://lmsys.org/blog/2023-03-30-vicuna/


[৫] H. Touvron et al., "Llama 2: Open Foundation and fine-tuned chat models," 2023।


[৬] এস. ঠাকুর এট আল।, "স্বয়ংক্রিয় ভেরিলগ আরটিএল কোড জেনারেশনের জন্য বৃহৎ ভাষার মডেলের বেঞ্চমার্কিং," 2023 সালে ডিজাইন, অটোমেশন এবং ইউরোপ কনফারেন্স অ্যান্ড এক্সিবিশনে পরীক্ষা (DATE), 2023, pp. 1-6।


[৭] J. Blocklove et al., "চিপ-চ্যাট: কথোপকথনমূলক হার্ডওয়্যার ডিজাইনে চ্যালেঞ্জ এবং সুযোগ," 2023।


[৮] জেড. তিনি এট আল., "চাটেদা: একটি বৃহৎ ভাষা মডেল চালিত স্বায়ত্তশাসিত এজেন্ট এর জন্য," 2023।


[৯] এস. বুবেক এট আল।, "কৃত্রিম সাধারণ বুদ্ধিমত্তার স্ফুলিঙ্গ: gpt-4 এর সাথে প্রাথমিক পরীক্ষা," 2023।


[১০] S. Wu et al., "Bloomberggpt: অর্থের জন্য একটি বড় ভাষা মডেল," 2023।


[১১] এম এলএলসি। (2022) Biomedlm: বায়োমেডিকাল পাঠ্যের জন্য একটি ডোমেন-নির্দিষ্ট বড় ভাষা মডেল। [অনলাইন]। উপলব্ধ: https://www.mosaicml.com/blog/introducing-pubmed-gpt


[১২] এম. লিউ এট আল।, "ভেরিলগ ইভাল: ভেরিলগ কোড জেনারেশনের জন্য বড় ভাষা মডেলের মূল্যায়ন," 2023 IEEE/ACM ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার-এডেড ডিজাইন (ICCAD), 2023-এ।


[১৩] ই. নিজক্যাম্প এট আল।, "কোডজেন: মাল্টি-টার্ন প্রোগ্রাম সংশ্লেষণ সহ কোডের জন্য একটি উন্মুক্ত বড় ভাষা মডেল," ICLR, 2023।


[১৪] এস. গুরুরাঙ্গন এট আল।, "প্রাক-প্রশিক্ষণ বন্ধ করবেন না: ডোমেন এবং কাজের সাথে ভাষার মডেলগুলিকে মানিয়ে নিন," 2020।


[১৫] পি. লুইস এট আল।, "জ্ঞান-নিবিড় এনএলপি কার্যের জন্য পুনরুদ্ধার-বর্ধিত প্রজন্ম," 2021।


[১৬] ইজে হু এট আল।, "লোরা: বড় ভাষার মডেলের নিম্ন-র্যাঙ্ক অভিযোজন," CoRR, ভলিউম। abs/2106.09685, 2021। [অনলাইন]। উপলব্ধ: https://arxiv.org/abs/2106.09685


[১৭] এল. গাও এট আল।, "দ্য পাইল: ভাষা মডেলিংয়ের জন্য বিভিন্ন পাঠ্যের একটি 800gb ডেটাসেট।"


[১৮] D. Kocetkov et al., "স্ট্যাক: 3 tb অনুমতিপ্রাপ্ত লাইসেন্সকৃত সোর্স কোড," 2022।


[১৯] A. Kopf ¨ et al., "Openassistant কথোপকথন - গণতান্ত্রিক বৃহৎ ভাষা মডেল সারিবদ্ধকরণ," 2023।


[২০] জে. ওয়েই এট আল., "ফাইনটিউনড ল্যাঙ্গুয়েজ মডেলগুলি জিরো-শট লার্নার্স," 2022।


[২১] ভি. সানহ এট আল।, "মাল্টিটাস্ক প্রম্পটেড ট্রেনিং শূন্য-শট টাস্ক সাধারণীকরণ সক্ষম করে," 2022।


[২২] ডি. হেন্ড্রিক্স এট আল।, "ব্যাপক মাল্টিটাস্ক ভাষা বোঝার পরিমাপ," 2021।


[২৩] এম. চেন এট আল।, "কোডের উপর প্রশিক্ষিত বড় ভাষার মডেলের মূল্যায়ন করা," 2021।


[২৪] F. Koto, JH Lau, এবং T. Baldwin, "IndoBERTweet: কার্যকর ডোমেন-নির্দিষ্ট শব্দভাণ্ডার প্রারম্ভিকতা সহ ইন্দোনেশিয়ান টুইটারের জন্য একটি পূর্বপ্রশিক্ষিত ভাষা মডেল," প্রাকৃতিক ভাষা প্রক্রিয়াকরণে 2021 সালের সম্মেলনের অভিজ্ঞতামূলক পদ্ধতিতে, নভেম্বর। 2021, পৃ. 10 660-10 668।


[২৫] ও. কুচাইভ এট আল।, "নিমো: নিউরাল মডিউল ব্যবহার করে এআই অ্যাপ্লিকেশন তৈরির জন্য একটি টুলকিট," 2019।


[২৬] এম. শোয়েবি এট আল।, "মেগাট্রন-এলএম: মডেল প্যারালেলিজম ব্যবহার করে মাল্টি-বিলিয়ন প্যারামিটার ল্যাঙ্গুয়েজ মডেলের প্রশিক্ষণ," arXiv প্রিপ্রিন্ট arXiv:1909.08053, 2019।


[২৭] টি. ডাও এট আল।, "ফ্ল্যাশ অ্যাটেনশন: আইও-সচেতনতার সাথে দ্রুত এবং মেমরি-দক্ষ সঠিক মনোযোগ," নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমের অগ্রগতিতে, 2022। [28] এ. চৌধুরী এট আল।, "পাম: স্কেলিং পথের সাথে ভাষা মডেলিং," 2022।


[২৯] জেড. জি এট আল।, "প্রাকৃতিক ভাষা তৈরিতে হ্যালুসিনেশনের সমীক্ষা," ACM কম্পিউট। Surv., vol. 55, না। 12, মার্চ 2023। [অনলাইন]। উপলব্ধ: https://doi.org/10.1145/3571730


[৩০] এল. ওয়াং এট আল।, "দুর্বলভাবে তত্ত্বাবধানে কনট্রাস্টিভ প্রাক-প্রশিক্ষণ দ্বারা পাঠ্য এম্বেডিং," arXiv প্রিপ্রিন্ট arXiv:2212.03533, 2022।


[৩১] এল. গাও এট আল।, "টেভাট্রন: ঘন পুনরুদ্ধারের জন্য একটি দক্ষ এবং নমনীয় টুলকিট," 2022।


[৩২] B. Roziere ` et al., "কোড লামা: কোডের জন্য ওপেন ফাউন্ডেশন মডেল," 2023।


[৩৩] N. Reimers এবং I. Gurevych, "Sentence-bert: Sentence embeddings using siamese bert-networks," 2019 কনফারেন্স অন দি ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং এর অভিজ্ঞতামূলক পদ্ধতিতে। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকস, 11 2019। [অনলাইন]। উপলব্ধ: http://arxiv.org/abs/1908.10084


[৩৪] আর. পোপ এট আল., "দক্ষভাবে ট্রান্সফরমার ইনফারেন্স স্কেলিং," 2022।


[৩৫] RY আমিনাবাদি এট আল।, "ডিপস্পিড ইনফারেন্স: অভূতপূর্ব স্কেলে ট্রান্সফরমার মডেলের দক্ষ অনুমান সক্ষম করা," 2022।


[৩৬] L. Ouyang et al., "মানুষের প্রতিক্রিয়া সহ নির্দেশাবলী অনুসরণ করার জন্য ভাষা মডেল প্রশিক্ষণ," 2022।


[৩৭] W. Xiong et al., "ফাউন্ডেশন মডেলের কার্যকরী দীর্ঘ-প্রসঙ্গ স্কেলিং," 2023।


[৩৮] আর. টেলর এট আল., "গ্যালাক্টিকা: বিজ্ঞানের জন্য একটি বড় ভাষা মডেল," 2022।


[৩৯] A. Lewkowycz et al., "ভাষা মডেলের সাথে পরিমাণগত যুক্তি সমস্যা সমাধান করা," 2022।


[৪০] পি. লুইস এট আল।, "জ্ঞান-নিবিড় এনএলপি কার্যের জন্য পুনরুদ্ধার-বর্ধিত প্রজন্ম," 2021।


[৪১] S. Borgeaud et al., "ট্রিলিয়ন টোকেনগুলি থেকে পুনরুদ্ধার করে ভাষার মডেলগুলি উন্নত করা," 2022৷


[৪২] এস. রবার্টসন এবং এইচ. জারাগোজা, "সম্ভাব্য প্রাসঙ্গিকতা কাঠামো: Bm25 এবং তার বাইরে," পাওয়া গেছে। ট্রেন্ডস ইনফ. Retr., vol. 3, না। 4, পৃ. 333–389, এপ্রিল 2009। [অনলাইন]। উপলব্ধ: https://doi.org/10.1561/1500000019


[৪৩] ভি. কারপুখিন এট আল।, "ওপেন-ডোমেন প্রশ্নের উত্তর দেওয়ার জন্য ঘন উত্তরণ পুনরুদ্ধার," 2020।


[৪৪] G. Izacard et al., "বিপরীত শিক্ষার সাথে আনসুপারভাইজড ঘন তথ্য পুনরুদ্ধার," 2022।


[৪৫] ডব্লিউ শি এট আল।, "রিপ্লাগ: পুনরুদ্ধার-বর্ধিত ব্ল্যাক-বক্স ভাষার মডেল," 2023।


[৪৬] G. Izacard et al., “Few-shot Learning with Retrieval Augmented Language Models,” 2022। [অনলাইন]। উপলব্ধ: http://arxiv.org/abs/2208.03299


[৪৭] ও. রাম এট আল., "প্রসঙ্গ পুনরুদ্ধার-বর্ধিত ভাষা মডেল," 2023।


[৪৮] S. Zhou et al., "ডকপ্রম্পটিং: ডক্স পুনরুদ্ধার করে কোড তৈরি করা," 2023।


[৪৯] আর. রাফাইলভ এট আল।, "সরাসরি পছন্দ অপ্টিমাইজেশান: আপনার ভাষার মডেলটি গোপনে একটি পুরস্কার মডেল," 2023।


[50] Y. ডং এট আল।, "Steerlm: rlhf-এর বিকল্প হিসেবে (ব্যবহারকারী-স্টিয়ারেবল) অ্যাট্রিবিউট কন্ডিশন্ড এসএফটি," 2023।


[৫১] H. Pearce, B. Tan, এবং R. Karri, CAD, ser এর জন্য 2020 ACM/IEEE কর্মশালার প্রসিডিংস-এ "ডেভ: ইংরেজি থেকে স্বয়ংক্রিয়ভাবে ভেরিলগ ডেরাইভিং"। MLCAD '20. নিউ ইয়র্ক, এনওয়াই, ইউএসএ: অ্যাসোসিয়েশন ফর কম্পিউটিং মেশিনারি, 2020, পি. 27-32। [অনলাইন]। উপলব্ধ: https://doi.org/10.1145/3380446.3430634


[৫২] "সুন্দর স্যুপ," https://www.crummy.com/software/BeautifulSoup/, অ্যাক্সেস করা হয়েছে: 10 অক্টোবর 2023।


[৫৩] কে. সাকাগুচি এট আল।, "উইনোগ্রান্ডে: অ্যান অ্যাডভারসারিয়াল উইনোগ্রাড স্কিমা চ্যালেঞ্জ অ্যাট স্কেলে," arXiv প্রিপ্রিন্ট arXiv:1907.10641, 2019।


[৫৪] আর. জেলার্স এট আল., "হেলাসওয়াগ: একটি মেশিন কি সত্যিই আপনার বাক্য শেষ করতে পারে?" অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকস, 2019-এর 57তম বার্ষিক সভার কার্যপ্রণালীতে।


[৫৫] পি. ক্লার্ক এট আল।, “মনে হয় আপনি প্রশ্নের উত্তর সমাধান করেছেন? আর্ক চেষ্টা করুন, AI2 রিজনিং চ্যালেঞ্জ,” 2018।


[৫৬] জি. লাই এট আল।, "জাতি: পরীক্ষা থেকে বড় আকারের পড়া বোঝার ডেটাসেট," 2017।



এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


L O A D I N G
. . . comments & more!

About Author

Writings, Papers and Blogs on Text Models HackerNoon profile picture
Writings, Papers and Blogs on Text Models@textmodels
We publish the best academic papers on rule-based techniques, LLMs, & the generation of text that resembles human text.

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
X REMOVE AD