Yazarlar:
(1) Mingjie Liu, NVIDIA {Eşit katkı};
(2) Teodor-Dumitru Ene, NVIDIA {Eşit katkı};
(3) Robert Kirby, NVIDIA {Eşit katkı};
(4) Chris Cheng, NVIDIA {Eşit katkı};
(5) Nathaniel Pinckney, NVIDIA {Eşit katkı};
(6) Rongjian Liang, NVIDIA {Eşit katkı};
(7) Jonah Alben, NVIDIA;
(8) Himyanshu Anand, NVIDIA;
(9) Sanmitra Banerjee, NVIDIA;
(10) İsmet Bayraktaroğlu, NVIDIA;
(11) Bonita Bhaskaran, NVIDIA;
(12) Bryan Catanzaro, NVIDIA;
(13) Arjun Chaudhuri, NVIDIA;
(14) Sharon Clay, NVIDIA;
(15) Bill Dally, NVIDIA;
(16) Laura Dang, NVIDIA;
(17) Parikshit Deshpande, NVIDIA;
(18) Siddhanth Dhodhi, NVIDIA;
(19) Sameer Halepete, NVIDIA;
(20) Eric Hill, NVIDIA;
(21) Jiashang Hu, NVIDIA;
(22) Sumit Jain, NVIDIA;
(23) Brucek Khailany, NVIDIA;
(24) George Kokai, NVIDIA;
(25) Kishor Kunal, NVIDIA;
(26) Xiaowei Li, NVIDIA;
(27) Charley Lind, NVIDIA;
(28) Hao Liu, NVIDIA;
(29) Stuart Oberman, NVIDIA;
(30) Sujeet Omar, NVIDIA;
(31) Sreedhar Pratty, NVIDIA;
(23) Jonathan Raiman, NVIDIA;
(33) Ambar Sarkar, NVIDIA;
(34) Zhengjiang Shao, NVIDIA;
(35) Hanfei Sun, NVIDIA;
(36) Pratik P Suthar, NVIDIA;
(37) Varun Tej, NVIDIA;
(38) Walker Turner, NVIDIA;
(39) Kaizhe Xu, NVIDIA;
(40) Haoxing Ren, NVIDIA.
A. DAPT Veri Kümesi
Etki Alanına Uyarlanabilir Ön Eğitim (DAPT) sırasında, NVIDIA'ya özel çip tasarımına özel veri kaynakları ile kamuya açık veri kümelerinin birleşiminden bir veri kümesi oluşturuyoruz.
Çip Tasarımı Veri Kümeleri: Dahili veri kümemiz çip tasarımı, kapsamlı tasarım, doğrulama, altyapı ve dahili belgelerle ilgili çok çeşitli metin kaynaklarından oluşur. Tablo I, filtrelemeden sonra toplanan verilerin bir dökümünü ve LLaMA2 tokenizer kullanılarak karşılık gelen token sayısını sağlar. Veri kümesini, ilgili tüm dahili verileri toplayarak, ardından dosya adı uzantılarına göre dosya türüne göre filtreleyerek ve makine tarafından oluşturulan içerik ile insan tarafından yazılan içerik arasında ayrım yaparak oluştururuz. Üç spesifik kullanım senaryosunu değerlendirmemize rağmen, ek alan bilgisinin dahil edilmesinin performansı artıracağına inandığımız için veri kümesini bu kullanım senaryolarıyla ilgili olduğu bilinen kaynaklarla spesifik olarak sınırlamadık. Toplama, temizleme ve filtrelemeden sonra dahili veri eğitim derleminde 23,1 milyar token bulunur. Veri toplama sürecine ilişkin daha fazla ayrıntı Ek A'da ele alınmaktadır.
Herkese Açık Veri Kümeleri: Çip tasarımına özgü verileri, temel büyük dil modellerinin geliştirilmesinde yaygın bir uygulama olan, çeşitli kaynaklardan alınan halka açık verilerden oluşan bir örnekle zenginleştiriyoruz. Yaklaşımımız, kamuya açık olması ve açık kaynak kullanımıyla uyumlu olması koşuluyla, diğer dil modellerindeki kamu eğitim verilerini yeniden kullanmaktı. Bu veri kümeleri, DAPT sırasında genel bilgiyi ve doğal dil yeteneklerini korumak amacıyla LLaMA2'de [5] kullanılan eğitim öncesi verilerle yüksek derecede korelasyon sergiler. ChipNeMo tarafından kullanılan halka açık veri kümeleri, doğal dil ve kod olmak üzere iki gruba ayrılabilir. Doğal dil bileşeni için, yüksek veri kalitesi nedeniyle geniş çapta kabul gören Wikipedia verilerinden [17] faydalanıyoruz. Kod için, C++, Python ve Verilog gibi dahili veri çipi tasarım veri setimizde de bulunan programlama dillerine odaklanarak GitHub verilerinden [18] yararlanıyoruz. Genel veri kümesinin eğitim öncesi dağılımları temsil ettiğinden emin olmak için, doğal dil ve kodun dengeli bir temsiliyle bu genel veri kümelerinden toplam eğitim belirteçlerinin yaklaşık %9,2'sinin örneklenmesiyle sonuçlanan bir alt örnekleme işlemi gerçekleştiriyoruz.
Veri Karışımı: Topladığımız alan verilerinin önemli bir kısmı, farklı kaynaklardan gelen açıklamasız kodlardan oluşmaktadır. Modelin alana özgü bilgi anlayışını geliştirmek amacıyla, 2 ila 4 eğitim dönemi boyunca doğal dil verilerinin, özellikle de tasarım belgelerinin eş zamanlı olarak üst örneğini oluştururken kod verilerinin alt örneğini gerçekleştirdik. Ayrıca, insan tarafından yazılan EDA araç komut dosyaları gibi alt uygulamalara daha uygun olduğunu düşündüğümüz verilerin temsilini de artırdık. Ayrıca, 1 dönem için kamuya açık alan verilerini de dahil ettik. Eğitim için jeton dağıtımının ayrıntıları Tablo I'de gösterilmektedir.
B. SFT Talimat Verileri
Denetimli İnce Ayar (SFT) sırasında, ticari kullanım için erişilebilen genel bir sohbet SFT talimat veri kümesi kullanırız. Veri seti büyük ölçüde OASST [19], FLAN [20], P3 [21] dahil olmak üzere veri setlerini takip eden halka açık talimatlardan ve beyin fırtınası, açık uçlu soru cevaplama, yeniden yazma gibi çeşitli konuları içeren az miktarda geniş alanlı özel veri setinden oluşur. , özetleme vb. Burada tartıştığımız SFT talimat verilerinin genel doğal dil görevlerine odaklandığını ve çip tasarımındaki aşağı yönlü kullanım durumlarıyla ilgili herhangi bir bilgi veya görev içermediğini belirtmek önemlidir. Toplamda bu veri seti 128.000 eğitim örneğinden oluşmaktadır.
Ek olarak, modeli alt kullanım senaryolarına göre hizalamak için alana özel bir talimat veri kümesini titizlikle bir araya getirdik. Bu örnekler konunun uzmanları tarafından titizlikle hazırlanmış olup tek turlu soru-cevap şeklinde formatlanmıştır. Tablo II, alana özel talimat veri setimizin miktarını göstermektedir. Etki alanına özgü talimat veri kümesindeki eğitim örneklerinin toplam sayısının, kapsamlı miktardaki üretken sohbet talimatı verileriyle karşılaştırıldığında oldukça küçük olduğunu belirtmekte fayda var.
C. Otomatik Değerlendirme
Çeşitli modellerin doğruluğunu hızlı ve niceliksel olarak değerlendirmek amacıyla, her kullanım durumu için çoktan seçmeli soru-cevap formatları olarak yapılandırılmış, MMLU gibi yerleşik kıyaslamalarla yakından uyum sağlayacak şekilde tasarlanmış değerlendirme kriterleri oluşturduk [22]. Bu çoktan seçmeli soruları formüle etme sürecinde alan uzmanlarıyla işbirliği çok önemliydi. Amaç, her sorunun en az bir karmaşık cevap seçeneği içermesini sağlamak ve böylece sınırlı alan uzmanlığına sahip bireyler için zorluk oluşturmaktı. Soruların, alana özel SFT verilerimizle yanlışlıkla kirlenmesini önlemeye de özen gösterildi. Kullanım durumuna özel kıyaslamalara ek olarak, genel devre tasarımı bilgisi için hem analog hem de dijital tasarım konularını kapsayan ek bir kıyaslama oluşturuldu. Değerlendirme ölçütü için çoktan seçmeli soruların sayısı Tablo III'te gösterilmektedir.
Yukarıdaki kıyaslamalara ilişkin sonuçları rapor ettiğimizde, test sürecindeki varyans ve gürültünün etkilerini azaltmak için beş ayrı çalışmadan elde edilen ortalama sonuçları alırız. Her yinelemede, her bir çalıştırmada varyasyonlar sunulan 5 atışlık örneklerden oluşan bir set kullanılır.
Bu alana özgü değerlendirme kriterlerine ek olarak, yaygın olarak kullanılan, kamuya açık LLM akademik kriterlerini de dahil ediyoruz. Ayrıca, Python için HumanEval [23] ve Verilog için VerilogEval [12]'i değerlendirerek modelin kod üretme yeteneklerini ölçüyoruz.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .