Yazarlar:
(1) Mingjie Liu, NVIDIA {Eşit katkı};
(2) Teodor-Dumitru Ene, NVIDIA {Eşit katkı};
(3) Robert Kirby, NVIDIA {Eşit katkı};
(4) Chris Cheng, NVIDIA {Eşit katkı};
(5) Nathaniel Pinckney, NVIDIA {Eşit katkı};
(6) Rongjian Liang, NVIDIA {Eşit katkı};
(7) Jonah Alben, NVIDIA;
(8) Himyanshu Anand, NVIDIA;
(9) Sanmitra Banerjee, NVIDIA;
(10) İsmet Bayraktaroğlu, NVIDIA;
(11) Bonita Bhaskaran, NVIDIA;
(12) Bryan Catanzaro, NVIDIA;
(13) Arjun Chaudhuri, NVIDIA;
(14) Sharon Clay, NVIDIA;
(15) Bill Dally, NVIDIA;
(16) Laura Dang, NVIDIA;
(17) Parikshit Deshpande, NVIDIA;
(18) Siddhanth Dhodhi, NVIDIA;
(19) Sameer Halepete, NVIDIA;
(20) Eric Hill, NVIDIA;
(21) Jiashang Hu, NVIDIA;
(22) Sumit Jain, NVIDIA;
(23) Brucek Khailany, NVIDIA;
(24) George Kokai, NVIDIA;
(25) Kishor Kunal, NVIDIA;
(26) Xiaowei Li, NVIDIA;
(27) Charley Lind, NVIDIA;
(28) Hao Liu, NVIDIA;
(29) Stuart Oberman, NVIDIA;
(30) Sujeet Omar, NVIDIA;
(31) Sreedhar Pratty, NVIDIA;
(23) Jonathan Raiman, NVIDIA;
(33) Ambar Sarkar, NVIDIA;
(34) Zhengjiang Shao, NVIDIA;
(35) Hanfei Sun, NVIDIA;
(36) Pratik P Suthar, NVIDIA;
(37) Varun Tej, NVIDIA;
(38) Walker Turner, NVIDIA;
(39) Kaizhe Xu, NVIDIA;
(40) Haoxing Ren, NVIDIA.
A. Etki Alanı Uyarlamasına İlişkin Hususlar
Etki alanına uyarlanmış ChipNeMo modelleri, karşılık gelen temel modellere göre önemli gelişmeler elde etse de, Şekil 8, 9 ve 10'da görüldüğü gibi, daha büyük LLaMA2 70B'nin bazen ChipNeMo ile benzer doğruluk elde edebildiğini de gözlemliyoruz. Son çalışmalar, bu güçlü modellerden yararlanarak çip tasarım görevlerini gerçekleştirin.
Ancak daha küçük bir modelin kullanımından elde edilen maliyet-etkinlik faydalarının dikkate alınması önemlidir. Papa ve ark. eşit gecikme hedefleri için 8B modelindeki çıkarım maliyetlerinin 62B modelindekinden 8-12 kat daha düşük olduğunu göstermektedir [34]. Ayrıca, model boyutunun küçültülmesi, bir modelin aksi halde sığamayacağı tek bir GPU'ya veya düğüme sığmasına izin vererek çıkarım hızında dramatik artışlara yol açabilir [35]. ChipNeMo 13B modelimiz, LLaMA2 70B modelinden farklı olarak tek bir A100 GPU'nun belleğine herhangi bir niceleme gerekmeden yüklenebilmektedir. Bu, normal GPU çalışması altında önemli çıkarım hızı artışlarına yol açar; bu, GPU'nun hızının düşürülmesi durumunda çıkarım maliyetinin önemli ölçüde azaltılmasıyla değiştirilebilir.
Bu nedenle, bir üretim ortamında daha büyük bir genel amaçlı modelin kullanımı ile daha küçük bir özel modelin kullanımı arasında karar verirken aşağıdaki kriterlerin dikkate alınması gerekir:
• Eğitim ve çıkarım değişimi: Daha küçük alana uyarlanmış modeller, daha büyük genel amaçlı modellerin doğruluğuyla eşleşebilir. Etki alanı uyarlaması ek ön maliyetlere neden olurken, daha küçük modellerin kullanılması işletme maliyetlerinin önemli ölçüde azalmasına yol açar.
• Kullanım durumunun benzersizliği: Şekil 6, 9 ve 10'da görülebileceği gibi, alana uyarlanmış modeller, özel dillerde veya kütüphanelerde kod yazmak gibi kamuya açık alanda nadiren mevcut olan görevlerde en fazla gelişmeyi göstermektedir. Aslında verilerimiz, büyük genel amaçlı modellerin, özenle seçilmiş bağlamlarla sağlandığında bile, bu tür senaryolarda alana uyarlanmış modellerin doğruluğunu eşleştirmede zorluk yaşadığını gösteriyor.
• Etki alanı verilerinin kullanılabilirliği: Etki alanı uyarlaması, büyük miktarda eğitim verisi, yani milyarlarca eğitim jetonu olduğunda en iyi şekilde çalışır. Bu genellikle büyük miktarda dahili belge ve kod biriktirmiş olan büyük şirketler ve projeler için geçerlidir, ancak daha küçük işletmeler veya projeler için mutlaka geçerli değildir.
• Son kullanım durumu çeşitliliği: Genel amaçlı bir modele belirli bir görev için ince ayar yapmak mümkündür, ancak alana uyarlanmış modeller, bir alandaki çeşitli görevler için uygundur. Bu çalışmada ChipNeMo modelleri için yalnızca üç kullanım durumu göstermiş olsak da, yeterli SFT verisi olan diğer kullanım durumları için kolaylıkla yeniden kullanılabilir.
B. Performans Açığı
ChipNeMo, Ek E'de gösterildiği gibi seçilmiş uygulamalarımızda etkileyici sonuçlar elde etmesine rağmen, tüm uygulamaların değerlendirme sonuçları hala insan uzman performansıyla ciddi bir fark olduğunu göstermektedir. Bu performans açığını kapatmak için aşağıdaki yaklaşımları değerlendiriyoruz:
1) Veri Toplama: DAPT veri kümesini daha fazla dahili özel veri içerecek şekilde genişletebiliriz. Buna ek olarak, göreve özgü SFT'nin değerlendirme sonuçlarını anlamlı bir şekilde iyileştirdiğini gösteren kanıtlar olduğundan, SFT için daha fazla göreve özgü talimat seti eklemeyi planlıyoruz.
2) Temel Model: LLaMA2 70B gibi daha iyi ve daha büyük temel modellerin performansı artırabileceğini düşünüyoruz. Ayrıca kod oluşturma görevleri için Code LLaMA [32] gibi koda özgü temel modellere DAPT uygulamayı da keşfedebiliriz.
3) Eğitim: Ayrıca, daha çok yönlü hale getirmek için ChipNeMo sohbet modeli üzerinden insan geri bildirimlerinden (RLHF) [36] takviyeli öğrenme gerçekleştirmeyi planlıyoruz. Genel amaçlı veri kümeleri üzerinde eğitilmiş, önceden eğitilmiş ödül modellerinden yararlanmayı planlıyoruz. Ayrıca, örneğin hata özetleme uygulamasında, uzun bağlama ihtiyaç duyulan yerlerde, zorluğun üstesinden gelmek için uzun bağlamlı eğitim [37] yürütmeyi planlıyoruz. Genel olarak, daha uzun bağlam desteği, kod oluşturmanın yanı sıra sohbet yardımına yönelik erişime dayalı yöntemlerin geliştirilmesine yardımcı olacaktır.
4) Alma: Hem mühendislik asistanı sohbet robotu hem de EDA komut dosyası oluşturma için daha iyi RAG yöntemlerini daha fazla araştıracağız. Mühendislik asistanı chatbot için farklı uygulama alanlarına yönelik farklı veri depoları oluşturabiliriz. Ayrıca çeşitli problemlere yönelik ilgili bağlamı bulmak için kurumsal arama motorlarını RAG ile entegre edebiliriz. Kod üretimi için mevcut kod ve belgelerden bağlamın otomatik olarak alınmasını araştırabiliriz.
C. Etmen Tabanlı Tasarım Metodolojileri
Bu çalışmada denediğimiz kullanım örnekleri, LLM'lerin istem ve yanıt yeteneğinin basit uygulamalarıdır. Aracılar, gerçekleştirilecek bir dizi eylemi seçmek için bir LLM'nin kullanımına atıfta bulunur; burada bir LLM, araçları dışarı çıkarmak için bir akıl yürütme motoru olarak hareket eder. Çip tasarım süreçleri mevcut birçok EDA aracını ve metodolojisini içerir. Bu metodolojilerden bazılarının ChipNeMo modelleri gibi alana uyarlanmış LLM'ler tarafından desteklenen aracılar tarafından yönlendirilebileceğine inanıyoruz. Gelecekte doğrulama ve optimizasyon için etmen tabanlı tasarım metodolojileri üzerinde çalışmayı planlıyoruz.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .