Yazarlar:
(1) Mingjie Liu, NVIDIA {Eşit katkı};
(2) Teodor-Dumitru Ene, NVIDIA {Eşit katkı};
(3) Robert Kirby, NVIDIA {Eşit katkı};
(4) Chris Cheng, NVIDIA {Eşit katkı};
(5) Nathaniel Pinckney, NVIDIA {Eşit katkı};
(6) Rongjian Liang, NVIDIA {Eşit katkı};
(7) Jonah Alben, NVIDIA;
(8) Himyanshu Anand, NVIDIA;
(9) Sanmitra Banerjee, NVIDIA;
(10) İsmet Bayraktaroğlu, NVIDIA;
(11) Bonita Bhaskaran, NVIDIA;
(12) Bryan Catanzaro, NVIDIA;
(13) Arjun Chaudhuri, NVIDIA;
(14) Sharon Clay, NVIDIA;
(15) Bill Dally, NVIDIA;
(16) Laura Dang, NVIDIA;
(17) Parikshit Deshpande, NVIDIA;
(18) Siddhanth Dhodhi, NVIDIA;
(19) Sameer Halepete, NVIDIA;
(20) Eric Hill, NVIDIA;
(21) Jiashang Hu, NVIDIA;
(22) Sumit Jain, NVIDIA;
(23) Brucek Khailany, NVIDIA;
(24) George Kokai, NVIDIA;
(25) Kishor Kunal, NVIDIA;
(26) Xiaowei Li, NVIDIA;
(27) Charley Lind, NVIDIA;
(28) Hao Liu, NVIDIA;
(29) Stuart Oberman, NVIDIA;
(30) Sujeet Omar, NVIDIA;
(31) Sreedhar Pratty, NVIDIA;
(23) Jonathan Raiman, NVIDIA;
(33) Ambar Sarkar, NVIDIA;
(34) Zhengjiang Shao, NVIDIA;
(35) Hanfei Sun, NVIDIA;
(36) Pratik P Suthar, NVIDIA;
(37) Varun Tej, NVIDIA;
(38) Walker Turner, NVIDIA;
(39) Kaizhe Xu, NVIDIA;
(40) Haoxing Ren, NVIDIA.
Birçok alan, alana özgü bir LLM'yi eğitmek için kullanılabilecek önemli miktarda özel veriye sahiptir. Bir yaklaşım, alana özgü bir temel modelini sıfırdan eğitmektir; örneğin finans için BloombergGPT [10], biyomedikal için BioMedLLM [11] ve bilim için Galactica [38]. Bu modeller genellikle 100 milyardan fazla token ham alan verisi üzerinde eğitildi. İkinci yaklaşım, ek ham alan verileri üzerinde önceden eğitilmiş bir temel modeli eğitmeye devam eden alana uyarlanabilir ön eğitimdir (DAPT) [14]. Biyomedikal, bilgisayar bilimi yayınları, haberler ve incelemeler gibi alanlarda alana özgü görevlerde hafif bir performans artışı gösterir. Bir örnekte, [39] teknik içerik veri kümeleri üzerinde bir temel modeli sürekli olarak önceden eğitmiş ve birçok niceliksel muhakeme görevinde en gelişmiş performansı elde etmiştir.
Alma Artırılmış Üretim (RAG), LLM'nin doğru bilgi üretmesine ve bilgi yoğun NLP görevlerini geliştirmek için güncel bilgileri çıkarmasına yardımcı olur [40]. RAG'lı daha küçük modellerin, RAG'sız daha büyük modellere göre daha iyi performans gösterebildiği gözlemlenmiştir [41]. Alma yöntemleri, kelime istatistik bilgilerini analiz eden ve yüksek boyutlu seyrek vektörle eşleşen belgeleri bulan TF-IDF veya BM25 [42] gibi seyrek erişim yöntemlerini içerir. [43] [44] gibi yoğun erişim yöntemleri, bir geri alma veri kümesinde ince ayar yapılarak veya yapılmadan büyük bir derlem üzerinde önceden eğitilmiş bir geri alma modeli tarafından oluşturulan bir yerleştirme alanında eşleşen belgeleri bulur. Alma modeli bağımsız olarak [43] [44] [45] veya dil modelleriyle birlikte [46] [41] eğitilebilir. Ek olarak, kullanıma hazır genel amaçlı alıcıların daha fazla ince ayar yapmadan temel dil modelini önemli ölçüde geliştirebildiği gösterilmiştir [47]. RAG'ın ayrıca kodlama belgelerinden alarak kod oluşturma görevlerini [48] gerçekleştirmesi de önerilmektedir.
Temel modeller, sınırlı sohbet ve talimat takip yeteneklerine sahip tamamlama modelleridir. Bu nedenle, karşılık gelen bir sohbet modelini eğitmek için temel modellere bir model hizalama işlemi uygulanır. Talimatların ince ayarı [20] ve insan geri bildiriminden takviyeli öğrenme (RLHF) [36] iki yaygın model hizalama tekniğidir. Talimatların ince ayarı, talimat veri kümelerini kullanarak bir temel modelini daha da eğitir. RLHF, bir ödül modelini eğitmek amacıyla bir veri kümesini etiketlemek için insan geri bildiriminden yararlanır ve eğitilmiş ödül modeli verilen modelleri daha da geliştirmek için takviyeli öğrenmeyi uygular. RLHF genellikle talimatların ince ayarından daha karmaşıktır ve kaynak gerektirir. Bu nedenle, son çalışmalar aynı zamanda DPO [49] ve SteerLM [50] gibi daha basit yöntemlerle bu ek yükün azaltılmasını da önermektedir.
Araştırmacılar yüksek lisansı çip tasarımı problemlerine uygulamaya başladılar. Dave [51] gibi ilk çalışmalar ilk olarak bir dil modeliyle (GPT-2) İngilizceden Verilog üretme olasılığını araştırdı. Bu çalışmanın ardından [6], GitHub ve Verilog ders kitaplarından toplanan Verilog veri kümelerindeki ince ayarlı açık kaynaklı LLM'lerin (CodeGen), 17 Verilog sorusunda code-davinci-002 gibi son teknoloji ürünü OpenAI modellerinden daha iyi performans gösterdiğini gösterdi. [12] 150'den fazla problem içeren bir kıyaslama önermiş ve önceden eğitilmiş dil modellerinin Verilog kod oluşturma kapasitesinin, LLM tarafından üretilen sentetik problem kodu çiftleri ile önyükleme yoluyla denetimli ince ayar ile geliştirilebileceğini göstermiştir. Chip-Chat [7], GPT-4 ve GPT-3.5'e sahip 8 bitlik akümülatör tabanlı bir mikroişlemci tasarlamak ve doğrulamak için konuşma akışlarıyla deneyler yaptı. Bulgular, GPT-4'ün nispeten yüksek kaliteli kodlar üretmesine rağmen hataları anlama ve düzeltme konusunda hâlâ yeterince iyi performans göstermediğini gösterdi. ChipEDA [8], EDA araçları komut dosyaları oluşturmak için LLM'lerin kullanılmasını önerdi. Ayrıca ince ayarlı LLaMA2 70B modelinin bu görevde GPT-4 modelinden daha iyi performans gösterdiğini de gösterdi.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .