117 okumalar

ChipNeMo: Çip Tasarımı için Etki Alanına Uyarlanmış Yüksek Lisanslar: Değerlendirmeler

ile Writings, Papers and Blogs on Text Models9m2024/06/06

Çok uzun; Okumak

Araştırmacılar, çip tasarımı için LLM'leri geliştirmek üzere alan uyarlamasını kullanarak, daha iyi performansla 5 kata kadar model boyutunu küçültmeyi başaran ChipNeMo'yu sunuyor.

featured image - ChipNeMo: Çip Tasarımı için Etki Alanına Uyarlanmış Yüksek Lisanslar: Değerlendirmeler

Yazarlar:

(1) Mingjie Liu, NVIDIA {Eşit katkı};

(2) Teodor-Dumitru Ene, NVIDIA {Eşit katkı};

(3) Robert Kirby, NVIDIA {Eşit katkı};

(4) Chris Cheng, NVIDIA {Eşit katkı};

(5) Nathaniel Pinckney, NVIDIA {Eşit katkı};

(6) Rongjian Liang, NVIDIA {Eşit katkı};

(7) Jonah Alben, NVIDIA;

(8) Himyanshu Anand, NVIDIA;

(9) Sanmitra Banerjee, NVIDIA;

(10) İsmet Bayraktaroğlu, NVIDIA;

(11) Bonita Bhaskaran, NVIDIA;

(12) Bryan Catanzaro, NVIDIA;

(13) Arjun Chaudhuri, NVIDIA;

(14) Sharon Clay, NVIDIA;

(15) Bill Dally, NVIDIA;

(16) Laura Dang, NVIDIA;

(17) Parikshit Deshpande, NVIDIA;

(18) Siddhanth Dhodhi, NVIDIA;

(19) Sameer Halepete, NVIDIA;

(20) Eric Hill, NVIDIA;

(21) Jiashang Hu, NVIDIA;

(22) Sumit Jain, NVIDIA;

(23) Brucek Khailany, NVIDIA;

(24) George Kokai, NVIDIA;

(25) Kishor Kunal, NVIDIA;

(26) Xiaowei Li, NVIDIA;

(27) Charley Lind, NVIDIA;

(28) Hao Liu, NVIDIA;

(29) Stuart Oberman, NVIDIA;

(30) Sujeet Omar, NVIDIA;

(31) Sreedhar Pratty, NVIDIA;

(23) Jonathan Raiman, NVIDIA;

(33) Ambar Sarkar, NVIDIA;

(34) Zhengjiang Shao, NVIDIA;

(35) Hanfei Sun, NVIDIA;

(36) Pratik P Suthar, NVIDIA;

(37) Varun Tej, NVIDIA;

(38) Walker Turner, NVIDIA;

(39) Kaizhe Xu, NVIDIA;

(40) Haoxing Ren, NVIDIA.

Bağlantı Tablosu

V. DEĞERLENDİRMELER

Bu bölümde eğitim metodolojimizi ve uygulama performansımızı değerlendiriyoruz. Eğitim metodolojisi değerlendirmesinde hem 7B hem de 13B modellerini, uygulama performans değerlendirmesinde ise yalnızca 13B modellerini inceliyoruz. Karşılaştırma için ayrıca iki temel sohbet modelini de değerlendiriyoruz: LLaMA2-13B-Chat* ve LLaMA2-70B-Chat. LLaMA2-13B-Chat*, insan geri bildiriminden takviyeli öğrenim (RLHF) ile eğitilen orijinal LLaMA2-13B-Chat modelinden farklı olan, genel amaçlı sohbet talimat veri setimizle hassas şekilde ayarlanmış temel LLaMA2 13B temel modelidir. Alana uyarlanmış modeller ile temel modellerin aynı model hizalama yaklaşımı altında adil bir şekilde karşılaştırılması için bunu yapmayı seçtik. LLaMA2-70B-Chat, en son teknoloji (SOTA) açık kaynaklı sohbet modeli olarak kabul edilen, RLHF ile eğitilmiş, halka açık LLaMA2-Chat modelidir.

A. Tokenlaştırıcı

LLaMA2 tokenizerini (32K token içeren), daha önce özetlenen dört adımlı süreci kullanarak çip tasarımı veri kümelerine uyarlıyoruz. LLaMA2 tokenizer'a yaklaşık 9 bin yeni token eklendi. Uyarlanan tokenlaştırıcılar, Şekil 5'te gösterildiği gibi çeşitli çip tasarımı veri kümelerinde tokenleştirme verimliliğini %1,6 ila %3,3 oranında artırabilir.

Herkese açık verilerde tokenizer verimliliğinde yapılan değişiklikler. Daha da önemlisi, DAPT'den önce bile özel artırılmış tokenizerleri kullanırken LLM'nin halka açık kıyaslamalardaki doğruluğunda önemli bir düşüş gözlemlemedik.

B. Etki Alanına Uyarlanabilir Ön Eğitim

Şekil 6, çip tasarımı alanı ve açık alan akademik kıyaslamaları için AutoEval karşılaştırmasındaki ChipNeMo modellerinin sonuçlarını göstermektedir. Araştırma bulgularımızı şu şekilde özetleyebiliriz:

DAPT modelleri, açık alan akademik ölçütlerinde doğruluk açısından hafif bir bozulma sergiliyor.
DAPT, alanın kendi içindeki görevler üzerinde önemli ölçüde olumlu bir etki yaratır. Bu etki, genel devre tasarımı bilgisinin yanı sıra dahili tasarım bilgisindeki önemli gelişmelerle de kendini göstermektedir.
Daha büyük ve daha performanslı temel modellerin kullanılması, alana özgü görevlerde daha iyi sıfır atış sonuçları sağlar. Ayrıca, üstün temel modellerin kullanılması, DAPT sonrası geliştirilmiş etki alanı modelleriyle sonuçlanır ve bu da etki alanı içi görevlerde performansın artmasına yol açar.
Etki alanı içi görevlerle DAPT'ye atfedilen iyileştirmeler, model boyutuyla pozitif bir korelasyon sergiliyor; daha büyük modeller, DAPT sonrası etki alanına özgü görev performansında daha belirgin iyileştirmeler gösteriyor.

C. Eğitim Ablasyon Çalışmaları

Ablasyon çalışmalarımız için, birden fazla alan uyarlamalı ön eğitim turu gerçekleştirdik. Kısa özetler sunuyoruz ve ayrıntılar için Ek B'ye başvuruyoruz.

Artırılmış tokenizer ile orijinal tokenizer ile eğitim arasındaki farkların ihmal edilebilir olduğu görüldü. Bu nedenle öncelikle akademik kıyaslamalardaki doğruluk bozulmasını alan verilerine bağlıyoruz. Üstelik, kamuya açık veri setinin kaldırılması, gözle görülür bir fark gözlemlediğimiz Verilog kodlaması haricinde, akademik kıyaslamalar da dahil olmak üzere çoğu görevde yalnızca biraz gerileme gösterdi. Bu, GitHub Verilog verilerinin dahil edilmesinin, özellikle temel temel modellerin bu alanda yeterli veriye sahip olmadığı durumlarda, gelişmiş Verilog kodlama yeteneklerine katkıda bulunduğunu göstermektedir.

Araştırmamızda CodeLLaMA'da olduğu gibi daha büyük bir öğrenme oranı kullanmayı denedik [32]. İlk eğitim adımlarında eğitim kaybında büyük artışlar gözlemledik. Her ne kadar bu yaklaşım sonuçta eğitim ve doğrulama kaybının artmasına yol açsa da, kodlama dışında tüm alana özgü ve akademik ölçütlerde önemli bozulmalar olduğunu fark ettik. Daha küçük bir öğrenme oranının, temel modelden çok fazla sapmayan bir dengeyi korurken, alan bilgisinin DAPT aracılığıyla damıtılmasını kolaylaştırarak ikili bir rol oynadığını ve böylece genel doğal dil yeteneklerini koruduğunu varsayıyoruz.

Ayrıca Etki Alanına Uyarlanabilir Ön Eğitim (DAPT) bağlamında Parametre Verimli İnce Ayarın (PEFT) uygulanmasını da araştırdık. Bu amaçla, sırasıyla 26,4 milyon (küçük) ve 211,2 milyon (büyük) ek parametrelerin tanıtıldığı LoRA adaptörlerinin [16] dahil edilmesini içeren iki deney gerçekleştirdik. Her iki durumda da bulgularımız, tam parametreli DAPT yaklaşımıyla karşılaştırıldığında alan içi görevlerde önemli bir doğruluk açığı olduğunu ortaya çıkardı. Ayrıca, küçük ve büyük PEFT modelleri arasındaki sonuçları karşılaştırırken, alan içi görev doğruluğunda marjinal bir gelişme gözlemledik, büyük modellerde ise hafif bir iyileşme görüldü.

D. Eğitim Maliyeti

Tüm modeller 128 adet A100 GPU kullanılarak eğitimden geçirilmiştir. Tablo IV'te gösterildiği gibi ChipNeMo için etki alanına uyarlanabilir ön eğitimle ilişkili maliyetleri tahmin ediyoruz. DAPT'nin, temel bir modelin sıfırdan ön eğitiminin genel maliyetinin %1,5'inden daha azını oluşturduğunu belirtmekte fayda var.

E. RAG ve Mühendislik Asistanı Chatbot

RAG yöntemini kullanan tasarım sohbet yardımının performansını değerlendirmek için bir kıyaslama oluşturduk. Bu kıyaslama üç kategoride 88 soru içerir: mimari/tasarım/doğrulama spesifikasyonları (Özellikler), testbenç regresyon dokümantasyonu (Testbench) ve yapı altyapısı dokümantasyonu (Derleme). Her soru için altın cevabın yanı sıra cevaba ilişkin bilgiyi içeren tasarım belgesindeki paragrafları da belirtiyoruz. Bu sorular, tasarımcılar tarafından, erişim için veri deposu olarak bir dizi tasarım belgesine dayalı olarak manuel olarak oluşturulur. Her biri yaklaşık 512 karakterden oluşan 67 bin pasaja bölünmüş yaklaşık 1,8 bin belge içerir.

İlk olarak, etki alanına uyarlanmış erişim modelimizi her kategoride Cümle Transformatörü [33] ve e5_small_unsupervised [30] ile karşılaştırıyoruz. Her model veri deposundan en iyi 8 pasajını alır.

Özellikler kategorisindeki sorgular doğrudan belgelerdeki pasajlardan türetilir; bu nedenle yanıtları genellikle kısa bir pasajda güzel bir şekilde yer alır ve soruyu net bir şekilde ele alır.

Öte yandan, Testbench ve Build kategorilerinin sorguları doğrudan pasajlardan türetilmemiştir, bu nedenle yanıtları genellikle getirilen pasajlarda o kadar belirgin değildi ve daha fazla bağlam gerektiriyordu (ayrıntılı örnekler için bkz. Ek C). Bu, kategoriler arasındaki erişim kalitesi farkına önemli ölçüde katkıda bulunur.

RAG'lı ve RAG'sız birden fazla ChipNeMo modelinin ve LLaMA2 modelinin değerlendirmesini gerçekleştirdik. Sonuçlar daha sonra insan değerlendiriciler tarafından 10 puanlık bir ölçekte puanlandı ve Şekil 8'de gösterildi.

Aşağıdaki gözlemleri yaptık:

• RAG, insan puanlarını önemli ölçüde artırır. RAG, LLaMA2-13B-Chat*, ChipNeMo-13B-Chat ve LLaMA2-70B-Chat'in puanlarını sırasıyla 3,82, 2,19 ve 5,05 artırıyor. Özellikle LLaMA2 modellerinde, RAG miss durumunda bile puanların genellikle daha yüksek olduğunu unutmayın. Ek alan içi bağlamın performansı artırmaya yardımcı olduğunu varsayıyoruz.

• ChipNeMo-13B-Chat, benzer boyuttaki LLaMA2-13B-Chat*'i yalnızca modelde ve RAG değerlendirmelerinde sırasıyla 2,88 ve 1,25 oranında geride bırakıyor.

• RAG özellikli ChipNeMo-13B-Chat, RAG özellikli 5 kat daha büyük model LLaMA2-70B-Chat ile aynı puanı (7,4) elde ediyor; burada LLaMA2-70B-Chat, isabetlere ilişkin yanıtları çıkarmada daha iyi performans gösteriyor; ancak alan adı uyarlaması bu eksikleri telafi ediyor.

• Etki Alanı SFT, ChipNeMo-13B-Chat performansının 0,28 (RAG ile) ve 0,33 (RAG olmadan) artmasına yardımcı olur.

Tüm modellere ilişkin değerlendirme sonuçlarının tamamı Ek D'de gösterilmektedir.

F. EDA Komut Dosyası Oluşturma

Modelimizi EDA betiği oluşturma görevinde değerlendirmek için iki farklı türde kıyaslama oluşturduk. Birincisi, altın yanıtla karşılaştırılarak insan müdahalesi olmadan değerlendirilebilecek bir dizi “Kolay” ve “Orta” zorluktaki görevlerdir (1-4 satırlı çözümler). Bu kriterleri oluşturmak ve değerlendirmek için gereken çalışma nedeniyle, bu değerlendirme setini yalnızca Python görevimiz için hazırladık. İkinci görev grubu (“Zor”) mühendislerimizin seçtiği gerçek kullanım senaryolarından gelir. Bu görevler çok daha zordur ve çözülmesi için 10'larca satır gerekir. Bunların otomatik olarak değerlendirilmesi zor olduğundan, insan mühendislerin doğruluğu %0 ile %100 arasında değerlendirmesini sağladık. Bu kriterlerin boyutu Tablo V'te açıklanmıştır. Bu modelleri daha da geliştirmemize olanak sağlamak amacıyla bu kriterlerin hem boyutunu hem de kapsamını artırmaya yönelik çalışmalar devam etmektedir.

Modellerimizin bazı zor görevlerimize cevap veremediğini keşfettik. Görevler birçok araç API'si hakkında bilgi gerektiriyordu ve model, kontrol akışını düzgün bir şekilde organize ederken uygun olanlara karar veremiyor gibi görünüyordu. Bunu hafifletmek için, her soruya özel olarak, istemlere insanlar tarafından seçilmiş bir bağlam ekledik. Bu içerik, istenen betiği düzgün bir şekilde yazmak için gereken farklı işlevlerin veya niteliklerin açıklamalarını içeriyordu. Bunu yalnızca “Bağlam İçeren Sert” kıyaslama kategorisi için sağladık. Bu aynı zamanda, gelecekteki çalışmalara bırakacağımız, erişime dayalı bir çözümün olası etkisini incelememize de olanak tanır.

Şekil 9'daki ablasyon sonuçlarında görülebileceği gibi, sorunumuz için hem DAPT hem de domain SFT önemliydi. DAPT olmadan modelin temel API'ler hakkında çok az bilgisi vardı veya hiç yoktu ve otomatik olarak değerlendirilen kıyaslamalarda düşük performans gösteriyordu. Etki Alanı SFT sonuçları daha da iyileştirdi. Bunun, etki alanı SFT verilerimizin, modelin son komut dosyasını en doğrudan uygulanabilir şekilde sunmasına rehberlik etmesine yardımcı olmasından kaynaklandığına inanıyoruz.

İlginç bir sonuç, "Bağlamla Sert" kıyaslamalarında LLaMA2-70B'nin geçiş oranıdır. Python aracındaki çoğu modelden daha iyi performans gösterir ancak Tcl aracında kötü performans gösterir. Bunun nedeni muhtemelen doğru bağlam sağlandığında LLaMA2-70B'nin üstün genel Python kodlama yeteneğinin üzerinde eğitim almadığı yeni sorunları çözebilmesidir. Ancak LLaMA2-70B modeli, büyük olasılıkla büyük miktarda Tcl koduna maruz kalmadığından kodlama yeteneğini Tcl aracına genelleştiremiyor. Bu, düşük hacimli veya özel programlama dilleri söz konusu olduğunda DAPT'nin faydasını vurgular.

G. Hata Özetleme ve Analizi

Hata özetleme ve analizine ilişkin modellerimizi değerlendirmek için, özetleme için ideal adaylar olan 40 hatadan oluşan bir setimiz var. Bu, uzun bir yorum geçmişine veya hataların bir insan için hızla özetlenmesini zorlaştıran diğer verilere sahip olmayı da içerir. Daha sonra insanlardan her iki özetleme modunu ve Yüksek Lisans'ın önerdiği hata atamasını derecelendirmelerini istiyoruz. Değerlendirme metriği 7 puanlık Likert ölçeğine dayanmaktadır. Sonuçlarımız Şekil 10'da yer almaktadır.

ChipNeMo-13B-Chat modelleri, üç görevin tamamında temel LLaMA2- 13B-Chat* modelinden daha iyi performans göstererek, teknik özet, yönetim özeti ve görev önerisi için 7 puanlık Likert puanını sırasıyla 0,82, 1,09 ve 0,61 artırıyor. Etki Alanı SFT'si ayrıca yönetimsel özetleme ve görev atama konusunda etki alanı SFT'si olmadan performansları önemli ölçüde artırır.

Kalitesi ve teknik içeriği daha çok modelin doğal dil anlambilimi anlayışına bağlı olan teknik özetleme görevinin aksine, yönetimsel özetin, modelin kilit personel/mühendis adlarını korurken girdi verilerinin nasıl özetleneceğini anlamasını gerektirdiğini varsayıyoruz. Bu, LLM'nin talimat bazlı daha dikkatli bir şekilde ayarlanmasını gerektirir.

LLaMA2-70B-Chat modeli ayrıca her üç görevde de çok iyi performans göstererek ChipNeMo-13B modelini tüm görevlerde geride bırakıyor. LLaMA2-70B-Chat modelinin ayrıca 4096 bağlam boyutuyla uzun bağlam zorluklarından muzdarip olduğunu unutmayın; etkili parça ve birleştirme şemalarına (hiyerarşik ve artımlı), özetlemenin çeşitli aşamalarında öğretimsel istemlerin seçimine, görev ataması sırasında ipucunun seçimine, ve ham veri formatlama/ön işleme, uzun bağlam sorununun aşılmasına yardımcı olur ve LLaMA2-70B-Chat'in DAPT ve etki alanı SFT'si olmadan bile yüksek puanlar elde etmesini sağlar.