著者:
(1)Mingjie Liu、NVIDIA {同等の貢献}
(2)Teodor-Dumitru Ene、NVIDIA {同等の貢献}
(3)ロバート・カービー、NVIDIA {同等の貢献}
(4)クリス・チェン、NVIDIA {同等の貢献}
(5)ナサニエル・ピンクニー、NVIDIA {平等な貢献}
(6)Rongjian Liang、NVIDIA {同等の貢献}
(7)ジョナ・アルベン、NVIDIA
(8)ヒムヤンシュ・アナンド、NVIDIA
(9)サンミトラ・バナージー、NVIDIA
(10)イスメット・バイラクタログル、NVIDIA
(11)ボニータ・バスカラン、NVIDIA
(12)ブライアン・カタンツァーロ、NVIDIA
(13)アルジュン・チャウドゥリ、NVIDIA
(14)シャロン・クレイ、NVIDIA
(15)ビル・ダリー、NVIDIA
(16)ローラ・ダン、NVIDIA
(17)パリクシット・デシュパンデ、NVIDIA
(18)シッダーント・ドーディ、NVIDIA
(19)サミール・ハレペテ、NVIDIA
(20)エリック・ヒル、NVIDIA
(21)Jiashang Hu、NVIDIA;
(22)スミット・ジェイン、NVIDIA
(23)ブルーチェク・カイラニー、NVIDIA
(24)ジョージ・コーカイ、NVIDIA
(25)キショール・クナル、NVIDIA
(26)シャオウェイ・リー、NVIDIA
(27)チャーリー・リンド、NVIDIA
(28)ハオ・リウ、NVIDIA
(29)スチュアート・オーバーマン、NVIDIA
(30)NVIDIAのスジート・オマール氏
(31)スリードハール・プラティ、NVIDIA
(23)ジョナサン・ライマン、NVIDIA
(33)アンバー・サルカー、NVIDIA
(34)NVIDIAの邵正江氏
(35)ハンフェイ・サン、NVIDIA
(36) Pratik P Suthar、NVIDIA;
(37)ヴァルン・テジ、NVIDIA
(38)ウォーカー・ターナー、NVIDIA
(39)Kaizhe Xu、NVIDIA;
(40)レン・ハオシン、NVIDIA。
このセクションでは、トレーニング方法とアプリケーション パフォーマンスを評価します。トレーニング方法の評価では 7B モデルと 13B モデルの両方を調査し、アプリケーション パフォーマンスの評価では 13B モデルのみを調査します。比較のために、2 つのベースライン チャット モデル、LLaMA2-13B-Chat* と LLaMA2-70B-Chat も評価します。LLaMA2-13B-Chat* は、汎用チャット指示データセットで微調整された基礎 LLaMA2 13B ベース モデルであり、人間のフィードバックからの強化学習 (RLHF) でトレーニングされた元の LLaMA2-13B-Chat モデルとは異なります。同じモデル調整アプローチでドメイン適応モデルとベース モデルを公平に比較するために、このように選択しました。LLaMA2-70B-Chat は、最先端 (SOTA) のオープン ソース チャット モデルと見なされている RLHF でトレーニングされた、公開されている LLaMA2-Chat モデルです。
A. トークナイザー
前述の4段階のプロセスを使用して、LLaMA2トークナイザー(32Kトークンを含む)をチップ設計データセットに適合させます。約9Kの新しいトークンがLLaMA2トークナイザーに追加されます。適合したトークナイザーは、図5に示すように、さまざまなチップ設計データセットでトークン化効率を1.6%から3.3%向上させることができます。明らかな違いは見られません。
公開データに対するトークナイザーの効率性の変更。重要なことは、DAPT 以前であっても、カスタム拡張トークナイザーを使用した場合、公開ベンチマークでの LLM の精度が大幅に低下していないことです。
B. ドメイン適応型事前学習
図 6 は、チップ設計ドメインの AutoEval ベンチマークとオープン ドメインの学術ベンチマークにおける ChipNeMo モデルの結果を示しています。私たちの研究結果は次のようにまとめることができます。
DAPT モデルは、オープンドメインの学術ベンチマークでは精度がわずかに低下します。
DAPT は、ドメイン自体のタスクに多大なプラスの影響を与えます。この効果は、内部設計知識と一般的な回路設計知識の大幅な向上として現れます。
より大規模でパフォーマンスの高い基礎モデルを使用すると、ドメイン固有のタスクでゼロショットの結果が向上します。さらに、優れた基本モデルを採用すると、DAPT 後のドメイン モデルが強化され、ドメイン内タスクのパフォーマンスが向上します。
ドメイン内タスクでの DAPT による改善はモデル サイズと正の相関関係を示し、モデルが大きいほど DAPT 後のドメイン固有のタスク パフォーマンスがより顕著に向上します。
C. トレーニングアブレーション研究
私たちのアブレーション研究では、複数回のドメイン適応型事前トレーニングを実施しました。簡単な概要を示し、詳細については付録 B を参照してください。
拡張トークナイザーと元のトークナイザーを使用したトレーニングの違いはごくわずかであるように思われます。したがって、学術ベンチマークでの精度低下は主にドメイン データによるものと考えられます。さらに、パブリック データセットの削除により、学術ベンチマークを含むほとんどのタスクでわずかな低下が見られましたが、Verilog コーディングでは顕著な違いが見られました。これは、GitHub Verilog データを含めることで、特にこのドメインで基本基盤モデルに十分なデータが不足していた場合に、Verilog コーディング機能の強化に貢献したことを示唆しています。
私たちの調査では、CodeLLaMA [32]のように、より大きな学習率を採用する実験を行いました。初期のトレーニングステップで、トレーニング損失の大きなスパイクが観察されました。このアプローチは最終的にトレーニング損失と検証損失の改善につながりましたが、コーディングを除くすべてのドメイン固有および学術的なベンチマークで大幅な劣化が見られました。学習率が小さいと、DAPTを通じてドメイン知識の抽出を促進すると同時に、ベースモデルから大きく逸脱しないバランスを維持し、一般的な自然言語機能を維持するという2つの役割を果たしたと仮定しています。
また、ドメイン適応型事前トレーニング(DAPT)のコンテキストでパラメータ効率的なファインチューニング(PEFT)の適用についても検討しました。この研究では、LoRAアダプター[16]を組み込んだ2つの実験を実施し、それぞれ2,640万(小)と2億1,120万(大)の追加パラメーターを導入しました。どちらの場合も、フルパラメーターDAPTアプローチと比較した場合、ドメイン内タスクで大きな精度のギャップがあることが明らかになりました。さらに、小規模PEFTモデルと大規模PEFTモデルの結果を比較すると、ドメイン内タスクの精度がわずかに向上し、大規模モデルではわずかな改善が見られました。
D. 研修費用
すべてのモデルは、128 個の A100 GPU を使用してトレーニングされています。表 IV に示すように、ChipNeMo のドメイン適応型事前トレーニングに関連するコストを推定しています。DAPT が基礎モデルを最初から事前トレーニングするコスト全体の 1.5% 未満を占めていることは注目に値します。
E. RAGとエンジニアリングアシスタントチャットボット
RAG 方式を使用する設計チャット アシスタンスのパフォーマンスを評価するためのベンチマークを作成しました。このベンチマークには、アーキテクチャ/設計/検証仕様 (仕様)、テストベンチ回帰ドキュメント (テストベンチ)、およびビルド インフラストラクチャ ドキュメント (ビルド) の 3 つのカテゴリに 88 の質問が含まれています。質問ごとに、ゴールデン アンサーと、回答に関連する知識を含む設計ドキュメントの段落を指定します。これらの質問は、検索用のデータ ストアとして一連の設計ドキュメントに基づいて、デザイナーが手動で作成します。これには約 1.8K のドキュメントが含まれており、それぞれ約 512 文字の 67K の段落に分割されています。
まず、各カテゴリーにおいて、ドメイン適応検索モデルをSentence Transformer [33]およびe5_small_unsupervised [30]と比較します。各モデルは、データストアから上位8つの文章を取得します。
仕様カテゴリのクエリはドキュメント内の文章から直接派生しているため、回答は簡潔な文章にうまくまとめられており、クエリに明確に対応していることが多い。
一方、Testbench および Build カテゴリのクエリは文章から直接派生したものではないため、その回答は取得された文章では明らかではないことが多く、より多くのコンテキストが必要になります (詳細な例については付録 C を参照)。これが、カテゴリ間の検索品質の違いに大きく影響します。
RAG ありとなしの複数の ChipNeMo モデルと LLaMA2 モデルの評価を実施しました。結果は人間の評価者によって 10 点満点で採点され、図 8 に示されています。
私たちは以下の観察をしました:
• RAG は人間のスコアを大幅に向上させます。RAG は、LLaMA2-13B-Chat*、ChipNeMo-13B-Chat、LLaMA2-70B-Chat のスコアをそれぞれ 3.82、2.19、5.05 向上させます。特に LLaMA2 モデルでは、RAG ミスがあってもスコアは一般的に高くなることに注意してください。ドメイン内の追加のコンテキストがパフォーマンスの向上に役立つと仮定しています。
• ChipNeMo-13B-Chat は、モデルのみの評価と RAG 評価において、同様のサイズの LLaMA2-13B-Chat* よりもそれぞれ 2.88 と 1.25 優れています。
• ChipNeMo-13B-Chat with RAG は、5 倍の大型モデル LLaMA2-70B-Chat with RAG と同じスコア (7.4) を達成しました。LLaMA2-70B-Chat はヒット時の回答抽出において優れていますが、ミスについてはドメイン適応によってそれを補っています。
• ドメイン SFT により、ChipNeMo-13B-Chat のパフォーマンスが 0.28 (RAG あり) および 0.33 (RAG なし) 向上します。
すべてのモデルの完全な評価結果は付録 D に示されています。
F. EDAスクリプト生成
EDA スクリプト生成タスクでモデルを評価するために、2 種類のベンチマークを作成しました。1 つ目は、ゴールデン レスポンスと比較することで人間の介入なしに評価できる「簡単」および「中程度」の難易度のタスク (1 ~ 4 行のソリューション) のセットです。これらのベンチマークの構築と評価には作業が必要なため、Python タスクにはこの評価セットのみが用意されています。2 つ目のタスク セット (「難しい」) は、エンジニアが選択した実際の使用ケース シナリオから取得されます。これらのタスクははるかに難しく、解決に数十行が必要です。これらを自動的に評価するのは難しいため、人間のエンジニアに 0% から 100% の間で正確性を判断してもらいました。これらのベンチマークのサイズは、表 V に示されています。これらのモデルをさらに改善できるように、これらのベンチマークのサイズと範囲の両方を拡大する作業が進行中です。
私たちのモデルは、難しいタスクの一部に答えることができないことがわかりました。タスクには多くのツール API の知識が必要でしたが、モデルは制御フローを適切に整理しながら適切な API を決定できないようでした。この問題を軽減するために、各質問に固有のプロンプトに、人間がキュレートしたコンテキストを追加しました。このコンテキストには、目的のスクリプトを適切に記述するために必要なさまざまな機能や属性の説明が含まれていました。これは、「コンテキスト付きの難しい」ベンチマーク カテゴリにのみ提供しました。これにより、検索ベースのソリューションの考えられる効果も調査できますが、これは今後の作業に残します。
図 9 のアブレーション結果からわかるように、私たちの問題では DAPT とドメイン SFT の両方が重要でした。DAPT がなければ、モデルは基礎となる API をほとんど理解できず、自動的に評価されたベンチマークでのパフォーマンスも低下しました。ドメイン SFT によって結果がさらに改善されました。これは、ドメイン SFT データがモデルをガイドして、最終スクリプトを最も直接的に適用可能な方法で提示するのに役立つためだと考えています。
興味深い結果の 1 つは、LLaMA2-70B の「Hard with Context」ベンチマークの合格率です。このモデルは、Python ツールではほとんどのモデルよりも優れていますが、Tcl ツールでは劣っています。これは、正しいコンテキストが提供されると、LLaMA2-70B の優れた一般的な Python コーディング能力により、トレーニングされていない新しい問題を解決できるためと考えられます。ただし、LLaMA2-70B モデルは、大量の Tcl コードに触れていないため、そのコーディング能力を Tcl ツールに一般化できません。これは、少量または独自のプログラミング言語に関しては DAPT の利点を強調しています。
G. バグの要約と分析
バグの要約と分析に関するモデルを評価するために、要約の理想的な候補となる 40 個のバグのホールドアウト セットを用意しました。これには、人間が簡単に要約するのが難しい長いコメント履歴やその他のデータを含むバグが含まれます。次に、要約の両方のモードと LLM が提案するバグの割り当てを人間に評価してもらいます。評価基準は、7 段階のリッカート尺度に基づいています。結果は図 10 に示されています。
ChipNeMo-13B-Chat モデルは、3 つのタスクすべてでベース LLaMA2-13B-Chat* モデルよりも優れており、技術要約、管理要約、割り当て推奨のそれぞれで 7 ポイントの Likert スコアが 0.82、1.09、0.61 向上しています。ドメイン SFT は、管理要約とタスク割り当てにおいても、ドメイン SFT なしの場合よりもパフォーマンスが大幅に向上しています。
品質と技術的内容がモデルの自然言語意味論の理解に大きく依存する技術的要約タスクとは対照的に、管理要約では、主要な人員/エンジニア名を保持しながら入力データを要約する方法をモデルが理解する必要があると仮定します。これには、LLM のより慎重な指示ベースの微調整が必要です。
LLaMA2-70B-Chat モデルも 3 つのタスクすべてで非常に優れたパフォーマンスを発揮し、すべてのタスクで ChipNeMo-13B モデルを上回りました。LLaMA2-70B-Chat モデルも 4096 コンテキスト サイズで長いコンテキストの課題に悩まされることに留意してください。効果的なチャンク アンド コンバインのスキーム (階層的および増分的)、要約のさまざまな段階での指示プロンプトの選択、タスク割り当て中のプロンプトの選択、および生データのフォーマット/前処理により、長いコンテキストの課題を回避し、DAPT およびドメイン SFT がなくても LLaMA2-70B-Chat が高スコアを達成できると考えています。
この論文はCC 4.0ライセンスの下でarxivで公開されています。