著者:
(1)Mingjie Liu、NVIDIA {同等の貢献}
(2)Teodor-Dumitru Ene、NVIDIA {同等の貢献}
(3)ロバート・カービー、NVIDIA {同等の貢献}
(4)クリス・チェン、NVIDIA {同等の貢献}
(5)ナサニエル・ピンクニー、NVIDIA {平等な貢献}
(6)Rongjian Liang、NVIDIA {同等の貢献}
(7)ジョナ・アルベン、NVIDIA
(8)ヒムヤンシュ・アナンド、NVIDIA
(9)サンミトラ・バナージー、NVIDIA
(10)イスメット・バイラクタログル、NVIDIA
(11)ボニータ・バスカラン、NVIDIA
(12)ブライアン・カタンツァーロ、NVIDIA
(13)アルジュン・チャウドゥリ、NVIDIA
(14)シャロン・クレイ、NVIDIA
(15)ビル・ダリー、NVIDIA
(16)ローラ・ダン、NVIDIA
(17)パリクシット・デシュパンデ、NVIDIA
(18)シッダーント・ドーディ、NVIDIA
(19)サミール・ハレペテ、NVIDIA
(20)エリック・ヒル、NVIDIA
(21)Jiashang Hu、NVIDIA;
(22)スミット・ジェイン、NVIDIA
(23)ブルーチェク・カイラニー、NVIDIA
(24)ジョージ・コーカイ、NVIDIA
(25)キショール・クナル、NVIDIA
(26)シャオウェイ・リー、NVIDIA
(27)チャーリー・リンド、NVIDIA
(28)ハオ・リウ、NVIDIA
(29)スチュアート・オーバーマン、NVIDIA
(30)NVIDIAのスジート・オマール氏
(31)スリードハール・プラティ、NVIDIA
(23)ジョナサン・ライマン、NVIDIA
(33)アンバー・サルカー、NVIDIA
(34)NVIDIAの邵正江氏
(35)ハンフェイ・サン、NVIDIA
(36) Pratik P Suthar、NVIDIA;
(37)ヴァルン・テジ、NVIDIA
(38)ウォーカー・ターナー、NVIDIA
(39)Kaizhe Xu、NVIDIA;
(40)レン・ハオシン、NVIDIA。
A. ドメイン適応に関する考慮事項
ドメイン適応型 ChipNeMo モデルは対応する基礎モデルに比べて大幅な改善を達成していますが、図 8、9、10 に示すように、より大きな LLaMA2 70B が ChipNeMo と同等の精度を達成できることも確認されています。最近の研究では、これらの強力なモデルを利用してチップ設計タスクを実行しています。
しかし、より小さなモデルを使用することで得られるコスト効率のメリットを考慮することが重要です。Pope らは、同じレイテンシ ターゲットの場合、8B モデルの推論コストは 62B モデルの 8 ~ 12 倍低いことを実証しています [34]。さらに、モデル サイズの縮小により、モデルを単一の GPU またはノード内に収めることができるため、推論速度が大幅に向上します (通常は不可能) [35]。当社の ChipNeMo 13B モデルは、LLaMA2 70B モデルとは異なり、量子化なしで単一の A100 GPU のメモリ内にロードできます。これにより、通常の GPU 操作で推論速度が大幅に向上しますが、GPU がアンダークロックされている場合は、推論コストが大幅に削減されます。
したがって、実稼働環境で大規模な汎用モデルを使用するか、小規模な専用モデルを使用するかを決定する際には、次の基準を考慮する必要があります。
• トレーニングと推論のトレードオフ:より小規模なドメイン適応モデルでも、より大規模な汎用モデルの精度に匹敵します。ドメイン適応には追加の初期コストがかかりますが、より小規模なモデルを使用すると運用コストが大幅に削減されます。
• ユースケースの独自性:図 6、9、10 からわかるように、ドメイン適応モデルは、独自の言語やライブラリでコードを記述するなど、パブリック ドメインにはほとんど存在しないタスクで最も改善が見られます。実際、私たちのデータは、厳選されたコンテキストが提供された場合でも、大規模な汎用モデルがそのようなシナリオでドメイン適応モデルの精度に匹敵することは困難であることを示しています。
• ドメイン データの可用性:ドメイン適応は、大量のトレーニング データ (つまり、数十億のトレーニング トークン) がある場合に最も効果的に機能します。これは、大量の社内ドキュメントとコードを蓄積している大企業やプロジェクトによく当てはまりますが、小規模な企業やプロジェクトには必ずしも当てはまりません。
• エンドユースケースの多様性:特定のタスク向けに汎用モデルを微調整することは可能ですが、ドメイン適応型モデルはドメイン内のさまざまなタスクに適しています。この研究では ChipNeMo モデルのユースケースを 3 つだけ示していますが、十分な SFT データがあれば他のユースケースにも簡単に再利用できます。
B. パフォーマンスギャップ
ChipNeMo は、付録 E に示すように、選択したアプリケーションで優れた結果を達成していますが、すべてのアプリケーションの評価結果では、人間の専門家のパフォーマンスとのギャップが依然として大きくなっています。このパフォーマンス ギャップを埋めるために、次のアプローチを検討しています。
1) データ収集: DAPT データセットを拡張して、より多くの社内独自データを含めることができます。さらに、タスク固有の SFT によって評価結果が大幅に改善されることが証明されているため、SFT のタスク固有の命令セットをさらに追加する予定です。
2) ベースモデル: LLaMA2 70Bのようなより優れた、より大きなベースモデルはパフォーマンスを向上させることが期待されます。また、コード生成タスク用のCode LLaMA [32]などのコード固有のベースモデルにDAPTを適用することも検討できます。
3) トレーニング: ChipNeMoチャットモデルをより汎用的にするために、人間のフィードバックからの強化学習(RLHF) [36]を実施する予定です。汎用データセットでトレーニングされた事前トレーニング済みの報酬モデルを活用する予定です。また、バグ要約アプリケーションなど、長いコンテキストが必要な課題を克服するために、長いコンテキストトレーニング[37]を実施する予定です。一般に、より長いコンテキストのサポートは、チャット支援やコード生成のための検索ベースの方法を改善するのに役立ちます。
4) 検索:エンジニアリング アシスタント チャットボットと EDA スクリプト生成の両方について、より優れた RAG 手法をさらに調査します。エンジニアリング アシスタント チャットボットでは、さまざまなアプリケーション領域に異なるデータ ストアを作成できます。また、エンタープライズ検索エンジンを RAG と統合して、さまざまな問題に関連するコンテキストを見つけることもできます。コード生成については、既存のコードとドキュメントからコンテキストを自動的に取得する方法を調査できます。
C. エージェントベース設計手法
この研究で実験したユースケースは、LLM のプロンプトと応答機能の直接的な応用です。エージェントとは、LLM を使用して一連のアクションを選択することを指します。ここで、LLM は外部ツールを駆動する推論エンジンとして機能します。チップ設計プロセスには、多くの既存の EDA ツールと方法論が関係しています。これらの方法論の一部は、ChipNeMo モデルなどのドメイン適応型 LLM を搭載したエージェントによって駆動できると考えています。今後は、検証と最適化のためのエージェントベースの設計方法論に取り組む予定です。
この論文はCC 4.0ライセンスの下でarxivで公開されています。