著者:
(1)Mingjie Liu、NVIDIA {同等の貢献}
(2)Teodor-Dumitru Ene、NVIDIA {同等の貢献}
(3)ロバート・カービー、NVIDIA {同等の貢献}
(4)クリス・チェン、NVIDIA {同等の貢献}
(5)ナサニエル・ピンクニー、NVIDIA {平等な貢献}
(6)Rongjian Liang、NVIDIA {同等の貢献}
(7)ジョナ・アルベン、NVIDIA
(8)ヒムヤンシュ・アナンド、NVIDIA
(9)サンミトラ・バナージー、NVIDIA
(10)イスメット・バイラクタログル、NVIDIA
(11)ボニータ・バスカラン、NVIDIA
(12)ブライアン・カタンツァーロ、NVIDIA
(13)アルジュン・チャウドゥリ、NVIDIA
(14)シャロン・クレイ、NVIDIA
(15)ビル・ダリー、NVIDIA
(16)ローラ・ダン、NVIDIA
(17)パリクシット・デシュパンデ、NVIDIA
(18)シッダーント・ドーディ、NVIDIA
(19)サミール・ハレペテ、NVIDIA
(20)エリック・ヒル、NVIDIA
(21)Jiashang Hu、NVIDIA;
(22)スミット・ジェイン、NVIDIA
(23)ブルーチェク・カイラニー、NVIDIA
(24)ジョージ・コーカイ、NVIDIA
(25)キショール・クナル、NVIDIA
(26)シャオウェイ・リー、NVIDIA
(27)チャーリー・リンド、NVIDIA
(28)ハオ・リウ、NVIDIA
(29)スチュアート・オーバーマン、NVIDIA
(30)NVIDIAのスジート・オマール氏
(31)スリードハール・プラティ、NVIDIA
(23)ジョナサン・ライマン、NVIDIA
(33)アンバー・サルカー、NVIDIA
(34)NVIDIAの邵正江氏
(35)ハンフェイ・サン、NVIDIA
(36) Pratik P Suthar、NVIDIA;
(37)ヴァルン・テジ、NVIDIA
(38)ウォーカー・ターナー、NVIDIA
(39)Kaizhe Xu、NVIDIA;
(40)レン・ハオシン、NVIDIA。
多くのドメインには、ドメイン固有のLLMをトレーニングするために使用できる大量の独自データがあります。 1つのアプローチは、ドメイン固有の基礎モデルをゼロからトレーニングすることです。たとえば、金融の場合はBloombergGPT [10]、生物医学の場合はBioMedLLM [11]、科学の場合はGalactica [38]です。 これらのモデルは通常、1000億トークンを超える生のドメインデータでトレーニングされました。 2番目のアプローチは、ドメイン適応型事前トレーニング(DAPT)[14]であり、追加の生のドメインデータで事前トレーニング済みの基礎モデルを継続的にトレーニングします。 これは、生物医学、コンピューターサイエンスの出版物、ニュース、レビューなどのドメインのドメイン固有のタスクでわずかなパフォーマンスの向上を示しています。 1つの例では、[39]は技術コンテンツのデータセットで基礎モデルを継続的に事前トレーニングし、多くの定量的推論タスクで最先端のパフォーマンスを達成しました。
検索拡張生成(RAG)は、LLMが正確な情報を生成し、最新の情報を抽出して知識集約型NLPタスクを改善するのに役立ちます[40]。RAGを使用した小規模モデルは、RAGを使用しない大規模モデルよりも優れていることが観察されています[41]。検索方法には、TF-IDFやBM25 [42]などのスパース検索方法があり、単語統計情報を分析して高次元スパースベクトルで一致する文書を見つけます。[43] [44]などの密な検索方法は、検索データセットでの微調整の有無にかかわらず、大規模コーパスで事前トレーニングされた検索モデルによって生成された埋め込み空間で一致する文書を見つけます。検索モデルは、スタンドアロン[43] [44] [45]または言語モデルと共同でトレーニングできます[46] [41]。さらに、市販の汎用検索ツールは、さらなる微調整なしにベースライン言語モデルを大幅に改善できることが示されています[47]。RAGは、コーディング文書から検索することでコード生成タスクを実行することも提案されています[48]。
基礎モデルは補完モデルであり、チャットや指示に従う機能が限られています。そのため、モデルアライメントプロセスが基礎モデルに適用され、対応するチャットモデルがトレーニングされます。指示の微調整 [20] と人間のフィードバックからの強化学習 (RLHF) [36] は、2 つの一般的なモデルアライメント手法です。指示の微調整では、指示データセットを使用して基礎モデルをさらにトレーニングします。RLHF は、人間のフィードバックを利用してデータセットにラベルを付け、報酬モデルをトレーニングし、強化学習を適用して、トレーニングされた報酬モデルが与えられたモデルをさらに改善します。RLHF は通常、指示の微調整よりも複雑で、多くのリソースを消費します。そのため、最近の研究では、DPO [49] や SteerLM [50] などのより簡単な方法でこのオーバーヘッドを削減することも提案されています。
研究者たちは、LLMをチップ設計の問題に適用し始めています。Dave [51]などの初期の研究では、言語モデル(GPT-2)を使用して英語からVerilogを生成する可能性を最初に探究しました。その研究に続いて、[6]は、GitHubとVerilogの教科書から収集されたVerilogデータセットで微調整されたオープンソースLLM(CodeGen)が、17のVerilogの質問でcode-davinci-002などの最先端のOpenAIモデルよりも優れていることを示しました。[12]は150を超える問題を含むベンチマークを提案し、LLMで生成された合成問題コードペアを使用したブートストラップによる教師あり微調整により、事前学習済み言語モデルのVerilogコード生成機能を改善できることを実証しました。Chip-Chat [7]は、会話フローの実験を行い、GPT-4とGPT-3.5を使用して8ビットアキュムレータベースのマイクロプロセッサを設計および検証しました。彼らの調査結果によると、GPT-4は比較的高品質のコードを生成したが、エラーを理解して修正する能力はまだ十分ではないことがわかった。ChipEDA [8]は、LLMを使用してEDAツールのスクリプトを生成することを提案した。また、微調整されたLLaMA2 70BモデルがこのタスクでGPT-4モデルよりも優れていることも実証された。
この論文はCC 4.0ライセンスの下でarxivで公開されています。