Autoren:
(1) Mingjie Liu, NVIDIA {Gleicher Beitrag};
(2) Teodor-Dumitru Ene, NVIDIA {Gleicher Beitrag};
(3) Robert Kirby, NVIDIA {Gleicher Beitrag};
(4) Chris Cheng, NVIDIA {Gleicher Beitrag};
(5) Nathaniel Pinckney, NVIDIA {Gleicher Beitrag};
(6) Rongjian Liang, NVIDIA {Gleicher Beitrag};
(7) Jonah Alben, NVIDIA;
(8) Himyanshu Anand, NVIDIA;
(9) Sanmitra Banerjee, NVIDIA;
(10) Ismet Bayraktaroglu, NVIDIA;
(11) Bonita Bhaskaran, NVIDIA;
(12) Bryan Catanzaro, NVIDIA;
(13) Arjun Chaudhuri, NVIDIA;
(14) Sharon Clay, NVIDIA;
(15) Bill Dally, NVIDIA;
(16) Laura Dang, NVIDIA;
(17) Parikshit Deshpande, NVIDIA;
(18) Siddhanth Dhodhi, NVIDIA;
(19) Sameer Halepete, NVIDIA;
(20) Eric Hill, NVIDIA;
(21) Jiashang Hu, NVIDIA;
(22) Sumit Jain, NVIDIA;
(23) Brucek Khailany, NVIDIA;
(24) George Kokai, NVIDIA;
(25) Kishor Kunal, NVIDIA;
(26) Xiaowei Li, NVIDIA;
(27) Charley Lind, NVIDIA;
(28) Hao Liu, NVIDIA;
(29) Stuart Oberman, NVIDIA;
(30) Sujeet Omar, NVIDIA;
(31) Sreedhar Pratty, NVIDIA;
(23) Jonathan Raiman, NVIDIA;
(33) Ambar Sarkar, NVIDIA;
(34) Zhengjiang Shao, NVIDIA;
(35) Hanfei Sun, NVIDIA;
(36) Pratik P Suthar, NVIDIA;
(37) Varun Tej, NVIDIA;
(38) Walker Turner, NVIDIA;
(39) Kaizhe Xu, NVIDIA;
(40) Haoxing Ren, NVIDIA.
Viele Domänen verfügen über eine erhebliche Menge an proprietären Daten, die zum Trainieren eines domänenspezifischen LLM verwendet werden können. Ein Ansatz besteht darin, ein domänenspezifisches Basismodell von Grund auf neu zu trainieren, z. B. BloombergGPT [10] für Finanzen, BioMedLLM [11] für Biomedizin und Galactica [38] für Naturwissenschaften. Diese Modelle wurden normalerweise mit mehr als 100 Milliarden Token an Rohdomänendaten trainiert. Der zweite Ansatz ist das domänenadaptive Vortraining (DAPT) [14], bei dem ein vortrainiertes Basismodell weiterhin mit zusätzlichen Rohdomänendaten trainiert wird. Es zeigt eine leichte Leistungssteigerung bei domänenspezifischen Aufgaben in Domänen wie Biomedizin, Informatikpublikationen, Nachrichten und Rezensionen. In einem Beispiel wurde [39] ein Basismodell weiterhin mit technischen Inhaltsdatensätzen vortrainiert und bei vielen quantitativen Denkaufgaben eine Leistung auf dem neuesten Stand erreicht.
Retrieval Augmented Generation (RAG) unterstützt das LLM bei der Generierung genauer Informationen und der Extraktion aktueller Informationen zur Verbesserung wissensintensiver NLP-Aufgaben [40]. Es wurde beobachtet, dass kleinere Modelle mit RAG größere Modelle ohne RAG übertreffen können [41]. Zu den Retrievalmethoden gehören spärliche Retrievalmethoden wie TF-IDF oder BM25 [42], die Wortstatistikinformationen analysieren und passende Dokumente mit einem hochdimensionalen spärlichen Vektor finden. Dichte Retrievalmethoden wie [43] [44] finden passende Dokumente in einem Einbettungsraum, der von einem Retrievalmodell generiert wird, das auf einem großen Korpus mit oder ohne Feinabstimmung auf einem Retrievaldatensatz vortrainiert wurde. Das Retrievalmodell kann eigenständig [43] [44] [45] oder gemeinsam mit Sprachmodellen [46] [41] trainiert werden. Darüber hinaus wurde gezeigt, dass handelsübliche Allzweck-Retrieval-Methoden ein Basis-Sprachmodell ohne weitere Feinabstimmung erheblich verbessern können [47]. Es wird auch vorgeschlagen, dass RAG Aufgaben zur Codegenerierung [48] durch Abrufen von Codedokumenten durchführt.
Basismodelle sind Vervollständigungsmodelle, die nur über begrenzte Chat- und Anweisungsfolgefunktionen verfügen. Daher wird ein Modellausrichtungsprozess auf die Basismodelle angewendet, um ein entsprechendes Chatmodell zu trainieren. Anweisungsfeinabstimmung [20] und bestärkendes Lernen aus menschlichem Feedback (RLHF) [36] sind zwei gängige Modellausrichtungstechniken. Anweisungsfeinabstimmung trainiert ein Basismodell zusätzlich unter Verwendung von Anweisungsdatensätzen. RLHF nutzt menschliches Feedback, um einen Datensatz zu kennzeichnen und ein Belohnungsmodell zu trainieren, und wendet bestärkendes Lernen an, um Modelle anhand des trainierten Belohnungsmodells weiter zu verbessern. RLHF ist normalerweise komplexer und ressourcenintensiver als Anweisungsfeinabstimmung. Daher schlagen neuere Studien auch vor, diesen Aufwand mit einfacheren Methoden wie DPO [49] und SteerLM [50] zu reduzieren.
Forscher haben begonnen, LLM auf Chipdesignprobleme anzuwenden. Frühe Arbeiten wie Dave [51] untersuchten erstmals die Möglichkeit, Verilog aus dem Englischen mit einem Sprachmodell (GPT-2) zu generieren. Im Anschluss an diese Arbeit zeigte [6], dass fein abgestimmte Open-Source-LLMs (CodeGen) auf Verilog-Datensätzen, die von GitHub und Verilog-Lehrbüchern gesammelt wurden, bei 17 Verilog-Fragen modernste OpenAI-Modelle wie code-davinci-002 übertrafen. [12] schlug einen Benchmark mit mehr als 150 Problemen vor und zeigte, dass die Verilog-Codegenerierungsfähigkeit vorab trainierter Sprachmodelle durch überwachtes Feintuning durch Bootstrapping mit LLM-generierten synthetischen Problem-Code-Paaren verbessert werden konnte. Chip-Chat [7] experimentierte mit Konversationsflüssen, um einen 8-Bit-Akkumulator-basierten Mikroprozessor mit GPT-4 und GPT-3.5 zu entwerfen und zu verifizieren. Ihre Ergebnisse zeigten, dass GPT-4 zwar relativ hochwertige Codes produzierte, aber immer noch nicht gut genug darin war, die Fehler zu verstehen und zu beheben. ChipEDA [8] schlug vor, LLMs zur Generierung von EDA-Tool-Skripten zu verwenden. Es zeigte sich auch, dass das fein abgestimmte LLaMA2 70B-Modell bei dieser Aufgabe das GPT-4-Modell übertrifft.
Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar .