Auteurs:
(1) Mingjie Liu, NVIDIA {Contribution égale} ;
(2) Teodor-Dumitru Ene, NVIDIA {Contribution égale} ;
(3) Robert Kirby, NVIDIA {Contribution égale} ;
(4) Chris Cheng, NVIDIA {Contribution égale} ;
(5) Nathaniel Pinckney, NVIDIA {Contribution égale} ;
(6) Rongjian Liang, NVIDIA {Contribution égale} ;
(7) Jonah Alben, NVIDIA ;
(8) Himyanshu Anand, NVIDIA ;
(9) Sanmitra Banerjee, NVIDIA ;
(10) Ismet Bayraktaroglu, NVIDIA ;
(11) Bonita Bhaskaran, NVIDIA ;
(12) Bryan Catanzaro, NVIDIA ;
(13) Arjun Chaudhuri, NVIDIA ;
(14) Sharon Clay, NVIDIA ;
(15) Bill Dally, NVIDIA ;
(16) Laura Dang, NVIDIA ;
(17) Parikshit Deshpande, NVIDIA ;
(18) Siddhanth Dhodhi, NVIDIA ;
(19) Sameer Halepete, NVIDIA ;
(20) Eric Hill, NVIDIA ;
(21) Jiashang Hu, NVIDIA ;
(22) Sumit Jain, NVIDIA ;
(23) Brucek Khailany, NVIDIA ;
(24) George Kokai, NVIDIA ;
(25) Kishor Kunal, NVIDIA ;
(26) Xiaowei Li, NVIDIA ;
(27) Charley Lind, NVIDIA ;
(28) Hao Liu, NVIDIA ;
(29) Stuart Oberman, NVIDIA ;
(30) Sujeet Omar, NVIDIA ;
(31) Sreedhar Pratty, NVIDIA ;
(23) Jonathan Raiman, NVIDIA ;
(33) Ambar Sarkar, NVIDIA ;
(34) Zhengjiang Shao, NVIDIA ;
(35) Hanfei Sun, NVIDIA ;
(36) Pratik P. Suthar, NVIDIA ;
(37) Varun Tej, NVIDIA ;
(38) Walker Turner, NVIDIA ;
(39) Kaizhe Xu, NVIDIA ;
(40) Haoxing Ren, NVIDIA.
De nombreux domaines disposent d'une quantité importante de données propriétaires qui peuvent être utilisées pour former un LLM spécifique au domaine. Une approche consiste à former un modèle de fondation spécifique à un domaine à partir de zéro, par exemple BloombergGPT [10] pour la finance, BioMedLLM [11] pour le biomédical et Galactica [38] pour la science. Ces modèles étaient généralement formés sur plus de 100 milliards de jetons de données de domaine brutes. La deuxième approche est le pré-entraînement adaptatif au domaine (DAPT) [14] qui continue de former un modèle de base pré-entraîné sur des données de domaine brutes supplémentaires. Il montre une légère amélioration des performances sur les tâches spécifiques à un domaine dans des domaines tels que les publications biomédicales et informatiques, les actualités et les critiques. Dans un exemple, [39] a continué à pré-entraîner un modèle de base sur des ensembles de données de contenu technique et a atteint des performances de pointe sur de nombreuses tâches de raisonnement quantitatif.
La génération augmentée de récupération (RAG) aide à ancrer le LLM pour générer des informations précises et extraire des informations à jour pour améliorer les tâches de PNL à forte intensité de connaissances [40]. On observe que les modèles plus petits avec RAG peuvent surpasser les modèles plus grands sans RAG (41). Les méthodes de récupération incluent des méthodes de récupération clairsemées telles que TF-IDF ou BM25 [42], qui analysent les informations statistiques sur les mots et trouvent les documents correspondants avec un vecteur clairsemé de grande dimension. Les méthodes de récupération dense telles que [43] [44] trouvent des documents correspondants sur un espace d'intégration généré par un modèle de récupération pré-entraîné sur un grand corpus avec ou sans réglage fin sur un ensemble de données de récupération. Le modèle de récupération peut être formé de manière autonome [43] [44] [45] ou conjointement avec des modèles de langage [46] [41]. De plus, il a été démontré que les récupérateurs à usage général disponibles dans le commerce peuvent améliorer considérablement un modèle de langage de base sans ajustement supplémentaire [47]. RAG est également proposé pour effectuer des tâches de génération de code [48] en récupérant des documents de codage.
Les modèles Foundation sont des modèles d'achèvement, qui ont des capacités limitées de chat et de suivi d'instructions. Par conséquent, un processus d'alignement de modèles est appliqué aux modèles de base pour former un modèle de discussion correspondant. Le réglage fin des instructions [20] et l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) [36] sont deux techniques courantes d'alignement de modèles. Le réglage fin des instructions entraîne en outre un modèle de base à l'aide d'ensembles de données d'instructions. RLHF exploite les commentaires humains pour étiqueter un ensemble de données afin de former un modèle de récompense et applique l'apprentissage par renforcement pour améliorer davantage les modèles compte tenu du modèle de récompense formé. Le RLHF est généralement plus complexe et gourmand en ressources que le réglage fin de l'instruction. Par conséquent, des études récentes proposent également de réduire cette surcharge avec des méthodes plus simples telles que DPO [49] et SteerLM [50].
Les chercheurs ont commencé à appliquer le LLM aux problèmes de conception de puces. Les premiers travaux tels que Dave [51] ont d'abord exploré la possibilité de générer Verilog à partir de l'anglais avec un modèle de langage (GPT-2). À la suite de ce travail, [6] a montré que les LLM open source affinés (CodeGen) sur les ensembles de données Verilog collectés à partir des manuels GitHub et Verilog surpassaient les modèles OpenAI de pointe tels que code-davinci-002 sur 17 questions Verilog. [12] ont proposé un benchmark avec plus de 150 problèmes et ont démontré que la capacité de génération de code Verilog des modèles de langage pré-entraînés pourrait être améliorée avec un réglage fin supervisé par amorçage avec des paires problème-code synthétiques générées par LLM. Chip-Chat [7] a expérimenté des flux conversationnels pour concevoir et vérifier un microprocesseur basé sur un accumulateur 8 bits avec GPT-4 et GPT-3.5. Leurs résultats ont montré que bien que GPT-4 produise des codes de relativement haute qualité, il ne parvient toujours pas à comprendre et à corriger les erreurs. ChipEDA [8] a proposé d'utiliser des LLM pour générer des scripts d'outils EDA. Il a également démontré que le modèle LLaMA2 70B affiné surpasse le modèle GPT-4 dans cette tâche.
Cet article est disponible sur arxiv sous licence CC 4.0.