Autoren:
(1) Mingjie Liu, NVIDIA {Gleicher Beitrag};
(2) Teodor-Dumitru Ene, NVIDIA {Gleicher Beitrag};
(3) Robert Kirby, NVIDIA {Gleicher Beitrag};
(4) Chris Cheng, NVIDIA {Gleicher Beitrag};
(5) Nathaniel Pinckney, NVIDIA {Gleicher Beitrag};
(6) Rongjian Liang, NVIDIA {Gleicher Beitrag};
(7) Jonah Alben, NVIDIA;
(8) Himyanshu Anand, NVIDIA;
(9) Sanmitra Banerjee, NVIDIA;
(10) Ismet Bayraktaroglu, NVIDIA;
(11) Bonita Bhaskaran, NVIDIA;
(12) Bryan Catanzaro, NVIDIA;
(13) Arjun Chaudhuri, NVIDIA;
(14) Sharon Clay, NVIDIA;
(15) Bill Dally, NVIDIA;
(16) Laura Dang, NVIDIA;
(17) Parikshit Deshpande, NVIDIA;
(18) Siddhanth Dhodhi, NVIDIA;
(19) Sameer Halepete, NVIDIA;
(20) Eric Hill, NVIDIA;
(21) Jiashang Hu, NVIDIA;
(22) Sumit Jain, NVIDIA;
(23) Brucek Khailany, NVIDIA;
(24) George Kokai, NVIDIA;
(25) Kishor Kunal, NVIDIA;
(26) Xiaowei Li, NVIDIA;
(27) Charley Lind, NVIDIA;
(28) Hao Liu, NVIDIA;
(29) Stuart Oberman, NVIDIA;
(30) Sujeet Omar, NVIDIA;
(31) Sreedhar Pratty, NVIDIA;
(23) Jonathan Raiman, NVIDIA;
(33) Ambar Sarkar, NVIDIA;
(34) Zhengjiang Shao, NVIDIA;
(35) Hanfei Sun, NVIDIA;
(36) Pratik P Suthar, NVIDIA;
(37) Varun Tej, NVIDIA;
(38) Walker Turner, NVIDIA;
(39) Kaizhe Xu, NVIDIA;
(40) Haoxing Ren, NVIDIA.
Die Autoren möchten sich bedanken bei: den NVIDIA-IT-Teams für ihre Unterstützung bei der NVBugs-Integration; dem NVIDIA-Hardware-Sicherheitsteam für ihre Unterstützung bei Sicherheitsproblemen; den NVIDIA-NeMo-Teams für ihre Unterstützung und Anleitung beim Training und der Inferenz von ChipNeMo-Modellen; den NVIDIA-Infrastrukturteams für die Unterstützung der GPU-Trainings- und Inferenzressourcen für das Projekt; den NVIDIA-Hardware-Designteams für ihre Unterstützung und Einblicke.
Mingjie Liu führte DAPT- und SFT-Modellschulungen durch.
Teodor-Dumitru Ene und Robert Kirby entwickelten eine Infrastruktur für Inferenz und Anwendungsbewertung.
Chris Cheng hat das RAG-Framework entwickelt.
Nathaniel Pinckney hat Datensätze für das Training gesammelt und vorbereitet.
Rongjian Liang hat benutzerdefinierte Tokenizer entwickelt.
Walker Turner, Charley Lind und George Kokai entwickelten einen allgemeinen Wissensmaßstab für Schaltungsdesign.
Siddhanth Dhodhi, Ismet Bayraktaroglu, Himyanshu Anand und Eric Hill haben einen Chatbot für technische Assistenten entwickelt, Datensätze für Domänenanweisungen und Bewertungsbenchmarks bereitgestellt und eine Bewertung durchgeführt.
Parikshit Deshpande, Zhengjiang Shao, Kaizhe Xu, Jiashang Hu, Laura Dang, Xiaowei Li, Hao Liu und Ambar Sarkar haben eine Chatbot-Anwendung für technische Assistenten entwickelt.
Sreedhar Pratty, Kishor Kunal, Varun Tej, Sumit Jain, Sujeet Omar, Pratik P Suthar und Hanfei Sun entwickelten eine Anwendung zur Generierung von EDA-Skripten und stellten Domänenbefehlsdatensätze und Bewertungsbenchmarks bereit.
Bonita Bhaskaran, Arjun Chaudhuri und Sanmitra Banerjee entwickelten eine Anwendung zur Fehlerzusammenfassung und -analyse und stellten Domänenanweisungsdatensätze und Bewertungsbenchmarks bereit.
Brucek Khailany, Stuart Oberman, Sharon Clay, Sameer Halepete, Jonathan Raiman, Bryan Catanzaro, Jonah Alben und Bill Dally berieten aus der Perspektive der KI-Forschung und Hardware-Entwicklung.
Haoxing Ren hat die Forschung konzipiert und geleitet.
[1] B. Khailany et al., „Beschleunigung des Chipdesigns mit maschinellem Lernen“, IEEE Micro, Bd. 40, Nr. 6, S. 23–32, 2020.
[2] H. Ren und M. Fojtik, „Invited- nvcell: Standardzellenlayout in Knotenpunkten fortschrittlicher Technologie mit verstärktem Lernen“, in 2021 58. ACM/IEEE Design Automation Conference (DAC), 2021.
[3] R. Roy et al., „PrefixRL: Optimierung paralleler Präfixschaltungen mittels Deep Reinforcement Learning“, in 2021 58. ACM/IEEE Design Automation Conference (DAC), 2021.
[4] W.-L. Chiang et al., „Vicuna: Ein Open-Source-Chatbot, der gpt-4 mit 90 %* Chatgpt-Qualität beeindruckt“, März 2023. [Online]. Verfügbar: https://lmsys.org/blog/2023-03-30-vicuna/
[5] H. Touvron et al., „Llama 2: Offene Grundlage und fein abgestimmte Chat-Modelle“, 2023.
[6] S. Thakur et al., „Benchmarking großer Sprachmodelle für die automatisierte Verilog-RTL-Codegenerierung“, in 2023 Design, Automation & Test in Europe Conference & Exhibition (DATE), 2023, S. 1–6.
[7] J. Blocklove et al., „Chip-Chat: Herausforderungen und Chancen im konversationellen Hardware-Design“, 2023.
[8] Z. He et al., „Chateda: Ein autonomer Agent für EDA auf Basis eines großen Sprachmodells“, 2023.
[9] S. Bubeck et al., „Funken der künstlichen allgemeinen Intelligenz: Frühe Experimente mit gpt-4“, 2023.
[10] S. Wu et al., „Bloomberggpt: Ein großes Sprachmodell für Finanzen“, 2023.
[11] M. LLC. (2022) Biomedlm: ein domänenspezifisches Großsprachenmodell für biomedizinische Texte. [Online]. Verfügbar: https://www.mosaicml.com/blog/introducing-pubmed-gpt
[12] M. Liu et al., „VerilogEval: Bewertung großer Sprachmodelle für die Verilog-Codegenerierung“, in 2023 IEEE/ACM International Conference on Computer-Aided Design (ICCAD), 2023.
[13] E. Nijkamp et al., „Codegen: Ein offenes großes Sprachmodell für Code mit Multi-Turn-Programmsynthese“, ICLR, 2023.
[14] S. Gururangan et al., „Hören Sie nicht mit dem Vortraining auf: Passen Sie Sprachmodelle an Domänen und Aufgaben an“, 2020.
[15] P. Lewis et al., „Retrieval-augmented generation for knowledge-intensive nlp tasks“, 2021.
[16] EJ Hu et al., „Lora: Low-rank adaptation of large language models“, CoRR, vol. abs/2106.09685, 2021. [Online]. Verfügbar: https://arxiv.org/abs/2106.09685
[17] L. Gao et al., „Der Stapel: Ein 800 GB großer Datensatz mit unterschiedlichen Texten für die Sprachmodellierung.“
[18] D. Kocetkov et al., „Der Stack: 3 TB freizügig lizenzierter Quellcode“, 2022.
[19] A. Kopf ¨ et al., „Openassistant-Gespräche – Demokratisierung der Ausrichtung großer Sprachmodelle“, 2023.
[20] J. Wei et al., „Fein abgestimmte Sprachmodelle sind Zero-Shot-Lerner“, 2022.
[21] V. Sanh et al., „Multitask-gestütztes Training ermöglicht Zero-Shot-Aufgabengeneralisierung“, 2022.
[22] D. Hendrycks et al., „Messung des Sprachverständnisses bei massivem Multitask“, 2021.
[23] M. Chen et al., „Auswertung großer, auf Code trainierter Sprachmodelle“, 2021.
[24] F. Koto, JH Lau und T. Baldwin, „IndoBERTweet: Ein vortrainiertes Sprachmodell für indonesisches Twitter mit effektiver domänenspezifischer Vokabularinitialisierung“, in Proceedings der Konferenz 2021 über empirische Methoden in der Verarbeitung natürlicher Sprache, Nov. 2021, S. 10 660–10 668.
[25] O. Kuchaiev et al., „Nemo: ein Toolkit zum Erstellen von KI-Anwendungen mit neuronalen Modulen“, 2019.
[26] M. Shoeybi et al., „Megatron-lm: Training von Sprachmodellen mit mehreren Milliarden Parametern mithilfe von Modellparallelität“, arXiv-Vorabdruck arXiv:1909.08053, 2019.
[27] T. Dao et al., „FlashAttention: Schnelle und speichereffiziente exakte Aufmerksamkeit mit IO-Bewusstsein“, in Advances in Neural Information Processing Systems, 2022. [28] A. Chowdhery et al., „Palm: Skalierung der Sprachmodellierung mit Pfaden“, 2022.
[29] Z. Ji et al., „Survey of hallucination in natural language generation“, ACM Comput. Surv., Bd. 55, Nr. 12, März 2023. [Online]. Verfügbar: https://doi.org/10.1145/3571730
[30] L. Wang et al., „Texteinbettungen durch schwach überwachtes kontrastives Vortraining“, arXiv-Vorabdruck arXiv:2212.03533, 2022.
[31] L. Gao et al., „Tevatron: Ein effizientes und flexibles Toolkit für die dichte Abfrage“, 2022.
[32] B. Roziere ` et al., „Code Lama: Offene Grundlagenmodelle für Code“, 2023.
[33] N. Reimers und I. Gurevych, „Sentence-bert: Sentence embeddings using siamese bert-networks“, in Proceedings der Konferenz 2019 über empirische Methoden in der Verarbeitung natürlicher Sprache. Association for Computational Linguistics, 11 2019. [Online]. Verfügbar: http://arxiv.org/abs/1908.10084
[34] R. Pope et al., „Transformator-Inferenz effizient skalieren“, 2022.
[35] RY Aminabadi et al., „Deepspeed-Inferenz: Ermöglichung effizienter Inferenz von Transformer-Modellen in beispiellosem Maßstab“, 2022.
[36] L. Ouyang et al., „Training von Sprachmodellen zum Befolgen von Anweisungen mit menschlichem Feedback“, 2022.
[37] W. Xiong et al., „Effektive Skalierung von Stiftungsmodellen im Langkontext“, 2023.
[38] R. Taylor et al., „Galactica: Ein großes Sprachmodell für die Wissenschaft“, 2022.
[39] A. Lewkowycz et al., „Lösung quantitativer Denkprobleme mit Sprachmodellen“, 2022.
[40] P. Lewis et al., „Retrieval-augmented generation for knowledge-intensive nlp tasks“, 2021.
[41] S. Borgeaud et al., „Verbesserung von Sprachmodellen durch Abrufen von Billionen von Token“, 2022.
[42] S. Robertson und H. Zaragoza, „The probabilistic relevance framework: Bm25 and beyond“, Found. Trends Inf. Retr., Bd. 3, Nr. 4, S. 333–389, April 2009. [Online]. Verfügbar: https://doi.org/10.1561/1500000019
[43] V. Karpukhin et al., „Dichte Passagensuche für die Beantwortung von Fragen in offenen Domänen“, 2020.
[44] G. Izacard et al., „Unüberwachter Abruf dichter Informationen mit kontrastivem Lernen“, 2022.
[45] W. Shi et al., „Replug: Retrieval-erweiterte Black-Box-Sprachmodelle“, 2023.
[46] G. Izacard et al., „Few-shot Learning with Retrieval Augmented Language Models“, 2022. [Online]. Verfügbar: http://arxiv.org/abs/2208.03299
[47] O. Ram et al., „In-context retrieval-augmented language models“, 2023.
[48] S. Zhou et al., „Docprompting: Generieren von Code durch Abrufen der Dokumente“, 2023.
[49] R. Rafailov et al., „Direkte Präferenzoptimierung: Ihr Sprachmodell ist insgeheim ein Belohnungsmodell“, 2023.
[50] Y. Dong et al., „Steerlm: Attribute-konditioniertes sft als (benutzersteuerbare) Alternative zu rlhf“, 2023.
[51] H. Pearce, B. Tan und R. Karri, „Dave: Deriving automatically verilog from english“, in Proceedings of the 2020 ACM/IEEE Workshop on Machine Learning for CAD, ser. MLCAD '20. New York, NY, USA: Association for Computing Machinery, 2020, S. 27–32. [Online]. Verfügbar: https://doi.org/10.1145/3380446.3430634
[52] „Beautiful Soup“, https://www.crummy.com/software/BeautifulSoup/, abgerufen am: 10. Oktober 2023.
[53] K. Sakaguchi et al., „Winogrande: Eine kontroverse Winograd-Schema-Herausforderung im großen Maßstab“, arXiv-Vorabdruck arXiv:1907.10641, 2019.
[54] R. Zellers et al., „Hellaswag: Kann eine Maschine Ihren Satz wirklich beenden?“ in Proceedings der 57. Jahrestagung der Association for Computational Linguistics, 2019.
[55] P. Clark et al., „Glauben Sie, Sie haben das Fragen-Beantworten-System gelöst? Probieren Sie ARC, die AI2-Argumentation-Herausforderung“, 2018.
[56] G. Lai et al., „Race: Umfangreicher Leseverständnisdatensatz aus Prüfungen“, 2017.
Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar .