作者:
(1)刘明杰,NVIDIA{同等贡献};
(2)Teodor-Dumitru Ene,NVIDIA{同等贡献};
(3)NVIDIA 的 Robert Kirby {平等贡献};
(4)Chris Cheng,NVIDIA{同等贡献};
(5)Nathaniel Pinckney,NVIDIA{平等贡献};
(6)梁荣建,NVIDIA{同等贡献};
(7) 乔纳·阿尔本(NVIDIA);
(8)NVIDIA 的 Himyanshu Anand;
(9) 桑米特拉·班纳吉(Sanmitra Banerjee),NVIDIA;
(10)Ismet Bayraktaroglu,NVIDIA;
(11) NVIDIA 的 Bonita Bhaskaran;
(12)NVIDIA 公司的布莱恩·卡坦扎罗(Bryan Catanzaro)
(13)NVIDIA 的阿琼·乔杜里(Arjun Chaudhuri)
(14)莎朗·克莱(NVIDIA)
(15) NVIDIA 的比尔·戴利(Bill Dally)
(16) 劳拉·当(NVIDIA)
(17) 帕里克希特·德什潘德(Parikshit Deshpande),NVIDIA;
(18)Siddhanth Dhodhi,NVIDIA;
(19)Sameer Halepete,NVIDIA;
(20)埃里克·希尔(Eric Hill),NVIDIA;
(21) 胡嘉尚,NVIDIA;
(22)苏米特·贾恩(NVIDIA);
(23) NVIDIA 的 Brucek Khailany;
(24) 乔治·科凯(George Kokai),NVIDIA;
(25) 基肖尔·库纳尔(NVIDIA);
(26)李小薇,NVIDIA;
(27) 查理·林德(NVIDIA);
(28)刘浩,NVIDIA;
(29) 斯图尔特·奥伯曼(NVIDIA);
(30) 苏吉特·奥马尔(NVIDIA);
(31)Sreedhar Pratty,NVIDIA;
(23)乔纳森·雷曼(NVIDIA);
(33) 安巴尔·萨卡尔(Ambar Sarkar),NVIDIA;
(34)邵正江,NVIDIA;
(35) 孙汉飞,NVIDIA;
(36)Pratik P Suthar,NVIDIA;
(37)Varun Tej,NVIDIA;
(38)沃克·特纳(NVIDIA);
(39)徐凯哲,NVIDIA;
(40)NVIDIA 任浩星。
作者要感谢:NVIDIA IT 团队对 NVBugs 集成的支持;NVIDIA 硬件安全团队对安全问题的支持;NVIDIA NeMo 团队对 ChipNeMo 模型的训练和推理的支持和指导;NVIDIA 基础设施团队为该项目提供 GPU 训练和推理资源的支持;NVIDIA 硬件设计团队的支持和见解。
刘明杰进行了DAPT和SFT模型培训。
Teodor-Dumitru Ene、Robert Kirby开发了推理和应用评估基础设施。
Chris Cheng开发了 RAG 框架。
纳撒尼尔·平克尼 (Nathaniel Pinckney)收集并准备了用于训练的数据集。
Rongjian Liang开发了自定义标记器。
Walker Turner、Charley Lind 和 George Kokai开发了通用电路设计知识基准。
Siddhanth Dhodhi、Ismet Bayraktaroglu、Himyanshu Anand 和 Eric Hill设计了工程助理聊天机器人,提供了领域指令数据集、评估基准并进行了评估。
Parikshit Deshpande、Zhengjiang Shao、Kaizhe Xu、Jiashang Hu、Laura Dang、Xiaowei Li、Hao Liu 和 Ambar Sarkar开发了工程助理聊天机器人应用程序。
Sreedhar Pratty、Kishor Kunal、Varun Tej、Sumit Jain、Sujeet Omar、Pratik P Suthar 和 Hanfei Sun开发了 EDA 脚本生成应用程序,提供了领域指令数据集和评估基准。
Bonita Bhaskaran、Arjun Chaudhuri、Sanmitra Banerjee开发了 bug 总结和分析应用程序,提供了领域指令数据集和评估基准。
Brucek Khailany、Stuart Oberman、Sharon Clay、Sameer Halepete、Jonathan Raiman、Bryan Catanzaro、Jonah Alben 和 Bill Dally从人工智能研究和硬件工程角度提供建议。
任浩星设计并领导了这项研究。
[1] B. Khailany 等人,“通过机器学习加速芯片设计”,IEEE Micro,第 40 卷,第 6 期,第 23-32 页,2020 年。
[2] H. Ren 和 M. Fojtik,“受邀-nvcell:具有强化学习的先进技术节点中的标准单元布局”,2021 年第 58 届 ACM/IEEE 设计自动化会议 (DAC),2021 年。
[3] R. Roy 等人,“PrefixRL:使用深度强化学习优化并行前缀电路”,2021 年第 58 届 ACM/IEEE 设计自动化会议 (DAC),2021 年。
[4] W.-L. Chiang 等人,“Vicuna:一款以 90%* 的 chatgpt 质量超越 GPT-4 的开源聊天机器人”,2023 年 3 月。[在线]。网址:https://lmsys.org/blog/2023-03-30-vicuna/
[5] H. Touvron 等人,“Llama 2:开放基础和微调聊天模型”,2023 年。
[6] S. Thakur 等人,“用于自动 Verilog RTL 代码生成的大型语言模型基准测试”,2023 年欧洲设计、自动化与测试会议与展览会 (DATE),2023 年,第 1-6 页。
[7] J. Blocklove 等人,“芯片聊天:对话硬件设计中的挑战和机遇”,2023 年。
[8] Z. He 等人,“Chateda:一种由大型语言模型驱动的 EDA 自主代理”,2023 年。
[9] S. Bubeck 等人,“通用人工智能的火花:GPT-4 的早期实验”,2023 年。
[10] S. Wu 等人,“Bloomberggpt:面向金融的大型语言模型”,2023 年。
[11] M. LLC。(2022 年)Biomedlm:针对生物医学文本的特定领域大型语言模型。[在线]。可用:https://www.mosaicml.com/blog/introducing-pubmed-gpt
[12] M. Liu 等人,“VerilogEval:评估用于 Verilog 代码生成的大型语言模型”,2023 年 IEEE/ACM 国际计算机辅助设计会议(ICCAD),2023 年。
[13] E. Nijkamp 等人,“Codegen:一种用于多轮程序合成的开放大型语言模型”,ICLR,2023 年。
[14] S. Gururangan 等人,“不要停止预训练:使语言模型适应领域和任务”,2020 年。
[15] P. Lewis 等人,“针对知识密集型 NLP 任务的检索增强生成”,2021 年。
[16] EJ Hu 等人,“Lora:大型语言模型的低秩适应”,CoRR,vol. abs/2106.09685,2021 年。[在线]。可用:https://arxiv.org/abs/2106.09685
[17] L.Gao 等人,“The Pile:用于语言建模的 800GB 多样化文本数据集”。
[18] D. Kocetkov 等人,“堆栈:3 TB 的许可源代码”,2022 年。
[19] A. Kopf ¨ 等人,“Openassistant 对话——使大型语言模型对齐民主化”,2023 年。
[20] J. Wei 等人,“微调语言模型是零样本学习者”,2022 年。
[21] V. Sanh 等人,“多任务提示训练实现零样本任务泛化”,2022 年。
[22] D. Hendrycks 等人,“测量大规模多任务语言理解”,2021 年。
[23] M. Chen 等人,“评估针对代码训练的大型语言模型”,2021 年。
[24] F. Koto、JH Lau 和 T. Baldwin,“IndoBERTweet:一种针对印尼语 Twitter 的预训练语言模型,具有有效的特定领域词汇初始化”,载于 2021 年自然语言处理实证方法会议论文集,2021 年 11 月,第 10660-10668 页。
[25] O.Kuchaiev 等人,“Nemo:使用神经模块构建人工智能应用程序的工具包”,2019 年。
[26] M. Shoeybi 等人,“Megatron-lm:使用模型并行训练数十亿参数语言模型”,arXiv 预印本 arXiv:1909.08053,2019 年。
[27] T. Dao 等人,“FlashAttention:具有 IO 感知的快速且内存高效的精确注意力”,载于《神经信息处理系统进展》,2022 年。[28] A. Chowdhery 等人,“Palm:使用路径扩展语言建模”,2022 年。
[29] Z. Ji 等人,“自然语言生成中的幻觉调查”,ACM Comput. Surv.,第 55 卷,第 12 期,2023 年 3 月。[在线]。可用:https://doi.org/10.1145/3571730
[30] L. Wang 等人,“通过弱监督对比预训练实现文本嵌入”,arXiv 预印本 arXiv:2212.03533,2022 年。
[31] L. Gao 等人,“Tevatron:一种高效灵活的密集检索工具包”,2022 年。
[32] B. Roziere 等人,“Code llama:代码的开放基础模型”,2023 年。
[33] N. Reimers 和 I. Gurevych,“Sentence-bert:使用连体 bert 网络的句子嵌入”,载于 2019 年自然语言处理经验方法会议论文集。计算语言学协会,2019 年 11 月。[在线]。网址:http://arxiv.org/abs/1908.10084
[34] R.Pope 等人,“有效扩展 Transformer 推理”,2022 年。
[35] RY Aminabadi 等人,“Deepspeed 推理:实现前所未有的规模 Transformer 模型的高效推理”,2022 年。
[36] L. Ouyang 等人,“训练语言模型以遵循人类反馈的指令”,2022 年。
[37] W. Xiong 等人,“基础模型的有效长期上下文扩展”,2023 年。
[38] R. Taylor 等人,“Galactica:用于科学的大型语言模型”,2022 年。
[39] A.Lewkowycz 等人,“利用语言模型解决定量推理问题”,2022 年。
[40] P. Lewis 等人,“针对知识密集型 NLP 任务的检索增强生成”,2021 年。
[41] S. Borgeaud 等人,“通过检索数万亿个标记来改进语言模型”,2022 年。
[42] S. Robertson 和 H. Zaragoza,“概率相关性框架:Bm25 及以后”,Found. Trends Inf. Retr.,第 3 卷,第 4 期,第 333-389 页,2009 年 4 月。[在线]。网址:https://doi.org/10.1561/1500000019
[43] V. Karpukhin 等人,“开放域问答的密集段落检索”,2020 年。
[44] G. Izacard 等人,“基于对比学习的无监督密集信息检索”,2022 年。
[45] W. Shi 等人,“Replug:检索增强黑盒语言模型”,2023 年。
[46] G. Izacard 等人,“使用检索增强语言模型进行小样本学习”,2022 年。[在线]。网址:http://arxiv.org/abs/2208.03299
[47] O.Ram 等人,“上下文检索增强语言模型”,2023 年。
[48] S. Zhou 等人,“Docprompting:通过检索文档生成代码”,2023 年。
[49] R. Rafailov 等人,“直接偏好优化:你的语言模型秘密地是一个奖励模型”,2023 年。
[50] Y. Dong 等人,“Steerlm:属性条件 sft 作为 rlhf 的(用户可操纵的)替代方案”,2023 年。
[51] H. Pearce、B. Tan 和 R. Karri,《Dave:从英语自动推导 verilog》,载于 2020 年 ACM/IEEE CAD 机器学习研讨会论文集,MLCAD '20 系列。美国纽约州纽约:计算机协会,2020 年,第 27-32 页。[在线]。可用:https://doi.org/10.1145/3380446.3430634
[52] “Beautiful Soup”,https://www.crummy.com/software/BeautifulSoup/,访问日期:2023 年 10 月 10 日。
[53] K. Sakaguchi 等人,“Winogrande:大规模对抗性 winograd 模式挑战”,arXiv 预印本 arXiv:1907.10641,2019 年。
[54] R. Zellers 等人,“Hellaswag:机器真的能完成你的句子吗?”,载于 2019 年第 57 届计算语言学协会年会论文集。
[55] P. Clark 等人,“您认为已经解决了问答问题吗?试试 ai2 推理挑战 arc”,2018 年。
[56] G. Lai 等人,“种族:来自考试的大规模阅读理解数据集”,2017 年。