paint-brush
ChipNeMo: LLMs adaptados ao domínio para design de chips: reconhecimentos, contribuições e referênciaspor@textmodels

ChipNeMo: LLMs adaptados ao domínio para design de chips: reconhecimentos, contribuições e referências

Muito longo; Para ler

Os pesquisadores apresentam o ChipNeMo, usando adaptação de domínio para aprimorar LLMs para design de chips, alcançando uma redução de até 5x no tamanho do modelo com melhor desempenho.
featured image - ChipNeMo: LLMs adaptados ao domínio para design de chips: reconhecimentos, contribuições e referências
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Autores:

(1) Mingjie Liu, NVIDIA {Contribuição igual};

(2) Teodor-Dumitru Ene, NVIDIA {Contribuição igual};

(3) Robert Kirby, NVIDIA {Contribuição igual};

(4) Chris Cheng, NVIDIA {Contribuição igual};

(5) Nathaniel Pinckney, NVIDIA {Contribuição igual};

(6) Rongjian Liang, NVIDIA {Contribuição igual};

(7) Jonah Alben, NVIDIA;

(8) Himyanshu Anand, NVIDIA;

(9) Sanmitra Banerjee, NVIDIA;

(10) Ismet Bayraktaroglu, NVIDIA;

(11) Bonita Bhaskaran, NVIDIA;

(12) Bryan Catanzaro, NVIDIA;

(13) Arjun Chaudhuri, NVIDIA;

(14) Sharon Clay, NVIDIA;

(15) Bill Dally, NVIDIA;

(16) Laura Dang, NVIDIA;

(17) Parikshit Deshpande, NVIDIA;

(18) Siddhanth Dhodhi, NVIDIA;

(19) Sameer Halepete, NVIDIA;

(20) Eric Hill, NVIDIA;

(21) Jiashang Hu, NVIDIA;

(22) Sumit Jain, NVIDIA;

(23) Brucek Khailany, NVIDIA;

(24) George Kokai, NVIDIA;

(25) Kishor Kunal, NVIDIA;

(26) Xiaowei Li, NVIDIA;

(27) Charley Lind, NVIDIA;

(28) Hao Liu, NVIDIA;

(29) Stuart Oberman, NVIDIA;

(30) Sujeet Omar, NVIDIA;

(31) Sreedhar Pratty, NVIDIA;

(23) Jonathan Raiman, NVIDIA;

(33) Ambar Sarkar, NVIDIA;

(34) Zhengjiang Shao, NVIDIA;

(35) Hanfei Sun, NVIDIA;

(36) Pratik P Suthar, NVIDIA;

(37) Varun Tej, NVIDIA;

(38) Walker Turner, NVIDIA;

(39) Kaizhe Xu, NVIDIA;

(40) Haoxing Ren, NVIDIA.

Tabela de Links

IX. RECONHECIMENTOS

Os autores gostariam de agradecer: às equipes de TI da NVIDIA pelo apoio na integração de NVBugs; Equipe NVIDIA Hardware Security pelo suporte em questões de segurança; Equipes NVIDIA NeMo pelo suporte e orientação no treinamento e inferência de modelos ChipNeMo; Equipes de infraestrutura da NVIDIA pelo suporte ao treinamento de GPU e recursos de inferência para o projeto; Equipes de design de hardware da NVIDIA pelo suporte e conhecimento.

X. CONTRIBUIÇÕES

Mingjie Liu conduziu treinamento em modelos DAPT e SFT.


Teodor-Dumitru Ene e Robert Kirby desenvolveram infraestrutura de inferência e avaliação de aplicações.


Chris Cheng desenvolveu a estrutura RAG.


Nathaniel Pinckney coletou e preparou conjuntos de dados para treinamento.


Rongjian Liang desenvolveu tokenizadores personalizados.


Walker Turner, Charley Lind e George Kokai desenvolveram uma referência geral de conhecimento em design de circuitos.


Siddhanth Dhodhi, Ismet Bayraktaroglu, Himyanshu Anand e Eric Hill projetaram o chatbot assistente de engenharia, forneceram conjuntos de dados de instruções de domínio, benchmarks de avaliação e conduziram avaliação.


Parikshit Deshpande, Zhengjiang Shao, Kaizhe Xu, Jiashang Hu, Laura Dang, Xiaowei Li, Hao Liu e Ambar Sarkar desenvolveram um aplicativo de chatbot para assistente de engenharia.


Sreedhar Pratty, Kishor Kunal, Varun Tej, Sumit Jain, Sujeet Omar, Pratik P Suthar e Hanfei Sun desenvolveram um aplicativo de geração de scripts EDA, forneceram conjuntos de dados de instruções de domínio e benchmarks de avaliação.


Bonita Bhaskaran, Arjun Chaudhuri e Sanmitra Banerjee desenvolveram um aplicativo de resumo e análise de bugs, forneceram conjuntos de dados de instruções de domínio e benchmarks de avaliação.


Brucek Khailany, Stuart Oberman, Sharon Clay, Sameer Halepete, Jonathan Raiman, Bryan Catanzaro, Jonah Alben e Bill Dally aconselharam sobre perspectivas de pesquisa de IA e engenharia de hardware.


Haoxing Ren projetou e liderou a pesquisa.

REFERÊNCIAS

[1] B. Khailany et al., “Acelerando o design de chips com aprendizado de máquina”, IEEE Micro, vol. 40, não. 6, pp. 23–32, 2020.

[2] H. Ren e M. Fojtik, “Invited-nvcell: Layout de célula padrão em nós de tecnologia avançada com aprendizagem por reforço”, em 2021, 58ª Conferência de Automação de Design ACM/IEEE (DAC), 2021.


[3] R. Roy et al., “PrefixRL: Otimização de circuitos de prefixo paralelos usando aprendizado de reforço profundo”, em 2021, 58ª Conferência de Automação de Design ACM/IEEE (DAC), 2021.


[4] W.-L. Chiang et al., “Vicuna: Um chatbot de código aberto impressionando gpt-4 com qualidade de chatgpt de 90%*”, março de 2023. [Online]. Disponível: https://lmsys.org/blog/2023-03-30-vicuna/


[5] H. Touvron et al., “Llama 2: Base aberta e modelos de bate-papo ajustados”, 2023.


[6] S. Thakur et al., “Benchmarking large Language Models for Automated Verilog RTL Code Generation”, em 2023 Design, Automation & Test in Europe Conference & Exhibition (DATE), 2023, pp.


[7] J. Blocklove et al., “Chip-chat: Desafios e oportunidades no design de hardware conversacional”, 2023.


[8] Z. He et al., “Chateda: Um grande modelo de linguagem com motor de agente autônomo para eda”, 2023.


[9] S. Bubeck et al., “Faíscas de inteligência artificial geral: primeiros experimentos com gpt-4”, 2023.


[10] S. Wu et al., “Bloomberggpt: Um grande modelo de linguagem para finanças”, 2023.


[11] M. LLC. (2022) Biomedlm: um modelo de linguagem grande de domínio específico para texto biomédico. [On-line]. Disponível: https://www.mosaicml.com/blog/introduzindo-pubmed-gpt


[12] M. Liu et al., “VerilogEval: avaliando grandes modelos de linguagem para geração de código verilog”, em 2023 IEEE/ACM International Conference on Computer-Aided Design (ICCAD), 2023.


[13] E. Nijkamp et al., “Codegen: Um modelo de linguagem aberta de grande porte para código com síntese de programa multi-voltas”, ICLR, 2023.


[14] S. Gururangan et al., “Não pare de pré-treinamento: Adapte modelos de linguagem a domínios e tarefas”, 2020.


[15] P. Lewis et al., “Geração aumentada de recuperação para tarefas de PNL com uso intensivo de conhecimento”, 2021.


[16] EJ Hu et al., “Lora: adaptação de baixa classificação de modelos de linguagem grandes”, CoRR, vol. abs/2106.09685, 2021. [On-line]. Disponível: https://arxiv.org/abs/2106.09685


[17] L. Gao et al., “A pilha: um conjunto de dados de 800 GB de texto diversificado para modelagem de linguagem.”


[18] D. Kocetkov et al., “A pilha: 3 TB de código-fonte licenciado permissivamente”, 2022.


[19] A. Kopf ¨ et al., “Conversas do Openassistant – democratizando o alinhamento do modelo de linguagem grande”, 2023.


[20] J. Wei et al., “Modelos de linguagem ajustados são aprendizes de tiro zero”, 2022.


[21] V. Sanh et al., “O treinamento solicitado por multitarefa permite a generalização de tarefas de disparo zero”, 2022.


[22] D. Hendrycks et al., “Medindo a compreensão massiva da linguagem multitarefa”, 2021.


[23] M. Chen et al., “Avaliando grandes modelos de linguagem treinados em código”, 2021.


[24] F. Koto, JH Lau e T. Baldwin, “IndoBERTweet: Um modelo de linguagem pré-treinado para o Twitter indonésio com inicialização eficaz de vocabulário específico de domínio”, em Anais da Conferência de 2021 sobre Métodos Empíricos em Processamento de Linguagem Natural, novembro de 2021. 2021, pp.


[25] O. Kuchaiev et al., “Nemo: um kit de ferramentas para construir aplicativos de IA usando módulos neurais”, 2019.


[26] M. Shoeybi et al., “Megatron-lm: Treinamento de modelos de linguagem de vários bilhões de parâmetros usando paralelismo de modelo”, pré-impressão arXiv arXiv:1909.08053, 2019.


[27] T. Dao et al., “FlashAttention: Atenção exata rápida e com eficiência de memória com reconhecimento de IO”, em Advances in Neural Information Processing Systems, 2022. [28] A. Chowdhery et al., “Palm: Scaling modelagem de linguagem com caminhos”, 2022.


[29] Z. Ji et al., “Pesquisa de alucinações na geração de linguagem natural”, ACM Comput. Sobrevivente, vol. 55, não. 12 de março de 2023. [On-line]. Disponível: https://doi.org/10.1145/3571730


[30] L. Wang et al., “Incorporações de texto por pré-treinamento contrastivo fracamente supervisionado”, pré-impressão arXiv arXiv:2212.03533, 2022.


[31] L. Gao et al., “Tevatron: Um kit de ferramentas eficiente e flexível para recuperação densa”, 2022.


[32] B. Roziere ` et al., “Code llama: Open Foundation Models for Code”, 2023.


[33] N. Reimers e I. Gurevych, “Sentence-bert: Sentence embeddings using siamese bert-networks”, em Anais da Conferência de 2019 sobre Métodos Empíricos em Processamento de Linguagem Natural. Associação de Lingüística Computacional, 11 2019. [Online]. Disponível: http://arxiv.org/abs/1908.10084


[34] R. Pope et al., “Escalando eficientemente a inferência do transformador”, 2022.


[35] RY Aminabadi et al., “Inferência de velocidade profunda: Habilitando inferência eficiente de modelos de transformadores em escala sem precedentes”, 2022.


[36] L. Ouyang et al., “Treinando modelos de linguagem para seguir instruções com feedback humano”, 2022.


[37] W. Xiong et al., “Escalonamento eficaz de modelos de base em longo contexto”, 2023.


[38] R. Taylor et al., “Galactica: Um grande modelo de linguagem para a ciência”, 2022.


[39] A. Lewkowycz et al., “Resolvendo problemas de raciocínio quantitativo com modelos de linguagem”, 2022.


[40] P. Lewis et al., “Geração aumentada de recuperação para tarefas de PNL com uso intensivo de conhecimento”, 2021.


[41] S. Borgeaud et al., “Melhorando modelos de linguagem recuperando trilhões de tokens”, 2022.


[42] S. Robertson e H. Zaragoza, “A estrutura de relevância probabilística: Bm25 e além”, encontrado. Tendências Inf. Retr., vol. 3, não. 4, pág. 333–389, abril de 2009. [Online]. Disponível: https://doi.org/10.1561/1500000019


[43] V. Karpukhin et al., “Recuperação densa de passagens para resposta a perguntas de domínio aberto”, 2020.


[44] G. Izacard et al., “Recuperação de informações densas não supervisionadas com aprendizagem contrastiva”, 2022.


[45] W. Shi et al., “Replug: modelos de linguagem de caixa preta aumentada por recuperação”, 2023.


[46] G. Izacard et al., “Aprendizagem rápida com modelos de linguagem aumentada de recuperação”, 2022. [Online]. Disponível: http://arxiv.org/abs/2208.03299


[47] O. Ram et al., “Modelos de linguagem aumentada de recuperação em contexto”, 2023.


[48] S. Zhou et al., “Docprompting: Gerando código recuperando os documentos”, 2023.


[49] R. Rafailov et al., “Otimização de preferência direta: seu modelo de linguagem é secretamente um modelo de recompensa”, 2023.


[50] Y. Dong et al., “Steerlm: Atributo condicionado sft como uma alternativa (direcionável pelo usuário) ao rlhf”, 2023.


[51] H. Pearce, B. Tan e R. Karri, “Dave: Derivando automaticamente verilog do inglês”, em Proceedings of the 2020 ACM/IEEE Workshop on Machine Learning for CAD, ser. MLCAD '20. Nova York, NY, EUA: Association for Computing Machinery, 2020, p. 27–32. [On-line]. Disponível: https://doi.org/10.1145/3380446.3430634


[52] “Beautiful Soup”, https://www.crummy.com/software/BeautifulSoup/, acessado em: 10 de outubro de 2023.


[53] K. Sakaguchi et al., “Winogrande: Um desafio de esquema winograd adversário em escala”, pré-impressão arXiv arXiv:1907.10641, 2019.


[54] R. Zellers et al., “Hellaswag: Uma máquina pode realmente terminar sua frase?” nos Anais da 57ª Reunião Anual da Association for Computational Linguistics, 2019.


[55] P. Clark et al., “Acha que resolveu responder perguntas? experimente o arco, o desafio de raciocínio ai2”, 2018.


[56] G. Lai et al., “Raça: conjunto de dados de compreensão de leitura em larga escala de exames”, 2017.



Este artigo está disponível no arxiv sob licença CC 4.0.