paint-brush
ChipNeMo: LLMs adaptados ao domínio para design de chips: discussãopor@textmodels

ChipNeMo: LLMs adaptados ao domínio para design de chips: discussão

Muito longo; Para ler

Os pesquisadores apresentam o ChipNeMo, usando adaptação de domínio para aprimorar LLMs para design de chips, alcançando uma redução de até 5x no tamanho do modelo com melhor desempenho.
featured image - ChipNeMo: LLMs adaptados ao domínio para design de chips: discussão
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Autores:

(1) Mingjie Liu, NVIDIA {Contribuição igual};

(2) Teodor-Dumitru Ene, NVIDIA {Contribuição igual};

(3) Robert Kirby, NVIDIA {Contribuição igual};

(4) Chris Cheng, NVIDIA {Contribuição igual};

(5) Nathaniel Pinckney, NVIDIA {Contribuição igual};

(6) Rongjian Liang, NVIDIA {Contribuição igual};

(7) Jonah Alben, NVIDIA;

(8) Himyanshu Anand, NVIDIA;

(9) Sanmitra Banerjee, NVIDIA;

(10) Ismet Bayraktaroglu, NVIDIA;

(11) Bonita Bhaskaran, NVIDIA;

(12) Bryan Catanzaro, NVIDIA;

(13) Arjun Chaudhuri, NVIDIA;

(14) Sharon Clay, NVIDIA;

(15) Bill Dally, NVIDIA;

(16) Laura Dang, NVIDIA;

(17) Parikshit Deshpande, NVIDIA;

(18) Siddhanth Dhodhi, NVIDIA;

(19) Sameer Halepete, NVIDIA;

(20) Eric Hill, NVIDIA;

(21) Jiashang Hu, NVIDIA;

(22) Sumit Jain, NVIDIA;

(23) Brucek Khailany, NVIDIA;

(24) George Kokai, NVIDIA;

(25) Kishor Kunal, NVIDIA;

(26) Xiaowei Li, NVIDIA;

(27) Charley Lind, NVIDIA;

(28) Hao Liu, NVIDIA;

(29) Stuart Oberman, NVIDIA;

(30) Sujeet Omar, NVIDIA;

(31) Sreedhar Pratty, NVIDIA;

(23) Jonathan Raiman, NVIDIA;

(33) Ambar Sarkar, NVIDIA;

(34) Zhengjiang Shao, NVIDIA;

(35) Hanfei Sun, NVIDIA;

(36) Pratik P Suthar, NVIDIA;

(37) Varun Tej, NVIDIA;

(38) Walker Turner, NVIDIA;

(39) Kaizhe Xu, NVIDIA;

(40) Haoxing Ren, NVIDIA.

Tabela de Links

VI. DISCUSSÃO

A. Considerações para Adaptação de Domínio


Embora os modelos ChipNeMo adaptados ao domínio obtenham melhorias significativas em relação aos seus modelos de base correspondentes, também observamos que o LLaMA2 70B maior pode às vezes atingir uma precisão semelhante à do ChipNeMo, como visto nas Figuras 8, 9 e 10. Trabalhos recentes aproveitaram esses modelos poderosos para executar tarefas de design de chips.


No entanto, é importante considerar os benefícios de eficiência de custos obtidos com a utilização de um modelo mais pequeno. Papa e outros. demonstram que os custos de inferência em um modelo 8B são 8 a 12x menores do que em um modelo 62B para metas de latência iguais [34]. Além disso, a redução do tamanho do modelo pode levar a aumentos dramáticos na velocidade de inferência, permitindo que um modelo caiba em uma única GPU ou nó onde de outra forma não poderia [35]. Nosso modelo ChipNeMo 13B pode ser carregado na memória de uma única GPU A100 sem qualquer quantização, ao contrário do modelo LLaMA2 70B. Isso leva a aumentos significativos na velocidade de inferência sob operação normal da GPU, o que pode ser compensado por uma redução significativa no custo de inferência caso a GPU esteja com overclock.


Assim, ao decidir entre a utilização de um modelo de uso geral maior versus um modelo especializado menor em um ambiente de produção, os seguintes critérios devem ser considerados:


• Compromisso entre treinamento e inferência: Modelos adaptados a domínios menores podem corresponder à precisão de modelos maiores de uso geral. Embora a adaptação de domínio incorra em custos iniciais adicionais, o uso de modelos menores leva a custos operacionais significativamente reduzidos.


• Singularidade do caso de uso: como pode ser visto nas Figuras 6, 9 e 10, os modelos adaptados ao domínio mostram a maior melhoria em tarefas que raramente estão presentes no domínio público, como escrever código em linguagens proprietárias ou bibliotecas. Na verdade, os nossos dados mostram que, mesmo quando são fornecidos com contextos escolhidos a dedo, grandes modelos de uso geral têm dificuldade em corresponder à precisão dos modelos adaptados ao domínio em tais cenários.


• Disponibilidade de dados de domínio: A adaptação de domínio funciona melhor quando há uma grande quantidade de dados de treinamento, ou seja, bilhões de tokens de treinamento. Este é frequentemente o caso de grandes empresas e projetos que acumularam uma grande quantidade de documentos e códigos internos, mas não necessariamente verdadeiro para empresas ou projetos menores.


• Diversidade de casos de uso final: é possível ajustar um modelo de uso geral para uma tarefa específica, mas os modelos adaptados ao domínio são adequados para um conjunto diversificado de tarefas em um domínio. Embora demonstremos apenas três casos de uso para modelos ChipNeMo neste trabalho, ele pode ser facilmente reutilizado para outros casos de uso com dados SFT suficientes.


B. Lacuna de desempenho


Embora o ChipNeMo alcance resultados impressionantes em nossas aplicações selecionadas, conforme mostrado no Apêndice E, os resultados da avaliação para todas as aplicações ainda mostram uma lacuna considerável em relação ao desempenho humano especializado. Estamos considerando as seguintes abordagens para preencher essa lacuna de desempenho:


1) Coleta de dados: Podemos expandir o conjunto de dados DAPT para incluir mais dados proprietários internos. Além disso, planejamos adicionar mais conjuntos de instruções específicas de tarefas para SFT, pois as evidências mostram que SFT específicas de tarefas melhoram significativamente os resultados da avaliação.


2) Modelo básico: Esperamos que modelos básicos melhores e maiores possam melhorar o desempenho, como LLaMA2 70B. Também podemos explorar a aplicação do DAPT a modelos básicos específicos de código, como Code LLaMA [32] para tarefas de geração de código.


3) Treinamento: Também planejamos conduzir aprendizagem por reforço a partir de feedback humano (RLHF) [36] no modelo de bate-papo ChipNeMo para torná-lo mais versátil. Planejamos aproveitar modelos de recompensa pré-treinados treinados em conjuntos de dados de uso geral. Também planejamos realizar treinamento de contexto longo [37] para superar o desafio onde o contexto longo é necessário, por exemplo, na aplicação de resumo de bugs. Em geral, um suporte de contexto mais longo ajudaria a melhorar os métodos baseados em recuperação para assistência por chat, bem como para geração de código.


4) Recuperação: Investigaremos melhor os métodos RAG para o chatbot do assistente de engenharia e para a geração de scripts EDA. Para o chatbot do assistente de engenharia, podemos criar diferentes armazenamentos de dados para diferentes áreas de aplicação. Também podemos integrar mecanismos de pesquisa empresarial ao RAG para encontrar contexto relevante para um conjunto diversificado de problemas. Para geração de código, podemos investigar a recuperação automatizada de contexto de código e documentação existentes.


C. Metodologias de Design Baseadas em Agentes


Os casos de uso que experimentamos neste trabalho são aplicações diretas da capacidade de alerta e resposta dos LLMs. Os agentes referem-se ao uso de um LLM para escolher uma sequência de ações a serem executadas, onde um LLM atua como um mecanismo de raciocínio para acionar ferramentas externas. Os processos de design de chips envolvem muitas ferramentas e metodologias EDA existentes. Acreditamos que algumas dessas metodologias podem ser conduzidas por agentes alimentados por LLMs adaptados ao domínio, como os modelos ChipNeMo. Planejamos trabalhar em metodologias de design baseadas em agentes para verificação e otimização no futuro.


Este artigo está disponível no arxiv sob licença CC 4.0.