paint-brush
ChipNeMo: LLM adaptados al dominio para diseño de chips: trabajos relacionadospor@textmodels

ChipNeMo: LLM adaptados al dominio para diseño de chips: trabajos relacionados

Demasiado Largo; Para Leer

Los investigadores presentan ChipNeMo, que utiliza la adaptación de dominio para mejorar los LLM para el diseño de chips, logrando una reducción del tamaño del modelo de hasta cinco veces con un mejor rendimiento.
featured image - ChipNeMo: LLM adaptados al dominio para diseño de chips: trabajos relacionados
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Autores:

(1) Mingjie Liu, NVIDIA {Contribución igual};

(2) Teodor-Dumitru Ene, NVIDIA {Contribución igual};

(3) Robert Kirby, NVIDIA {Contribución igual};

(4) Chris Cheng, NVIDIA {Contribución igual};

(5) Nathaniel Pinckney, NVIDIA {Contribución igual};

(6) Rongjian Liang, NVIDIA {Contribución igual};

(7) Jonás Alben, NVIDIA;

(8) Himyanshu Anand, NVIDIA;

(9) Sanmitra Banerjee, NVIDIA;

(10) Ismet Bayraktaroglu, NVIDIA;

(11) Bonita Bhaskaran, NVIDIA;

(12) Bryan Catanzaro, NVIDIA;

(13) Arjun Chaudhuri, NVIDIA;

(14) Sharon Clay, NVIDIA;

(15) Bill Dally, NVIDIA;

(16) Laura Dang, NVIDIA;

(17) Parikshit Deshpande, NVIDIA;

(18) Siddhanth Dhodhi, NVIDIA;

(19) Sameer Halepete, NVIDIA;

(20) Eric Hill, NVIDIA;

(21) Jiashang Hu, NVIDIA;

(22) Sumit Jain, NVIDIA;

(23) Brucek Khailany, NVIDIA;

(24) George Kokai, NVIDIA;

(25) Kishor Kunal, NVIDIA;

(26) Xiaowei Li, NVIDIA;

(27) Charley Lind, NVIDIA;

(28) Hao Liu, NVIDIA;

(29) Stuart Oberman, NVIDIA;

(30) Sujeet Omar, NVIDIA;

(31) Sreedhar Pratty, NVIDIA;

(23) Jonathan Raiman, NVIDIA;

(33) Ambar Sarkar, NVIDIA;

(34) Zhengjiang Shao, NVIDIA;

(35) Hanfei Sun, NVIDIA;

(36) Pratik P. Suthar, NVIDIA;

(37) Varun Tej, NVIDIA;

(38) Walker Turner, NVIDIA;

(39) Kaizhe Xu, NVIDIA;

(40) Haoxing Ren, NVIDIA.

Tabla de enlaces

VII. OBRAS RELACIONADAS

Muchos dominios tienen una cantidad significativa de datos propietarios que pueden usarse para capacitar un LLM específico de un dominio. Un enfoque es entrenar un modelo básico de dominio específico desde cero, por ejemplo, BloombergGPT [10] para finanzas, BioMedLLM [11] para biomedicina y Galactica [38] para ciencia. Estos modelos generalmente se entrenaron con más de 100 mil millones de tokens de datos de dominio sin procesar. El segundo enfoque es el preentrenamiento adaptativo de dominio (DAPT) [14] que continúa entrenando un modelo básico previamente entrenado con datos de dominio sin procesar adicionales. Muestra un ligero aumento en el rendimiento en tareas específicas de dominios como publicaciones biomédicas, informáticas, noticias y reseñas. En un ejemplo, [39] continuó preentrenando un modelo básico en conjuntos de datos de contenido técnico y logró un rendimiento de vanguardia en muchas tareas de razonamiento cuantitativo.


La recuperación de generación aumentada (RAG) ayuda a que el LLM genere información precisa y extraiga información actualizada para mejorar las tareas de PNL con uso intensivo de conocimiento [40]. Se observa que los modelos más pequeños con RAG pueden superar a los modelos más grandes sin RAG [41]. Los métodos de recuperación incluyen métodos de recuperación dispersa como TF-IDF o BM25 [42], que analizan información estadística de palabras y encuentran documentos coincidentes con un vector disperso de alta dimensión. Los métodos de recuperación densos como [43] [44] encuentran documentos coincidentes en un espacio de incrustación generado por un modelo de recuperación previamente entrenado en un corpus grande con o sin ajuste fino en un conjunto de datos de recuperación. El modelo de recuperación se puede entrenar de forma independiente [43] [44] [45] o junto con modelos de lenguaje [46] [41]. Además, se ha demostrado que los recuperadores de propósito general disponibles en el mercado pueden mejorar significativamente un modelo de lenguaje de referencia sin necesidad de realizar ajustes adicionales [47]. También se propone RAG para realizar tareas de generación de código [48] recuperándolos de documentos de codificación.


Los modelos básicos son modelos de finalización, que tienen capacidades limitadas de chat y seguimiento de instrucciones. Por lo tanto, se aplica un proceso de alineación de modelos a los modelos básicos para entrenar un modelo de chat correspondiente. El ajuste de instrucciones [20] y el aprendizaje reforzado a partir de la retroalimentación humana (RLHF) [36] son dos técnicas comunes de alineación de modelos. El ajuste de instrucciones entrena aún más un modelo básico utilizando conjuntos de datos de instrucciones. RLHF aprovecha la retroalimentación humana para etiquetar un conjunto de datos para entrenar un modelo de recompensa y aplica el aprendizaje por refuerzo para mejorar aún más los modelos dado el modelo de recompensa entrenado. RLHF suele ser más complejo y necesita más recursos que el ajuste de instrucciones. Por lo tanto, estudios recientes también proponen reducir esta sobrecarga con métodos más simples como DPO [49] y SteerLM [50].


Los investigadores han comenzado a aplicar el LLM a problemas de diseño de chips. Los primeros trabajos como Dave [51] exploraron por primera vez la posibilidad de generar Verilog a partir del inglés con un modelo de lenguaje (GPT-2). Después de ese trabajo, [6] demostró que los LLM de código abierto (CodeGen) ajustados en conjuntos de datos de Verilog recopilados de los libros de texto de GitHub y Verilog superaron a los modelos OpenAI de última generación, como code-davinci-002, en 17 preguntas de Verilog. [12] propusieron un punto de referencia con más de 150 problemas y demostraron que la capacidad de generación de código Verilog de modelos de lenguaje previamente entrenados podría mejorarse con un ajuste supervisado mediante arranque con pares de código de problema sintéticos generados por LLM. Chip-Chat [7] experimentó con flujos conversacionales para diseñar y verificar un microprocesador basado en acumulador de 8 bits con GPT-4 y GPT-3.5. Sus hallazgos mostraron que, aunque GPT-4 produjo códigos de calidad relativamente alta, todavía no funciona lo suficientemente bien para comprender y corregir los errores. ChipEDA [8] propuso utilizar LLM para generar scripts de herramientas EDA. También demostró que el modelo LLaMA2 70B ajustado supera al modelo GPT-4 en esta tarea.


Este documento está disponible en arxiv bajo licencia CC 4.0.