Autores:
(1) Mingjie Liu, NVIDIA {Contribución igual};
(2) Teodor-Dumitru Ene, NVIDIA {Contribución igual};
(3) Robert Kirby, NVIDIA {Contribución igual};
(4) Chris Cheng, NVIDIA {Contribución igual};
(5) Nathaniel Pinckney, NVIDIA {Contribución igual};
(6) Rongjian Liang, NVIDIA {Contribución igual};
(7) Jonás Alben, NVIDIA;
(8) Himyanshu Anand, NVIDIA;
(9) Sanmitra Banerjee, NVIDIA;
(10) Ismet Bayraktaroglu, NVIDIA;
(11) Bonita Bhaskaran, NVIDIA;
(12) Bryan Catanzaro, NVIDIA;
(13) Arjun Chaudhuri, NVIDIA;
(14) Sharon Clay, NVIDIA;
(15) Bill Dally, NVIDIA;
(16) Laura Dang, NVIDIA;
(17) Parikshit Deshpande, NVIDIA;
(18) Siddhanth Dhodhi, NVIDIA;
(19) Sameer Halepete, NVIDIA;
(20) Eric Hill, NVIDIA;
(21) Jiashang Hu, NVIDIA;
(22) Sumit Jain, NVIDIA;
(23) Brucek Khailany, NVIDIA;
(24) George Kokai, NVIDIA;
(25) Kishor Kunal, NVIDIA;
(26) Xiaowei Li, NVIDIA;
(27) Charley Lind, NVIDIA;
(28) Hao Liu, NVIDIA;
(29) Stuart Oberman, NVIDIA;
(30) Sujeet Omar, NVIDIA;
(31) Sreedhar Pratty, NVIDIA;
(23) Jonathan Raiman, NVIDIA;
(33) Ambar Sarkar, NVIDIA;
(34) Zhengjiang Shao, NVIDIA;
(35) Hanfei Sun, NVIDIA;
(36) Pratik P. Suthar, NVIDIA;
(37) Varun Tej, NVIDIA;
(38) Walker Turner, NVIDIA;
(39) Kaizhe Xu, NVIDIA;
(40) Haoxing Ren, NVIDIA.
Los autores desean agradecer a: los equipos de TI de NVIDIA por su apoyo en la integración de NVBugs; al equipo de Seguridad de hardware de NVIDIA por su apoyo en cuestiones de seguridad; a los equipos de NVIDIA NeMo por su apoyo y orientación sobre entrenamiento e inferencia de modelos ChipNeMo; Equipos de infraestructura de NVIDIA por respaldar los recursos de inferencia y capacitación de GPU para el proyecto; Equipos de diseño de hardware de NVIDIA por su apoyo y conocimiento.
Mingjie Liu llevó a cabo una capacitación sobre los modelos DAPT y SFT.
Teodor-Dumitru Ene y Robert Kirby desarrollaron una infraestructura de inferencia y evaluación de aplicaciones.
Chris Cheng desarrolló el marco RAG.
Nathaniel Pinckney recopiló y preparó conjuntos de datos para la capacitación.
Rongjian Liang desarrolló tokenizadores personalizados.
Walker Turner, Charley Lind y George Kokai desarrollaron un punto de referencia de conocimientos sobre diseño de circuitos generales.
Siddhanth Dhodhi, Ismet Bayraktaroglu, Himyanshu Anand y Eric Hill diseñaron un chatbot asistente de ingeniería, proporcionaron conjuntos de datos de instrucción de dominio, puntos de referencia de evaluación y realizaron evaluaciones.
Parikshit Deshpande, Zhengjiang Shao, Kaizhe Xu, Jiashang Hu, Laura Dang, Xiaowei Li, Hao Liu y Ambar Sarkar desarrollaron una aplicación de chatbot asistente de ingeniería.
Sreedhar Pratty, Kishor Kunal, Varun Tej, Sumit Jain, Sujeet Omar, Pratik P Suthar, Hanfei Sun desarrollaron una aplicación de generación de scripts EDA, proporcionaron conjuntos de datos de instrucciones de dominio y puntos de referencia de evaluación.
Bonita Bhaskaran, Arjun Chaudhuri y Sanmitra Banerjee desarrollaron una aplicación de análisis y resumen de errores, proporcionaron conjuntos de datos de instrucciones de dominio y puntos de referencia de evaluación.
Brucek Khailany, Stuart Oberman, Sharon Clay, Sameer Halepete, Jonathan Raiman, Bryan Catanzaro, Jonah Alben y Bill Dally asesoraron desde las perspectivas de la investigación de IA y la ingeniería de hardware.
Haoxing Ren diseñó y dirigió la investigación.
[1] B. Khailany et al., “Acelerar el diseño de chips con aprendizaje automático”, IEEE Micro, vol. 40, núm. 6, págs. 23-32, 2020.
[2] H. Ren y M. Fojtik, “Invited-nvcell: Diseño de celda estándar en nodos de tecnología avanzada con aprendizaje por refuerzo”, en 2021, 58.a Conferencia de automatización de diseño (DAC) ACM/IEEE, 2021.
[3] R. Roy et al., “PrefixRL: Optimización de circuitos de prefijo paralelo mediante aprendizaje por refuerzo profundo”, en 2021, 58.ª Conferencia de automatización de diseño (DAC) ACM/IEEE, 2021.
[4] W.-L. Chiang et al., “Vicuña: Un chatbot de código abierto que impresiona a gpt-4 con una calidad de chatgpt del 90 %*”, marzo de 2023. [En línea]. Disponible: https://lmsys.org/blog/2023-03-30-vicuna/
[5] H. Touvron et al., “Llama 2: base abierta y modelos de chat ajustados”, 2023.
[6] S. Thakur et al., “Evaluación comparativa de modelos de lenguaje grandes para la generación automatizada de código verilog rtl”, en 2023 Design, Automation & Test in Europe Conference & Exhibition (DATE), 2023, págs.
[7] J. Blocklove et al., “Chip-chat: desafíos y oportunidades en el diseño de hardware conversacional”, 2023.
[8] Z. He et al., “Chateda: un agente autónomo impulsado por un modelo de lenguaje grande para eda”, 2023.
[9] S. Bubeck et al., “Chispas de inteligencia artificial general: primeros experimentos con gpt-4”, 2023.
[10] S. Wu et al., “Bloomberggpt: Un modelo de lenguaje grande para las finanzas”, 2023.
[11] M. LLC. (2022) Biomedlm: un modelo de lenguaje grande de dominio específico para texto biomédico. [En línea]. Disponible: https://www.mosaicml.com/blog/introduciendo-pubmed-gpt
[12] M. Liu et al., “VerilogEval: evaluación de modelos de lenguaje grandes para la generación de código verilog”, en la Conferencia Internacional IEEE/ACM sobre Diseño Asistido por Computadora (ICCAD) de 2023, 2023.
[13] E. Nijkamp et al., “Codegen: un modelo de lenguaje grande abierto para código con síntesis de programas de múltiples turnos”, ICLR, 2023.
[14] S. Gururangan et al., “No deje de realizar la capacitación previa: adapte los modelos de lenguaje a los dominios y tareas”, 2020.
[15] P. Lewis et al., “Generación de recuperación aumentada para tareas de PNL con uso intensivo de conocimiento”, 2021.
[16] EJ Hu et al., “Lora: Adaptación de bajo rango de modelos de lenguaje grandes”, CoRR, vol. abs/2106.09685, 2021. [En línea]. Disponible: https://arxiv.org/abs/2106.09685
[17] L. Gao et al., "La pila: un conjunto de datos de 800 GB de texto diverso para modelado de lenguaje".
[18] D. Kocetkov et al., “La pila: 3 TB de código fuente con licencia permisiva”, 2022.
[19] A. Kopf ¨ et al., “Conversaciones de Openassistant – democratizando la alineación del modelo de lenguaje grande”, 2023.
[20] J. Wei et al., “Los modelos de lenguaje perfeccionados son aprendices de cero oportunidades”, 2022.
[21] V. Sanh et al., “La capacitación impulsada por tareas múltiples permite la generalización de tareas inmediatas”, 2022.
[22] D. Hendrycks et al., “Medición de la comprensión masiva del lenguaje multitarea”, 2021.
[23] M. Chen et al., “Evaluación de modelos de lenguaje grandes entrenados en código”, 2021.
[24] F. Koto, JH Lau y T. Baldwin, “IndoBERTweet: un modelo de lenguaje previamente entrenado para Twitter indonesio con inicialización efectiva de vocabulario específico de dominio”, en Actas de la Conferencia de 2021 sobre métodos empíricos en el procesamiento del lenguaje natural, noviembre de 2021. 2021, págs. 10 660–10 668.
[25] O. Kuchaiev et al., “Nemo: un conjunto de herramientas para crear aplicaciones de inteligencia artificial utilizando módulos neuronales”, 2019.
[26] M. Shoeybi et al., “Megatron-lm: Entrenamiento de modelos de lenguaje de parámetros multimillonarios utilizando el paralelismo de modelos”, preimpresión de arXiv arXiv:1909.08053, 2019.
[27] T. Dao et al., “FlashAttention: atención exacta rápida y eficiente en memoria con conciencia de IO”, en Advances in Neural Information Processing Systems, 2022. [28] A. Chowdhery et al., “Palm: Scaling modelado del lenguaje con vías”, 2022.
[29] Z. Ji et al., “Encuesta sobre alucinaciones en la generación del lenguaje natural”, ACM Comput. Sobrevivencia, vol. 55, núm. 12 de marzo de 2023. [En línea]. Disponible: https://doi.org/10.1145/3571730
[30] L. Wang et al., “Incrustaciones de texto mediante preentrenamiento contrastivo débilmente supervisado”, preimpresión de arXiv arXiv:2212.03533, 2022.
[31] L. Gao et al., “Tevatron: un conjunto de herramientas eficiente y flexible para la recuperación densa”, 2022.
[32] B. Roziere ` et al., “Code llama: modelos básicos abiertos para código”, 2023.
[33] N. Reimers e I. Gurevych, “Sentence-bert: incrustaciones de oraciones utilizando redes bert siamesas”, en Actas de la Conferencia de 2019 sobre métodos empíricos en el procesamiento del lenguaje natural. Asociación de Lingüística Computacional, 11 de 2019. [En línea]. Disponible: http://arxiv.org/abs/1908.10084
[34] R. Pope et al., “Escalar eficientemente la inferencia del transformador”, 2022.
[35] RY Aminabadi et al., “Inferencia de velocidad profunda: permitir la inferencia eficiente de modelos de transformadores a una escala sin precedentes”, 2022.
[36] L. Ouyang et al., “Entrenamiento de modelos de lenguaje para seguir instrucciones con retroalimentación humana”, 2022.
[37] W. Xiong et al., “Escalado efectivo de modelos de cimentación a largo plazo”, 2023.
[38] R. Taylor et al., “Galactica: Un modelo de lenguaje grande para la ciencia”, 2022.
[39] A. Lewkowycz et al., “Resolver problemas de razonamiento cuantitativo con modelos de lenguaje”, 2022.
[40] P. Lewis et al., “Generación de recuperación aumentada para tareas de PNL con uso intensivo de conocimiento”, 2021.
[41] S. Borgeaud et al., “Mejora de los modelos lingüísticos mediante la recuperación de billones de tokens”, 2022.
[42] S. Robertson y H. Zaragoza, “El marco de relevancia probabilística: Bm25 y más allá”, Encontrado. Tendencias Inf. Retrocedido, vol. 3, núm. 4, pág. 333–389, abril de 2009. [En línea]. Disponible: https://doi.org/10.1561/1500000019
[43] V. Karpukhin et al., “Recuperación de pasajes densos para responder preguntas de dominio abierto”, 2020.
[44] G. Izacard et al., “Recuperación de información densa no supervisada con aprendizaje contrastivo”, 2022.
[45] W. Shi et al., “Replug: modelos de lenguaje de caja negra aumentados con recuperación”, 2023.
[46] G. Izacard et al., “Aprendizaje de pocas oportunidades con modelos de lenguaje aumentados de recuperación”, 2022. [En línea]. Disponible: http://arxiv.org/abs/2208.03299
[47] O. Ram et al., “Modelos de lenguaje aumentados de recuperación en contexto”, 2023.
[48] S. Zhou et al., “Docprompting: generación de código recuperando los documentos”, 2023.
[49] R. Rafailov et al., “Optimización de preferencias directas: su modelo de lenguaje es secretamente un modelo de recompensa”, 2023.
[50] Y. Dong et al., “Steerlm: sft condicionado por atributos como una alternativa (orientable por el usuario) a rlhf”, 2023.
[51] H. Pearce, B. Tan y R. Karri, “Dave: Derivando automáticamente verilog del inglés”, en Actas del taller ACM/IEEE 2020 sobre aprendizaje automático para CAD, ser. MLCAD '20. Nueva York, NY, EE. UU.: Association for Computing Machinery, 2020, p. 27–32. [En línea]. Disponible: https://doi.org/10.1145/3380446.3430634
[52] “Beautiful Soup”, https://www.crummy.com/software/BeautifulSoup/, consultado: 10 de octubre de 2023.
[53] K. Sakaguchi et al., “Winogrande: Un desafío adversario del esquema de Winograd a escala”, preimpresión de arXiv arXiv:1907.10641, 2019.
[54] R. Zellers et al., "Hellaswag: ¿Puede una máquina realmente terminar tu oración?" en Actas de la 57.a Reunión Anual de la Asociación de Lingüística Computacional, 2019.
[55] P. Clark et al., “¿Crees que has resuelto la respuesta a preguntas? prueba arc, el desafío de razonamiento ai2”, 2018.
[56] G. Lai et al., “Raza: conjunto de datos de comprensión lectora a gran escala a partir de exámenes”, 2017.
Este documento está disponible en arxiv bajo licencia CC 4.0.