paint-brush
ChipNeMo: LLM được điều chỉnh theo miền cho thiết kế chip: Lời cảm ơn, đóng góp và tài liệu tham khảotừ tác giả@textmodels

ChipNeMo: LLM được điều chỉnh theo miền cho thiết kế chip: Lời cảm ơn, đóng góp và tài liệu tham khảo

từ tác giả Writings, Papers and Blogs on Text Models7m2024/06/06
Read on Terminal Reader

dài quá đọc không nổi

Các nhà nghiên cứu trình bày ChipNeMo, sử dụng khả năng thích ứng miền để nâng cao LLM cho thiết kế chip, giúp giảm kích thước mô hình lên tới 5 lần với hiệu suất tốt hơn.
featured image - ChipNeMo: LLM được điều chỉnh theo miền cho thiết kế chip: Lời cảm ơn, đóng góp và tài liệu tham khảo
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

tác giả:

(1) Mingjie Liu, NVIDIA {Đóng góp bình đẳng};

(2) Teodor-Dumitru Ene, NVIDIA {Đóng góp bình đẳng};

(3) Robert Kirby, NVIDIA {Đóng góp bình đẳng};

(4) Chris Cheng, NVIDIA {Đóng góp bình đẳng};

(5) Nathaniel Pinckney, NVIDIA {Đóng góp bình đẳng};

(6) Rongjian Liang, NVIDIA {Đóng góp bình đẳng};

(7) Jonah Alben, NVIDIA;

(8) Himyanshu Anand, NVIDIA;

(9) Sanmitra Banerjee, NVIDIA;

(10) Ismet Bayraktaroglu, NVIDIA;

(11) Bonita Bhaskaran, NVIDIA;

(12) Bryan Catanzaro, NVIDIA;

(13) Arjun Chaudhuri, NVIDIA;

(14) Sharon Clay, NVIDIA;

(15) Bill Dally, NVIDIA;

(16) Laura Đặng, NVIDIA;

(17) Parikshit Deshpande, NVIDIA;

(18) Siddhanth Dhodhi, NVIDIA;

(19) Sameer Halepete, NVIDIA;

(20) Eric Hill, NVIDIA;

(21) Jiashang Hu, NVIDIA;

(22) Sumit Jain, NVIDIA;

(23) Brucek Khailany, NVIDIA;

(24) George Kokai, NVIDIA;

(25) Kishor Kunal, NVIDIA;

(26) Xiaowei Li, NVIDIA;

(27) Charley Lind, NVIDIA;

(28) Hào Lưu, NVIDIA;

(29) Stuart Oberman, NVIDIA;

(30) Sujeet Omar, NVIDIA;

(31) Sreedhar Pratty, NVIDIA;

(23) Jonathan Raiman, NVIDIA;

(33) Ambar Sarkar, NVIDIA;

(34) Thiệu Giang, NVIDIA;

(35) Hanfei Sun, NVIDIA;

(36) Pratik P Suthar, NVIDIA;

(37) Varun Tej, NVIDIA;

(38) Walker Turner, NVIDIA;

(39) Kaizhe Xu, NVIDIA;

(40) Haoxing Ren, NVIDIA.

Bảng liên kết

IX. SỰ NHÌN NHẬN

Các tác giả xin gửi lời cảm ơn: Nhóm CNTT NVIDIA đã hỗ trợ tích hợp NVBugs; Nhóm Bảo mật Phần cứng NVIDIA vì sự hỗ trợ của họ về các vấn đề bảo mật; Đội ngũ NVIDIA NeMo đã hỗ trợ và hướng dẫn đào tạo và suy luận các mô hình ChipNeMo; Nhóm Cơ sở hạ tầng NVIDIA hỗ trợ tài nguyên suy luận và đào tạo GPU cho dự án; Đội ngũ thiết kế Phần cứng NVIDIA đã hỗ trợ và cung cấp thông tin chi tiết.

X. ĐÓNG GÓP

Mingjie Liu đã tiến hành đào tạo mô hình DAPT và SFT.


Teodor-Dumitru Ene, Robert Kirby đã phát triển cơ sở hạ tầng suy luận và đánh giá ứng dụng.


Chris Cheng đã phát triển khung RAG.


Nathaniel Pinckney đã thu thập và chuẩn bị bộ dữ liệu cho việc huấn luyện.


Rongjian Liang đã phát triển các token tùy chỉnh.


Walker Turner, Charley Lind, George Kokai đã phát triển một tiêu chuẩn kiến thức chung về thiết kế mạch điện.


Siddhanth Dhodhi, Ismet Bayraktaroglu, Himyanshu Anand, Eric Hill đã thiết kế chatbot trợ lý kỹ thuật, cung cấp bộ dữ liệu hướng dẫn tên miền, điểm chuẩn đánh giá và tiến hành đánh giá.


Parikshit Deshpande, Zhengjiang Shao, Kaizhe Xu, Jiashang Hu, Laura Đặng, Xiaowei Li, Hao Liu, Ambar Sarkar đã phát triển ứng dụng chatbot trợ lý kỹ thuật.


Sreedhar Pratty, Kishor Kunal, Varun Tej, Sumit Jain, Sujeet Omar, Pratik P Suthar, Hanfei Sun đã phát triển ứng dụng tạo tập lệnh EDA, cung cấp bộ dữ liệu hướng dẫn miền và điểm chuẩn đánh giá.


Bonita Bhaskaran, Arjun Chaudhuri, Sanmitra Banerjee đã phát triển ứng dụng phân tích và tóm tắt lỗi, cung cấp bộ dữ liệu hướng dẫn tên miền và điểm chuẩn đánh giá.


Brucek Khailany, Stuart Oberman, Sharon Clay, Sameer Halepete, Jonathan Raiman, Bryan Catanzaro, Jonah Alben, Bill Dally đã tư vấn về các quan điểm nghiên cứu AI và kỹ thuật phần cứng.


Haoxing Ren đã thiết kế và chỉ đạo nghiên cứu.

NGƯỜI GIỚI THIỆU

[1] B. Khailany và cộng sự, “Tăng tốc thiết kế chip với máy học,” IEEE Micro, tập. 40, không. 6, trang 23–32, 2020.

[2] H. Ren và M. Fojtik, “Được mời- nvcell: Bố cục ô tiêu chuẩn trong các nút công nghệ tiên tiến với học tập tăng cường,” vào năm 2021 Hội nghị tự động hóa thiết kế ACM/IEEE (DAC) lần thứ 58 năm 2021.


[3] R. Roy và cộng sự, “PrefixRL: Tối ưu hóa các mạch tiền tố song song bằng cách sử dụng phương pháp học tăng cường sâu,” vào năm 2021 Hội nghị tự động hóa thiết kế ACM/IEEE (DAC) lần thứ 58 năm 2021.


[4] W.-L. Chiang và cộng sự, “Vicuna: Một chatbot mã nguồn mở gây ấn tượng với gpt-4 với chất lượng chatgpt 90%*,” tháng 3 năm 2023. [Trực tuyến]. Có sẵn: https://lmsys.org/blog/2023-03-30-vicuna/


[5] H. Touvron và cộng sự, “Llama 2: Nền tảng mở và các mô hình trò chuyện được tinh chỉnh,” 2023.


[6] S. Thakur và cộng sự, “Đánh giá các mô hình ngôn ngữ lớn để tạo mã verilog rtl tự động,” vào năm 2023 Hội nghị & Triển lãm Thiết kế, Tự động hóa & Thử nghiệm ở Châu Âu (DATE), 2023, trang 1–6.


[7] J. Blocklove và cộng sự, “Chip-chat: Những thách thức và cơ hội trong thiết kế phần cứng đàm thoại,” 2023.


[8] Z. He và cộng sự, “Chateda: Một tác nhân tự trị hỗ trợ mô hình ngôn ngữ lớn cho eda,” 2023.


[9] S. Bubeck và cộng sự, “Tia lửa trí tuệ nhân tạo tổng quát: Những thử nghiệm ban đầu với gpt-4,” 2023.


[10] S. Wu và cộng sự, “Bloomberggpt: Một mô hình ngôn ngữ lớn cho tài chính,” 2023.


[11] M. LLC. (2022) Biomedlm: mô hình ngôn ngữ lớn theo miền dành riêng cho văn bản y sinh. [Trực tuyến]. Có sẵn: https://www.mosaicml.com/blog/introducing-pubmed-gpt


[12] M. Liu và cộng sự, “VerilogEval: đánh giá các mô hình ngôn ngữ lớn để tạo mã Verilog,” vào năm 2023 Hội nghị quốc tế IEEE/ACM về Thiết kế hỗ trợ máy tính (ICCAD), 2023.


[13] E. Nijkamp và cộng sự, “Codegen: Một mô hình ngôn ngữ lớn mở cho mã với tổng hợp chương trình nhiều lượt,” ICLR, 2023.


[14] S. Gururangan và cộng sự, “Không ngừng đào tạo trước: Điều chỉnh mô hình ngôn ngữ cho phù hợp với các lĩnh vực và nhiệm vụ,” 2020.


[15] P. Lewis và cộng sự, “Thế hệ tăng cường truy xuất cho các nhiệm vụ NLP chuyên sâu về kiến thức,” 2021.


[16] EJ Hu và cộng sự, “Lora: Chuyển thể cấp thấp của các mô hình ngôn ngữ lớn,” CoRR, tập. abs/2106.09685, 2021. [Trực tuyến]. Có sẵn: https://arxiv.org/abs/2106.09685


[17] L. Gao và cộng sự, “Đống dữ liệu: Một tập dữ liệu 800gb gồm văn bản đa dạng để lập mô hình ngôn ngữ.”


[18] D. Kocetkov và cộng sự, “Ngăn xếp: 3 tb mã nguồn được cấp phép cho phép,” 2022.


[19] A. Kopf ¨ và cộng sự, “Các cuộc hội thoại hỗ trợ mở – dân chủ hóa việc liên kết mô hình ngôn ngữ lớn,” 2023.


[20] J. Wei và cộng sự, “Các mô hình ngôn ngữ được tinh chỉnh là những người học không cần nỗ lực,” 2022.


[21] V. Sanh và cộng sự, “Đào tạo nhắc nhở đa nhiệm giúp khái quát hóa nhiệm vụ không cần thực hiện,” 2022.


[22] D. Hendrycks và cộng sự, “Đo lường khả năng hiểu ngôn ngữ đa nhiệm trên diện rộng,” 2021.


[23] M. Chen và cộng sự, “Đánh giá các mô hình ngôn ngữ lớn được đào tạo về mã,” 2021.


[24] F. Koto, JH Lau và T. Baldwin, “IndoBERTweet: Một mô hình ngôn ngữ được đào tạo trước cho Twitter của Indonesia với khả năng khởi tạo từ vựng theo miền cụ thể hiệu quả,” trong Kỷ yếu của Hội nghị năm 2021 về các phương pháp thực nghiệm trong xử lý ngôn ngữ tự nhiên, tháng 11 năm 2021. 2021, trang 10 660–10 668.


[25] O. Kuchaiev và cộng sự, “Nemo: bộ công cụ để xây dựng các ứng dụng ai bằng mô-đun thần kinh,” 2019.


[26] M. Shoeybi và cộng sự, “Megatron-lm: Đào tạo các mô hình ngôn ngữ nhiều tỷ tham số bằng cách sử dụng song song mô hình,” bản in trước arXiv arXiv:1909.08053, 2019.


[27] T. Dao và cộng sự, “FlashAttention: Sự chú ý chính xác nhanh chóng và tiết kiệm bộ nhớ với nhận thức IO,” trong Những tiến bộ trong hệ thống xử lý thông tin thần kinh, 2022. [28] A. Chowdhery và cộng sự, “Palm: Chia tỷ lệ mô hình hóa ngôn ngữ với các lộ trình,” 2022.


[29] Z. Ji và cộng sự, “Khảo sát ảo giác trong việc tạo ra ngôn ngữ tự nhiên,” ACM Comput. Sống sót, tập. 55, không. Ngày 12 tháng 3 năm 2023. [Trực tuyến]. Có sẵn: https://doi.org/10.1145/3571730


[30] L. Wang và cộng sự, “Việc nhúng văn bản bằng quá trình đào tạo trước tương phản được giám sát yếu,” arXiv preprint arXiv:2212.03533, 2022.


[31] L. Gao và cộng sự, “Tevatron: Một bộ công cụ hiệu quả và linh hoạt để truy xuất dày đặc,” 2022.


[32] B. Roziere ` và cộng sự, “Code llama: Các mô hình nền tảng mở cho mã,” 2023.


[33] N. Reimers và I. Gurevych, “Sentence-bert: Nhúng câu bằng cách sử dụng mạng bert siamese,” trong Kỷ yếu của Hội nghị năm 2019 về các phương pháp thực nghiệm trong xử lý ngôn ngữ tự nhiên. Hiệp hội Ngôn ngữ học tính toán, ngày 11 năm 2019. [Trực tuyến]. Có sẵn: http://arxiv.org/abs/1908.10084


[34] R. Pope và cộng sự, “Suy luận về máy biến áp mở rộng quy mô hiệu quả,” 2022.


[35] RY Aminabadi và cộng sự, “Suy luận tốc độ sâu: Cho phép suy luận hiệu quả của các mô hình máy biến áp ở quy mô chưa từng có,” 2022.


[36] L. Ouyang và cộng sự, “Đào tạo các mô hình ngôn ngữ để làm theo hướng dẫn với phản hồi của con người,” 2022.


[37] W. Xiong và cộng sự, “Mở rộng các mô hình nền tảng trong bối cảnh dài hạn hiệu quả,” 2023.


[38] R. Taylor và cộng sự, “Galactica: Một mô hình ngôn ngữ lớn cho khoa học,” 2022.


[39] A. Lewkowycz và cộng sự, “Giải quyết các vấn đề suy luận định lượng bằng mô hình ngôn ngữ,” 2022.


[40] P. Lewis và cộng sự, “Thế hệ tăng cường truy xuất cho các nhiệm vụ NLP chuyên sâu về kiến thức,” 2021.


[41] S. Borgeaud và cộng sự, “Cải thiện mô hình ngôn ngữ bằng cách truy xuất từ hàng nghìn tỷ mã thông báo,” 2022.


[42] S. Robertson và H. Zaragoza, “Khung liên quan đến xác suất: Bm25 và hơn thế nữa,” Found. Thông tin xu hướng Trở lại, tập. 3, không. 4, tr. 333–389, tháng 4 năm 2009. [Trực tuyến]. Có sẵn: https://doi.org/10.1561/1500000019


[43] V. Karpukhin và cộng sự, “Truy xuất đoạn văn dày đặc để trả lời câu hỏi trong miền mở,” 2020.


[44] G. Izacard và cộng sự, “Truy xuất thông tin dày đặc không có giám sát bằng phương pháp học tập tương phản,” 2022.


[45] W. Shi và cộng sự, “Replug: Các mô hình ngôn ngữ hộp đen tăng cường truy xuất,” 2023.


[46] G. Izacard và cộng sự, “Học trong vài lần với các mô hình ngôn ngữ tăng cường truy xuất,” 2022. [Trực tuyến]. Có sẵn: http://arxiv.org/abs/2208.03299


[47] O. Ram và cộng sự, “Các mô hình ngôn ngữ tăng cường truy xuất trong ngữ cảnh,” 2023.


[48] S. Zhou và cộng sự, “Docprompting: Tạo mã bằng cách truy xuất tài liệu,” 2023.


[49] R. Rafailov và cộng sự, “Tối ưu hóa tùy chọn trực tiếp: Mô hình ngôn ngữ của bạn bí mật là mô hình phần thưởng,” 2023.


[50] Y. Dong và cộng sự, “Steerlm: Thuộc tính sft có điều kiện như một giải pháp thay thế (người dùng có thể điều khiển) cho rlhf,” 2023.


[51] H. Pearce, B. Tan và R. Karri, “Dave: Tự động lấy phiên bản từ tiếng Anh,” trong Kỷ yếu của Hội thảo ACM/IEEE 2020 về Học máy cho CAD, ser. MLCAD '20. New York, NY, Hoa Kỳ: Hiệp hội Máy tính, 2020, tr. 27–32. [Trực tuyến]. Có sẵn: https://doi.org/10.1145/3380446.3430634


[52] “Súp đẹp,” https://www.crummy.com/software/BeautifulSoup/, truy cập: ngày 10 tháng 10 năm 2023.


[53] K. Sakaguchi và cộng sự, “Winogrande: Một thách thức về lược đồ winograd đối nghịch trên quy mô lớn,” bản in trước arXiv arXiv:1907.10641, 2019.


[54] R. Zellers và cộng sự, “Hellaswag: Liệu một cỗ máy có thể thực sự kết thúc câu nói của bạn không?” trong Kỷ yếu Hội nghị thường niên lần thứ 57 của Hiệp hội Ngôn ngữ học tính toán, năm 2019.


[55] P. Clark và cộng sự, “Bạn nghĩ rằng bạn đã giải quyết được việc trả lời câu hỏi? try arc, thử thách suy luận ai2,” 2018.


[56] G. Lai và cộng sự, “Chủng tộc: Tập dữ liệu đọc hiểu quy mô lớn từ các kỳ thi,” 2017.



Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.