tác giả:
(1) Mingjie Liu, NVIDIA {Đóng góp bình đẳng};
(2) Teodor-Dumitru Ene, NVIDIA {Đóng góp bình đẳng};
(3) Robert Kirby, NVIDIA {Đóng góp bình đẳng};
(4) Chris Cheng, NVIDIA {Đóng góp bình đẳng};
(5) Nathaniel Pinckney, NVIDIA {Đóng góp bình đẳng};
(6) Rongjian Liang, NVIDIA {Đóng góp bình đẳng};
(7) Jonah Alben, NVIDIA;
(8) Himyanshu Anand, NVIDIA;
(9) Sanmitra Banerjee, NVIDIA;
(10) Ismet Bayraktaroglu, NVIDIA;
(11) Bonita Bhaskaran, NVIDIA;
(12) Bryan Catanzaro, NVIDIA;
(13) Arjun Chaudhuri, NVIDIA;
(14) Sharon Clay, NVIDIA;
(15) Bill Dally, NVIDIA;
(16) Laura Đặng, NVIDIA;
(17) Parikshit Deshpande, NVIDIA;
(18) Siddhanth Dhodhi, NVIDIA;
(19) Sameer Halepete, NVIDIA;
(20) Eric Hill, NVIDIA;
(21) Jiashang Hu, NVIDIA;
(22) Sumit Jain, NVIDIA;
(23) Brucek Khailany, NVIDIA;
(24) George Kokai, NVIDIA;
(25) Kishor Kunal, NVIDIA;
(26) Xiaowei Li, NVIDIA;
(27) Charley Lind, NVIDIA;
(28) Hào Lưu, NVIDIA;
(29) Stuart Oberman, NVIDIA;
(30) Sujeet Omar, NVIDIA;
(31) Sreedhar Pratty, NVIDIA;
(23) Jonathan Raiman, NVIDIA;
(33) Ambar Sarkar, NVIDIA;
(34) Thiệu Giang, NVIDIA;
(35) Hanfei Sun, NVIDIA;
(36) Pratik P Suthar, NVIDIA;
(37) Varun Tej, NVIDIA;
(38) Walker Turner, NVIDIA;
(39) Kaizhe Xu, NVIDIA;
(40) Haoxing Ren, NVIDIA.
Nhiều miền có một lượng dữ liệu độc quyền đáng kể có thể được sử dụng để đào tạo LLM dành riêng cho miền. Một cách tiếp cận là đào tạo một mô hình nền tảng cụ thể theo miền ngay từ đầu, ví dụ: BloombergGPT [10] cho tài chính, BioMedLLM [11] cho sinh học và Galactica [38] cho khoa học. Các mô hình này thường được đào tạo trên hơn 100 tỷ mã thông báo dữ liệu miền thô. Cách tiếp cận thứ hai là đào tạo trước thích ứng với miền (DAPT) [14] tiếp tục đào tạo mô hình nền tảng được đào tạo trước trên dữ liệu miền thô bổ sung. Nó cho thấy hiệu suất tăng nhẹ đối với các tác vụ theo miền cụ thể trong các lĩnh vực như y sinh, ấn phẩm khoa học máy tính, tin tức và đánh giá. Trong một ví dụ, [39] tiếp tục huấn luyện trước một mô hình nền tảng về các bộ dữ liệu nội dung kỹ thuật và đạt được hiệu suất cao nhất trong nhiều nhiệm vụ suy luận định lượng.
Tạo tăng cường truy xuất (RAG) giúp tạo nền tảng cho LLM tạo ra thông tin chính xác và trích xuất thông tin cập nhật để cải thiện các nhiệm vụ NLP chuyên sâu về kiến thức [40]. Người ta quan sát thấy rằng các mô hình nhỏ hơn có RAG có thể hoạt động tốt hơn các mô hình lớn hơn không có RAG [41]. Các phương pháp truy xuất bao gồm các phương pháp truy xuất thưa thớt như TF-IDF hoặc BM25 [42], giúp phân tích thông tin thống kê từ và tìm tài liệu phù hợp với vectơ thưa thớt nhiều chiều. Các phương pháp truy xuất dày đặc như [43] [44] tìm các tài liệu phù hợp trên không gian nhúng được tạo bởi mô hình truy xuất được huấn luyện trước trên một kho văn bản lớn có hoặc không có tinh chỉnh trên tập dữ liệu truy xuất. Mô hình truy xuất có thể được huấn luyện độc lập [43] [44] [45] hoặc kết hợp với các mô hình ngôn ngữ [46] [41]. Ngoài ra, người ta đã chứng minh rằng các công cụ truy xuất mục đích chung có sẵn có thể cải thiện đáng kể mô hình ngôn ngữ cơ sở mà không cần tinh chỉnh thêm [47]. RAG cũng được đề xuất thực hiện các nhiệm vụ tạo mã [48] bằng cách truy xuất từ các tài liệu mã hóa.
Các mô hình nền tảng là các mô hình hoàn thiện, có khả năng theo dõi trò chuyện và hướng dẫn hạn chế. Do đó, quy trình căn chỉnh mô hình được áp dụng cho các mô hình nền tảng để huấn luyện mô hình trò chuyện tương ứng. Tinh chỉnh hướng dẫn [20] và học tăng cường từ phản hồi của con người (RLHF) [36] là hai kỹ thuật căn chỉnh mô hình phổ biến. Tinh chỉnh hướng dẫn tiếp tục đào tạo mô hình nền tảng bằng cách sử dụng bộ dữ liệu hướng dẫn. RLHF tận dụng phản hồi của con người để gắn nhãn tập dữ liệu nhằm đào tạo mô hình phần thưởng và áp dụng học tăng cường để cải thiện hơn nữa các mô hình dựa trên mô hình phần thưởng được đào tạo. RLHF thường phức tạp và ngốn tài nguyên hơn so với việc tinh chỉnh lệnh. Do đó, các nghiên cứu gần đây cũng đề xuất giảm chi phí này bằng các phương pháp đơn giản hơn như DPO [49] và SteerLM [50].
Các nhà nghiên cứu đã bắt đầu áp dụng LLM vào các bài toán thiết kế chip. Những công trình đầu tiên như Dave [51] lần đầu tiên khám phá khả năng tạo Verilog từ tiếng Anh bằng mô hình ngôn ngữ (GPT-2). Sau công việc đó, [6] đã chỉ ra rằng các LLM nguồn mở (CodeGen) được tinh chỉnh trên các bộ dữ liệu Verilog được thu thập từ sách giáo khoa GitHub và Verilog vượt trội hơn các mô hình OpenAI hiện đại như code-davinci-002 trên 17 câu hỏi Verilog. [12] đã đề xuất một điểm chuẩn với hơn 150 vấn đề và chứng minh rằng khả năng tạo mã Verilog của các mô hình ngôn ngữ được huấn luyện trước có thể được cải thiện bằng cách tinh chỉnh có giám sát bằng cách khởi động bằng các cặp mã vấn đề tổng hợp do LLM tạo ra. Chip-Chat [7] đã thử nghiệm các luồng hội thoại để thiết kế và xác minh bộ vi xử lý dựa trên bộ tích lũy 8 bit với GPT-4 và GPT-3.5. Phát hiện của họ cho thấy rằng mặc dù GPT-4 tạo ra mã chất lượng tương đối cao nhưng nó vẫn không hoạt động đủ tốt trong việc hiểu và sửa lỗi. ChipEDA [8] đề xuất sử dụng LLM để tạo tập lệnh công cụ EDA. Nó cũng chứng minh rằng mô hình LLaMA2 70B được tinh chỉnh tốt hơn mô hình GPT-4 trong nhiệm vụ này.
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.