paint-brush
ChipNeMo: LLM được điều chỉnh theo miền cho thiết kế chip: Thảo luậntừ tác giả@textmodels

ChipNeMo: LLM được điều chỉnh theo miền cho thiết kế chip: Thảo luận

từ tác giả Writings, Papers and Blogs on Text Models5m2024/06/06
Read on Terminal Reader

dài quá đọc không nổi

Các nhà nghiên cứu trình bày ChipNeMo, sử dụng khả năng thích ứng miền để nâng cao LLM cho thiết kế chip, giúp giảm kích thước mô hình lên tới 5 lần với hiệu suất tốt hơn.
featured image - ChipNeMo: LLM được điều chỉnh theo miền cho thiết kế chip: Thảo luận
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

tác giả:

(1) Mingjie Liu, NVIDIA {Đóng góp bình đẳng};

(2) Teodor-Dumitru Ene, NVIDIA {Đóng góp bình đẳng};

(3) Robert Kirby, NVIDIA {Đóng góp bình đẳng};

(4) Chris Cheng, NVIDIA {Đóng góp bình đẳng};

(5) Nathaniel Pinckney, NVIDIA {Đóng góp bình đẳng};

(6) Rongjian Liang, NVIDIA {Đóng góp bình đẳng};

(7) Jonah Alben, NVIDIA;

(8) Himyanshu Anand, NVIDIA;

(9) Sanmitra Banerjee, NVIDIA;

(10) Ismet Bayraktaroglu, NVIDIA;

(11) Bonita Bhaskaran, NVIDIA;

(12) Bryan Catanzaro, NVIDIA;

(13) Arjun Chaudhuri, NVIDIA;

(14) Sharon Clay, NVIDIA;

(15) Bill Dally, NVIDIA;

(16) Laura Đặng, NVIDIA;

(17) Parikshit Deshpande, NVIDIA;

(18) Siddhanth Dhodhi, NVIDIA;

(19) Sameer Halepete, NVIDIA;

(20) Eric Hill, NVIDIA;

(21) Jiashang Hu, NVIDIA;

(22) Sumit Jain, NVIDIA;

(23) Brucek Khailany, NVIDIA;

(24) George Kokai, NVIDIA;

(25) Kishor Kunal, NVIDIA;

(26) Xiaowei Li, NVIDIA;

(27) Charley Lind, NVIDIA;

(28) Hào Lưu, NVIDIA;

(29) Stuart Oberman, NVIDIA;

(30) Sujeet Omar, NVIDIA;

(31) Sreedhar Pratty, NVIDIA;

(23) Jonathan Raiman, NVIDIA;

(33) Ambar Sarkar, NVIDIA;

(34) Thiệu Giang, NVIDIA;

(35) Hanfei Sun, NVIDIA;

(36) Pratik P Suthar, NVIDIA;

(37) Varun Tej, NVIDIA;

(38) Walker Turner, NVIDIA;

(39) Kaizhe Xu, NVIDIA;

(40) Haoxing Ren, NVIDIA.

Bảng liên kết

VI. CUỘC THẢO LUẬN

A. Những cân nhắc cho việc điều chỉnh tên miền


Mặc dù các mô hình ChipNeMo được điều chỉnh theo miền đạt được những cải tiến đáng kể so với các mô hình nền tảng tương ứng của chúng, chúng tôi cũng nhận thấy rằng LLaMA2 70B lớn hơn đôi khi có thể đạt được độ chính xác tương tự như ChipNeMo, như trong Hình 8, 9 và 10. Công việc gần đây đã tận dụng các mô hình mạnh mẽ này để thực hiện nhiệm vụ thiết kế chip.


Tuy nhiên, điều quan trọng là phải xem xét lợi ích hiệu quả chi phí thu được từ việc sử dụng mô hình nhỏ hơn. Giáo hoàng và cộng sự. chứng minh rằng chi phí suy luận trên mô hình 8B thấp hơn 8-12 lần so với mô hình 62B cho các mục tiêu có độ trễ bằng nhau [34]. Hơn nữa, việc giảm kích thước mô hình có thể dẫn đến tăng đáng kể tốc độ suy luận bằng cách cho phép một mô hình vừa với một GPU hoặc nút duy nhất mà nó không thể làm được [35]. Mô hình ChipNeMo 13B của chúng tôi có thể được tải trong bộ nhớ của một GPU A100 mà không có bất kỳ lượng tử hóa nào, không giống như mô hình LLaMA2 70B. Điều này dẫn đến tốc độ suy luận tăng đáng kể trong hoạt động GPU thông thường, có thể đánh đổi để giảm chi phí suy luận đáng kể nếu GPU được ép xung.


Do đó, khi quyết định giữa việc sử dụng mô hình có mục đích chung lớn hơn và mô hình chuyên dụng nhỏ hơn trong môi trường sản xuất, phải xem xét các tiêu chí sau:


• Đánh đổi giữa đào tạo và suy luận: Các mô hình thích ứng với miền nhỏ hơn có thể phù hợp với độ chính xác của các mô hình có mục đích chung lớn hơn. Trong khi việc điều chỉnh miền phát sinh thêm chi phí trả trước thì việc sử dụng các mô hình nhỏ hơn sẽ giúp giảm đáng kể chi phí vận hành.


• Tính độc đáo của trường hợp sử dụng: Như có thể thấy trong Hình 6, 9 và 10, các mô hình được điều chỉnh theo miền cho thấy sự cải thiện nhiều nhất đối với các tác vụ hiếm khi xuất hiện trong phạm vi công cộng, chẳng hạn như viết mã bằng ngôn ngữ hoặc thư viện độc quyền. Thật vậy, dữ liệu của chúng tôi cho thấy rằng ngay cả khi chúng được cung cấp các bối cảnh được chọn lọc kỹ lưỡng, các mô hình có mục đích chung lớn vẫn gặp khó khăn trong việc khớp độ chính xác của các mô hình được điều chỉnh theo miền trong các tình huống như vậy.


• Tính sẵn có của dữ liệu miền: Khả năng thích ứng miền hoạt động tốt nhất khi có lượng lớn dữ liệu đào tạo, tức là hàng tỷ mã thông báo đào tạo. Điều này thường xảy ra đối với các tập đoàn và dự án lớn đã tích lũy một lượng lớn tài liệu và mã nội bộ, nhưng không hẳn đúng đối với các doanh nghiệp hoặc dự án nhỏ hơn.


• Đa dạng trường hợp sử dụng cuối: Có thể tinh chỉnh mô hình có mục đích chung cho một nhiệm vụ cụ thể, nhưng các mô hình được điều chỉnh theo miền phù hợp với một tập hợp nhiệm vụ đa dạng trong một miền. Mặc dù chúng tôi chỉ trình bày ba trường hợp sử dụng cho mô hình ChipNeMo trong công việc này nhưng nó có thể dễ dàng được sử dụng lại cho các trường hợp sử dụng khác với đủ dữ liệu SFT.


B. Khoảng cách hiệu suất


Mặc dù ChipNeMo đạt được kết quả ấn tượng trong các ứng dụng đã chọn của chúng tôi như được trình bày trong Phụ lục E, nhưng kết quả đánh giá cho tất cả các ứng dụng vẫn cho thấy một khoảng cách đáng kể so với hiệu suất của chuyên gia con người. Chúng tôi đang xem xét các phương pháp sau để thu hẹp khoảng cách hiệu suất này:


1) Thu thập dữ liệu: Chúng tôi có thể mở rộng tập dữ liệu DAPT để bao gồm nhiều dữ liệu độc quyền nội bộ hơn. Ngoài ra, chúng tôi dự định bổ sung thêm nhiều bộ hướng dẫn nhiệm vụ cụ thể cho SFT vì bằng chứng cho thấy SFT cụ thể nhiệm vụ sẽ cải thiện kết quả đánh giá một cách có ý nghĩa.


2) Mẫu cơ sở: Chúng tôi kỳ vọng các mẫu cơ sở tốt hơn và lớn hơn có thể cải thiện hiệu suất, chẳng hạn như LLaMA2 70B. Chúng ta cũng có thể khám phá việc áp dụng DAPT cho các mô hình cơ sở dành riêng cho mã như Code LLaMA [32] cho các tác vụ tạo mã.


3) Đào tạo: Chúng tôi cũng có kế hoạch tiến hành học tăng cường từ phản hồi của con người (RLHF) [36] qua mô hình trò chuyện ChipNeMo để làm cho mô hình này trở nên linh hoạt hơn. Chúng tôi có kế hoạch tận dụng các mô hình phần thưởng được đào tạo trước được đào tạo trên các bộ dữ liệu có mục đích chung. Chúng tôi cũng có kế hoạch tiến hành đào tạo ngữ cảnh dài [37] để vượt qua thách thức cần có ngữ cảnh dài, ví dụ như trong ứng dụng tóm tắt lỗi. Nói chung, hỗ trợ ngữ cảnh dài hơn sẽ giúp cải thiện các phương pháp dựa trên truy xuất để hỗ trợ trò chuyện cũng như tạo mã.


4) Truy xuất: Chúng tôi sẽ nghiên cứu sâu hơn về các phương pháp RAG tốt hơn cho cả chatbot trợ lý kỹ thuật và tạo tập lệnh EDA. Đối với chatbot trợ lý kỹ thuật, chúng ta có thể tạo các kho dữ liệu khác nhau cho các lĩnh vực ứng dụng khác nhau. Chúng tôi cũng có thể tích hợp các công cụ tìm kiếm doanh nghiệp với RAG để tìm bối cảnh phù hợp cho nhiều vấn đề khác nhau. Để tạo mã, chúng tôi có thể điều tra việc truy xuất ngữ cảnh tự động từ mã và tài liệu hiện có.


C. Phương pháp thiết kế dựa trên tác nhân


Các trường hợp sử dụng mà chúng tôi đã thử nghiệm trong công việc này là những ứng dụng đơn giản về khả năng phản hồi và nhắc nhở của LLM. Đại lý đề cập đến việc sử dụng LLM để chọn một chuỗi hành động cần thực hiện, trong đó LLM hoạt động như một công cụ lý luận để điều khiển các công cụ bên ngoài. Quy trình thiết kế chip liên quan đến nhiều công cụ và phương pháp EDA hiện có. Chúng tôi tin rằng một số phương pháp này có thể được điều khiển bởi các tác nhân được hỗ trợ bởi LLM thích ứng với miền như mô hình ChipNeMo. Chúng tôi dự định nghiên cứu các phương pháp thiết kế dựa trên tác nhân để xác minh và tối ưu hóa trong tương lai.


Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.