ChipNeMo: LLM được điều chỉnh theo miền cho thiết kế chip: Đánh giá

từ tác giả Writings, Papers and Blogs on Text Models9m2024/06/06

dài quá đọc không nổi

Các nhà nghiên cứu trình bày ChipNeMo, sử dụng khả năng thích ứng miền để nâng cao LLM cho thiết kế chip, giúp giảm kích thước mô hình lên tới 5 lần với hiệu suất tốt hơn.

featured image - ChipNeMo: LLM được điều chỉnh theo miền cho thiết kế chip: Đánh giá

tác giả:

(1) Mingjie Liu, NVIDIA {Đóng góp bình đẳng};

(2) Teodor-Dumitru Ene, NVIDIA {Đóng góp bình đẳng};

(3) Robert Kirby, NVIDIA {Đóng góp bình đẳng};

(4) Chris Cheng, NVIDIA {Đóng góp bình đẳng};

(5) Nathaniel Pinckney, NVIDIA {Đóng góp bình đẳng};

(6) Rongjian Liang, NVIDIA {Đóng góp bình đẳng};

(7) Jonah Alben, NVIDIA;

(8) Himyanshu Anand, NVIDIA;

(9) Sanmitra Banerjee, NVIDIA;

(10) Ismet Bayraktaroglu, NVIDIA;

(11) Bonita Bhaskaran, NVIDIA;

(12) Bryan Catanzaro, NVIDIA;

(13) Arjun Chaudhuri, NVIDIA;

(14) Sharon Clay, NVIDIA;

(15) Bill Dally, NVIDIA;

(16) Laura Đặng, NVIDIA;

(17) Parikshit Deshpande, NVIDIA;

(18) Siddhanth Dhodhi, NVIDIA;

(19) Sameer Halepete, NVIDIA;

(20) Eric Hill, NVIDIA;

(21) Jiashang Hu, NVIDIA;

(22) Sumit Jain, NVIDIA;

(23) Brucek Khailany, NVIDIA;

(24) George Kokai, NVIDIA;

(25) Kishor Kunal, NVIDIA;

(26) Xiaowei Li, NVIDIA;

(27) Charley Lind, NVIDIA;

(28) Hào Lưu, NVIDIA;

(29) Stuart Oberman, NVIDIA;

(30) Sujeet Omar, NVIDIA;

(31) Sreedhar Pratty, NVIDIA;

(23) Jonathan Raiman, NVIDIA;

(33) Ambar Sarkar, NVIDIA;

(34) Thiệu Giang, NVIDIA;

(35) Hanfei Sun, NVIDIA;

(36) Pratik P Suthar, NVIDIA;

(37) Varun Tej, NVIDIA;

(38) Walker Turner, NVIDIA;

(39) Kaizhe Xu, NVIDIA;

(40) Haoxing Ren, NVIDIA.

Bảng liên kết

V. ĐÁNH GIÁ

Chúng tôi đánh giá phương pháp đào tạo và hiệu suất ứng dụng của chúng tôi trong phần này. Chúng tôi nghiên cứu cả mô hình 7B và 13B trong đánh giá phương pháp đào tạo và chỉ nghiên cứu mô hình 13B trong đánh giá hiệu suất ứng dụng. Để so sánh, chúng tôi cũng đánh giá hai mô hình trò chuyện cơ bản: LLaMA2-13B-Chat* và LLaMA2-70B-Chat. LLaMA2-13B-Chat* là mô hình cơ sở LLaMA2 13B nền tảng được tinh chỉnh với tập dữ liệu hướng dẫn trò chuyện cho mục đích chung của chúng tôi, khác với mô hình LLaMA2-13B-Chat ban đầu được đào tạo bằng phương pháp học tăng cường từ phản hồi của con người (RLHF). Chúng tôi đã chọn làm như vậy để so sánh công bằng giữa các mô hình được điều chỉnh theo miền và mô hình cơ sở theo cùng một phương pháp căn chỉnh mô hình. LLaMA2-70B-Chat là mô hình LLaMA2-Chat được phát hành công khai được đào tạo với RLHF, được coi là mô hình trò chuyện nguồn mở tiên tiến nhất (SOTA).

A. Công cụ mã thông báo

Chúng tôi điều chỉnh mã thông báo LLaMA2 (chứa 32K mã thông báo) cho phù hợp với bộ dữ liệu thiết kế chip bằng quy trình bốn bước đã nêu trước đó. Khoảng 9K mã thông báo mới được thêm vào mã thông báo LLaMA2. Các mã thông báo được điều chỉnh có thể cải thiện hiệu suất mã hóa từ 1,6% đến 3,3% trên các bộ dữ liệu thiết kế chip khác nhau như trong Hình 5. Chúng tôi nhận thấy không có gì rõ ràng

những thay đổi về hiệu quả của mã thông báo trên dữ liệu công khai. Điều quan trọng là chúng tôi chưa nhận thấy sự suy giảm đáng kể về độ chính xác của LLM trên các điểm chuẩn công khai khi sử dụng trình mã thông báo tăng cường tùy chỉnh ngay cả trước DAPT.

B. Đào tạo trước thích ứng miền

Hình 6 trình bày kết quả của các mô hình ChipNeMo trên điểm chuẩn AutoEval cho miền thiết kế chip và điểm chuẩn học thuật miền mở. Kết quả nghiên cứu của chúng tôi có thể được tóm tắt như sau:

Các mô hình DAPT thể hiện sự suy giảm nhẹ về độ chính xác trên các điểm chuẩn học thuật trong miền mở.
DAPT có tác động tích cực đáng kể đến các nhiệm vụ trong chính miền đó. Hiệu ứng này được thể hiện ở sự cải thiện đáng kể về kiến thức thiết kế nội bộ cũng như kiến thức thiết kế mạch nói chung.
Việc sử dụng các mô hình cơ bản lớn hơn và hiệu quả hơn sẽ mang lại kết quả tốt hơn cho các tác vụ theo miền cụ thể. Hơn nữa, việc sử dụng các mô hình cơ sở ưu việt sẽ dẫn đến các mô hình miền nâng cao sau DAPT, dẫn đến hiệu suất nâng cao đối với các tác vụ trong miền.
Những cải tiến được quy cho DAPT với các tác vụ trong miền thể hiện mối tương quan tích cực với kích thước mô hình, với các mô hình lớn hơn thể hiện những cải tiến rõ rệt hơn về hiệu suất tác vụ theo miền cụ thể sau DAPT.

C. Nghiên cứu cắt bỏ đào tạo

Đối với các nghiên cứu cắt bỏ, chúng tôi đã tiến hành nhiều đợt đào tạo trước thích ứng với miền. Chúng tôi cung cấp tóm tắt ngắn gọn và tham khảo Phụ lục B để biết chi tiết.

Sự khác biệt giữa việc đào tạo bằng mã thông báo tăng cường và mã thông báo ban đầu dường như không đáng kể. Do đó, chúng tôi chủ yếu cho rằng sự suy giảm độ chính xác của các điểm chuẩn học thuật là do dữ liệu miền. Hơn nữa, việc loại bỏ tập dữ liệu công khai chỉ làm giảm nhẹ phần lớn các nhiệm vụ bao gồm cả điểm chuẩn học thuật, ngoại trừ mã hóa Verilog, nơi chúng tôi quan sát thấy sự khác biệt đáng chú ý. Điều này cho thấy rằng việc đưa vào dữ liệu GitHub Verilog đã góp phần nâng cao khả năng mã hóa Verilog, đặc biệt khi các mô hình nền tảng cơ sở thiếu đủ dữ liệu trong miền này.

Trong quá trình khám phá, chúng tôi đã thử nghiệm sử dụng tỷ lệ học tập lớn hơn, như trong CodeLLaMA [32]. Chúng tôi quan sát thấy tỷ lệ mất huấn luyện tăng đột biến ở các bước huấn luyện ban đầu. Mặc dù cách tiếp cận này cuối cùng đã dẫn đến cải thiện việc đào tạo và mất xác thực, nhưng chúng tôi ghi nhận sự suy giảm đáng kể trên tất cả các tiêu chuẩn học thuật và theo từng miền cụ thể, ngoại trừ mã hóa. Chúng tôi đưa ra giả thuyết rằng tốc độ học tập nhỏ hơn đóng vai trò kép, tạo điều kiện cho việc chắt lọc kiến thức miền thông qua DAPT trong khi duy trì sự cân bằng không đi quá xa so với mô hình cơ sở, do đó duy trì khả năng ngôn ngữ tự nhiên nói chung.

Chúng tôi cũng đã khám phá ứng dụng Tinh chỉnh hiệu quả tham số (PEFT) trong bối cảnh Đào tạo trước thích ứng với tên miền (DAPT). Để theo đuổi mục tiêu này, chúng tôi đã tiến hành hai thử nghiệm liên quan đến việc kết hợp bộ điều hợp LoRA [16], giới thiệu các thông số bổ sung lần lượt là 26,4 triệu (nhỏ) và 211,2 triệu (lớn). Trong cả hai trường hợp, phát hiện của chúng tôi cho thấy khoảng cách về độ chính xác đáng kể đối với các tác vụ trong miền khi so sánh với phương pháp DAPT đầy đủ thông số. Hơn nữa, khi đối chiếu kết quả giữa các mô hình PEFT nhỏ và lớn, chúng tôi nhận thấy sự cải thiện nhẹ về độ chính xác của tác vụ trong miền, với các mô hình lớn cho thấy sự cải thiện đôi chút.

D. Chi phí đào tạo

Tất cả các mẫu đều đã trải qua quá trình đào tạo sử dụng 128 GPU A100. Chúng tôi ước tính chi phí liên quan đến việc đào tạo trước thích ứng miền cho ChipNeMo như được minh họa trong Bảng IV. Điều đáng chú ý là DAPT chỉ chiếm chưa đến 1,5% tổng chi phí cho việc đào tạo trước một mô hình nền tảng từ đầu.

E. RAG và Chatbot Trợ lý Kỹ thuật

Chúng tôi đã tạo một điểm chuẩn để đánh giá hiệu suất của tính năng hỗ trợ trò chuyện trong thiết kế, sử dụng phương pháp RAG. Điểm chuẩn này bao gồm 88 câu hỏi thuộc ba danh mục: thông số kỹ thuật về kiến trúc/thiết kế/xác minh (Thông số kỹ thuật), tài liệu hồi quy testbench (Testbench) và tài liệu xây dựng cơ sở hạ tầng (Build). Đối với mỗi câu hỏi, chúng tôi chỉ định câu trả lời vàng cũng như các đoạn văn trong tài liệu thiết kế chứa đựng kiến thức liên quan cho câu trả lời. Những câu hỏi này được các nhà thiết kế tạo ra một cách thủ công dựa trên một bộ tài liệu thiết kế làm nơi lưu trữ dữ liệu để truy xuất. Nó bao gồm khoảng 1,8K tài liệu, được chia thành 67K đoạn, mỗi đoạn có khoảng 512 ký tự.

Đầu tiên, chúng tôi so sánh mô hình truy xuất được điều chỉnh theo miền của chúng tôi với Sentence Transformer [33] và e5_small_unsupervised [30] trên mỗi danh mục. Mỗi mô hình lấy 8 đoạn văn hàng đầu từ kho dữ liệu.

Các truy vấn trong danh mục Thông số kỹ thuật được lấy trực tiếp từ các đoạn văn trong tài liệu, do đó, câu trả lời của chúng thường được trình bày độc đáo trong một đoạn văn ngắn gọn và giải quyết rõ ràng truy vấn

Mặt khác, các truy vấn của danh mục Testbench và Build không được lấy trực tiếp từ các đoạn văn, do đó, câu trả lời của chúng thường không rõ ràng trong các đoạn văn được tìm nạp và yêu cầu thêm ngữ cảnh (xem Phụ lục C để biết ví dụ chi tiết). Điều này góp phần đáng kể vào sự khác biệt về chất lượng truy xuất giữa các loại.

Chúng tôi đã tiến hành đánh giá nhiều mô hình ChipNeMo và mô hình LLaMA2 có và không có RAG. Các kết quả sau đó được người đánh giá cho điểm theo thang điểm 10 và được thể hiện trong Hình 8.

Chúng tôi đã đưa ra những nhận xét sau:

• RAG nâng cao đáng kể điểm số của con người. RAG cải thiện điểm số của LLaMA2-13B-Chat*, ChipNeMo-13B-Chat và LLaMA2-70B-Chat lần lượt là 3,82, 2,19 và 5,05. Lưu ý rằng, điểm số thường cao hơn ngay cả khi bỏ lỡ RAG, đặc biệt là trên các mẫu LLaMA2. Chúng tôi đưa ra giả thuyết rằng bối cảnh bổ sung trong miền sẽ giúp tăng hiệu suất.

• ChipNeMo-13B-Chat vượt trội hơn LLaMA2-13B-Chat* có kích thước tương tự chỉ trong mô hình và đánh giá RAG lần lượt là 2,88 và 1,25.

• ChipNeMo-13B-Chat với RAG đạt được cùng số điểm (7,4) với mô hình lớn hơn 5 lần LLaMA2-70B-Chat với RAG, trong đó LLaMA2-70B-Chat hoạt động tốt hơn trong việc trích xuất câu trả lời cho các lần truy cập; tuy nhiên, việc điều chỉnh tên miền sẽ bù đắp cho những thiếu sót.

• Domain SFT giúp cải thiện hiệu suất của ChipNeMo-13B-Chat thêm 0,28 (có RAG) và 0,33 (không có RAG).

Kết quả đánh giá đầy đủ trên tất cả các mô hình được trình bày tại Phụ lục D.

F. Tạo tập lệnh EDA

Để đánh giá mô hình của chúng tôi về nhiệm vụ tạo tập lệnh EDA, chúng tôi đã tạo hai loại điểm chuẩn khác nhau. Đầu tiên là tập hợp các nhiệm vụ có độ khó “Dễ” và “Trung bình” (giải pháp 1-4 dòng) có thể được đánh giá mà không cần sự can thiệp của con người bằng cách so sánh với phản hồi vàng. Do công việc cần thiết để xây dựng và đánh giá các điểm chuẩn này, chúng tôi chỉ đặt bộ đánh giá này cho nhiệm vụ Python của mình. Nhóm nhiệm vụ thứ hai (“Khó”) đến từ các tình huống sử dụng thực tế mà các kỹ sư của chúng tôi đã chọn. Những nhiệm vụ này khó hơn nhiều, đòi hỏi phải có 10 dòng để giải quyết. Vì khó đánh giá những điều này một cách tự động nên chúng tôi đã nhờ các kỹ sư con người đánh giá độ chính xác trong khoảng từ 0% đến 100%. Quy mô của các điểm chuẩn này được mô tả trong Bảng V. Công việc đang được tiến hành nhằm tăng quy mô và phạm vi cho các điểm chuẩn này nhằm cho phép chúng tôi cải thiện hơn nữa các mô hình này.

Chúng tôi phát hiện ra rằng các mô hình của chúng tôi không thể giải quyết một số nhiệm vụ khó khăn hơn. Các nhiệm vụ đòi hỏi kiến thức về nhiều API công cụ và mô hình dường như không thể quyết định những API phù hợp trong khi vẫn giữ cho luồng điều khiển được tổ chức hợp lý. Để giảm thiểu điều này, chúng tôi đã thêm bối cảnh do con người tuyển chọn vào lời nhắc, cụ thể cho từng câu hỏi. Ngữ cảnh này chứa các giải thích về các chức năng hoặc thuộc tính khác nhau cần thiết để viết đúng tập lệnh mong muốn. Chúng tôi chỉ cung cấp thông tin này cho danh mục điểm chuẩn “Khó với ngữ cảnh”. Điều này cũng cho phép chúng tôi nghiên cứu tác động có thể có của giải pháp dựa trên truy xuất mà chúng tôi để lại cho công việc trong tương lai.

Như có thể thấy trong kết quả cắt bỏ trong Hình 9, cả DAPT và miền SFT đối với vấn đề của chúng tôi đều quan trọng. Nếu không có DAPT, mô hình có rất ít hoặc không hiểu rõ về các API cơ bản và hoạt động kém trên các điểm chuẩn được đánh giá tự động. Tên miền SFT đã cải thiện hơn nữa kết quả. Chúng tôi tin rằng điều này là do dữ liệu SFT miền của chúng tôi giúp hướng dẫn mô hình trình bày tập lệnh cuối cùng theo cách áp dụng trực tiếp nhất.

Một kết quả thú vị là tỷ lệ vượt qua LLaMA2-70B trong các điểm chuẩn “Khó với bối cảnh”. Nó hoạt động tốt hơn hầu hết các mô hình trên công cụ Python nhưng kém hơn trên công cụ Tcl. Điều này có thể là do khi được cung cấp ngữ cảnh chính xác, khả năng mã hóa Python tổng quát vượt trội của LLaMA2-70B có thể giải quyết các vấn đề mới mà nó chưa được đào tạo. Tuy nhiên, mô hình LLaMA2-70B không thể khái quát hóa khả năng mã hóa của nó cho công cụ Tcl, có thể là do nó chưa tiếp xúc với khối lượng lớn mã Tcl. Điều này nêu bật lợi ích của DAPT khi nói đến các ngôn ngữ lập trình độc quyền hoặc khối lượng thấp.

G. Tóm tắt và phân tích lỗi

Để đánh giá các mô hình của chúng tôi về tóm tắt và phân tích lỗi, chúng tôi có một bộ gồm 40 lỗi là những ứng cử viên lý tưởng để tóm tắt. Điều này bao gồm việc có lịch sử nhận xét dài hoặc dữ liệu khác khiến con người khó có thể tóm tắt nhanh chóng các lỗi. Sau đó, chúng tôi yêu cầu con người đánh giá cả hai phương thức tóm tắt cũng như cách phân công lỗi mà LLM gợi ý. Số liệu đánh giá được dựa trên thang đo Likert 7 điểm. Kết quả của chúng tôi được bao gồm trong Hình 10.

Các mô hình ChipNeMo-13B-Chat hoạt động tốt hơn mô hình LLaMA2-13B-Chat* cơ bản cho cả ba nhiệm vụ, cải thiện điểm Likert 7 điểm lần lượt là 0,82, 1,09 và 0,61 cho tóm tắt kỹ thuật, tóm tắt quản lý và đề xuất phân công. SFT miền cũng cải thiện đáng kể hiệu suất so với khi không có SFT miền trong việc tóm tắt quản lý và phân công nhiệm vụ.

Chúng tôi đưa ra giả thuyết rằng trái ngược với nhiệm vụ tóm tắt kỹ thuật có chất lượng và nội dung kỹ thuật phụ thuộc nhiều hơn vào sự hiểu biết của mô hình về ngữ nghĩa ngôn ngữ tự nhiên, tóm tắt quản lý yêu cầu mô hình hiểu cách tóm tắt dữ liệu đầu vào trong khi vẫn giữ lại tên nhân sự/kỹ sư chủ chốt. Điều này cần sự tinh chỉnh LLM dựa trên hướng dẫn cẩn thận hơn.

Mẫu LLaMA2-70B-Chat cũng thực hiện rất tốt cả 3 tác vụ, đánh bại mô hình ChipNeMo-13B ở tất cả các tác vụ. Lưu ý rằng mô hình LLaMA2-70B-Chat cũng gặp phải những thách thức về ngữ cảnh dài với kích thước ngữ cảnh 4096, chúng tôi tin rằng các sơ đồ kết hợp và phân đoạn hiệu quả (phân cấp và tăng dần), lựa chọn lời nhắc hướng dẫn ở các giai đoạn tóm tắt khác nhau, lựa chọn lời nhắc trong khi giao nhiệm vụ, và trợ giúp định dạng/tiền xử lý dữ liệu thô trong việc vượt qua thách thức ngữ cảnh dài và cho phép LLaMA2-70B-Chat đạt được điểm cao ngay cả khi không có DAPT và SFT miền.

Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.

L O A D I N G
. . . comments & more!

About Author

Writings, Papers and Blogs on Text Models@textmodels

We publish the best academic papers on rule-based techniques, LLMs, & the generation of text that resembles human text.

Read my stories SMALL LANGUAGE MODEL (BABY ONESIE)

ChipNeMo: LLM được điều chỉnh theo miền cho thiết kế chip: Đánh giá

dài quá đọc không nổi

Bảng liên kết

V. ĐÁNH GIÁ

About Author

chuyên mục

Languages

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI...

NHỮNG BÀI VIẾT LIÊN QUAN