tác giả:
(1) Kexun Zhang, UC Santa Barbara và đóng góp bình đẳng;
(2) Hongqiao Chen, Trường Trung học Northwood và đóng góp bình đẳng;
(3) Lei Li, Đại học Carnegie Mellon;
(4) William Yang Wang, UC Santa Barbara.
Các mô hình ngôn ngữ lớn (LLM) đã cho thấy khả năng đầy hứa hẹn trong việc sử dụng các công cụ bên ngoài để giải quyết các vấn đề phức tạp. Tuy nhiên, các cách tiếp cận hiện tại liên quan đến việc tinh chỉnh các bản trình diễn công cụ, không khái quát hóa các công cụ mới mà không cần đào tạo bổ sung hoặc cung cấp tài liệu về công cụ theo ngữ cảnh, hạn chế số lượng công cụ. Cả hai cách tiếp cận thường tạo ra các lệnh gọi công cụ không hợp lệ về mặt cú pháp. Trong bài báo này, chúng tôi đề xuất TOOLDEC, một thuật toán giải mã được hướng dẫn bằng máy ở trạng thái hữu hạn cho các LLM được tăng cường bằng công cụ. TOOLDEC loại bỏ các lỗi liên quan đến công cụ đối với bất kỳ LLM tăng cường công cụ nào bằng cách đảm bảo tên công cụ hợp lệ và các đối số phù hợp với loại. Hơn nữa, TOOLDEC cho phép LLM lựa chọn các công cụ một cách hiệu quả chỉ bằng cách sử dụng thông tin có trong tên của chúng mà không cần tinh chỉnh hoặc tài liệu theo ngữ cảnh. Chúng tôi đã đánh giá nhiều phương pháp trước đó và các phiên bản được cải tiến TOOLDEC của chúng trên nhiều tác vụ khác nhau liên quan đến các công cụ như hàm toán học, quan hệ biểu đồ tri thức và API RESTful trong thế giới thực phức tạp. Thử nghiệm của chúng tôi cho thấy rằng TOOLDEC giảm lỗi cú pháp xuống 0, do đó đạt được hiệu suất tốt hơn đáng kể và tăng tốc độ lên gấp 2 lần. Chúng tôi cũng cho thấy rằng TOOLDEC đạt được hiệu suất tổng quát hóa vượt trội trên các công cụ không thể nhìn thấy, hoạt động tốt hơn tới 8 lần so với đường cơ sở [1]
Việc tăng cường các mô hình ngôn ngữ lớn (LLM) bằng các công cụ bên ngoài (Mialon và cộng sự, 2023) cho phép chúng giải quyết các vấn đề phức tạp. Các LLM hiện tại có thể sử dụng công cụ truy xuất (Shen và cộng sự, 2023; Gupta & Kembhavi, 2022; Schick và cộng sự, 2023), API RESTful (Qin và cộng sự, 2023; Song và cộng sự, 2023), trình thông dịch chương trình (Chen et al. cộng sự, 2022; Gao và cộng sự, 2023) và nhiều công cụ khác. Hiệu suất của LLM được tăng cường bằng công cụ phụ thuộc vào khả năng đưa ra ba quyết định chính—khi nào nên sử dụng một công cụ, sử dụng công cụ nào và cách gọi một công cụ. Các phương pháp tiếp cận hiện tại học cách đưa ra những quyết định này thông qua việc tinh chỉnh hoặc học tập trong bối cảnh.
Tuy nhiên, những cách tiếp cận này vẫn tạo ra các lệnh gọi công cụ sai lầm. Ví dụ: học trong ngữ cảnh có thể dễ dàng tạo ra các tên công cụ không tồn tại không có trong kho công cụ vì các công cụ không tồn tại cũng có thể trông hợp lý như mã thông báo tiếp theo (Song và cộng sự, 2023; Qin và cộng sự, 2023) . Các mô hình được tinh chỉnh, mặc dù thường gọi các công cụ bằng tên chính xác, nhưng thường chuyển các đối số không hợp lệ cho đúng chức năng của công cụ (Hao và cộng sự, 2023), giống như cách học trong ngữ cảnh. Hơn nữa, các phương pháp tiếp cận trước đó không khái quát hóa tốt các công cụ chưa được nhìn thấy. Các phương pháp tinh chỉnh cần có thêm dữ liệu đào tạo và tinh chỉnh thêm để áp dụng các công cụ mới. Các phương pháp học tập theo ngữ cảnh yêu cầu phải có tài liệu hướng dẫn về công cụ.
Để giải quyết những vấn đề này, chúng tôi đề xuất TOOLDEC, một thuật toán giải mã được hướng dẫn bởi máy trạng thái hữu hạn (FSM) để đảm bảo LLM gọi các công cụ một cách chính xác. Cái nhìn sâu sắc cốt lõi của chúng tôi là thể hiện rõ ràng các trạng thái trong quá trình giải mã LLM. Mỗi trạng thái được liên kết với một bộ mã thông báo hợp lệ tương ứng với tên công cụ và đối số công cụ. TOOLDEC chuyển đổi từ trạng thái này sang trạng thái khác khi quá trình giải mã diễn ra. Ở mỗi bước giải mã, TOOLDEC không lấy mẫu từ toàn bộ từ vựng của mô hình ngôn ngữ. Thay vào đó, nó lấy mẫu từ một tập hợp con các mã thông báo được trạng thái hiện tại cho phép. FSM cung cấp hướng dẫn cho TOOLDEC được xây dựng từ tài liệu công cụ và chữ ký API để máy thể hiện chính xác ngữ pháp của lệnh gọi công cụ. Bằng cách này, TOOLDEC luôn có thể tạo ra
cú pháp gọi công cụ chính xác. Hình 1 minh họa rằng LLM được cải tiến bởi TOOLDEC có thể tạo ra lệnh gọi hàm phù hợp nhân với các đối số chính xác (“3,14” và “123”) và do đó, nó nhận được kết quả chính xác được công cụ trả về. Bạn có thể tìm thêm ví dụ so sánh TOOLDEC và LLM công cụ khác trong Phụ lục A.3.
Hơn nữa, TOOLDEC khái quát hóa các công cụ mới chưa từng xuất hiện trước đây một cách hiệu quả hơn nhiều. Không giống như các phương pháp trước đây yêu cầu tinh chỉnh hoặc mô tả theo ngữ cảnh của các công cụ mới, TOOLDEC tự động xây dựng một máy trạng thái hữu hạn từ chữ ký API của công cụ (tên và loại đối số của nó) và thêm nó vào FSM hiện có. TOOLDEC sau đó có thể gọi các công cụ mới mà không cần tinh chỉnh hoặc trình diễn trong ngữ cảnh. Mặc dù các mô hình ngôn ngữ được đào tạo trước có thể tạo ra tên công cụ khi được nhắc, nhưng chúng thường gây ảo giác cho những tên công cụ hợp lý không có trong kho. TOLDEC không làm điều đó. Trong Hình 1, cả tích và nhân đều có vẻ hợp lý đối với kịch bản, nhưng chỉ nhân là một công cụ nhất định. Vì TOOLDEC chỉ gọi các công cụ hiện có nên nó sẽ không gây ảo giác về một công cụ hợp lý nhưng không tồn tại và có thể dựa vào tên công cụ để tìm ra công cụ phù hợp.
Những đóng góp của bài viết này có thể được tóm tắt như sau:
• Chúng tôi đề xuất TOOLDEC, một thuật toán giải mã trạng thái hữu hạn để trao quyền cho LLM sử dụng các công cụ một cách hợp lý. TOOLDEC có hai ưu điểm: các lệnh gọi công cụ được tạo ra của nó được đảm bảo đúng về mặt cú pháp và nó khái quát hóa các công cụ không nhìn thấy một cách hiệu quả.
• Chúng tôi xác minh bằng thực nghiệm hiệu suất vượt trội của TOOLDEC so với các đường cơ sở vững chắc trước đây trên bốn bộ dữ liệu đa dạng từ các miền khác nhau. Các thử nghiệm mở rộng của chúng tôi cho thấy TOOLDEC loại bỏ tất cả các lỗi cú pháp và tên công cụ gây ảo giác, mang lại độ chính xác cao hơn và thời gian suy luận ít hơn tới 50%. Kết quả của chúng tôi cũng chỉ ra rằng TOOLDEC tốt hơn gấp 8 lần so với đường cơ sở về lý luận toán học với 9 công cụ không nhìn thấy và tốt hơn 7 lần so với việc trả lời câu hỏi kiến thức bằng 204 công cụ không nhìn thấy.
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0 DEED.
[1] Chúng tôi phát hành mã và dữ liệu của mình tại https://github.com/chenhongqiao/tooldec.