tác giả:
(1) Kexun Zhang, UC Santa Barbara và đóng góp bình đẳng;
(2) Hongqiao Chen, Trường Trung học Northwood và đóng góp bình đẳng;
(3) Lei Li, Đại học Carnegie Mellon;
(4) William Yang Wang, UC Santa Barbara.
Trong phần này, chúng tôi cho thấy rằng TOOLDEC có thể loại bỏ các lỗi cú pháp trong khi tạo lệnh gọi công cụ. Chúng tôi chọn hai đường cơ sở gần đây, ToolLLM và ToolkenGPT, đại diện cho mô hình học tập trong ngữ cảnh và mô hình tinh chỉnh, để thể hiện khả năng của TOOLDEC. Do cài đặt sử dụng công cụ cho hai đường cơ sở là khác nhau và không thể áp dụng cho nhau nên chúng tôi kiểm tra hiệu suất của TOOLDEC riêng biệt cho hai đường cơ sở bằng cách sử dụng điểm chuẩn từ các bài báo gốc. Thông qua các thử nghiệm sâu rộng, chúng tôi cho thấy TOOLDEC có thể loại bỏ hoàn toàn các lỗi cú pháp, mang lại độ chính xác cao hơn và thời gian suy luận ngắn hơn.
ToolLLM (Qin và cộng sự, 2023). ToolLLM là một phương pháp học tập theo ngữ cảnh đối với các mô hình ngôn ngữ được tăng cường bằng công cụ. Nó sử dụng mô hình LLaMA-7B được điều chỉnh theo hướng dẫn (Touvron và cộng sự, 2023) để sử dụng các công cụ. Với hướng dẫn ngôn ngữ tự nhiên của một tác vụ phụ thuộc vào công cụ, trước tiên, trình truy xuất API sẽ truy xuất một tập hợp con nhỏ các hàm có liên quan. Mô tả văn bản và lược đồ của các chức năng liên quan này được cung cấp trong ngữ cảnh. Sau đó, ToolLLM thực hiện quy trình suy luận gồm nhiều bước bằng cách sử dụng các hàm để đưa ra câu trả lời cuối cùng.
ToolLLM được đánh giá trên ToolEval, một tập dữ liệu được đề xuất trong cùng một bài báo. ToolEval chứa các tác vụ liên quan đến một bộ lớn (10.000+) API REST có sẵn công khai. Chúng tôi sử dụng các tập hợp con khó nhất của ToolEval để đánh giá phương pháp của mình—Danh mục I2 và Hướng dẫn I3. Chúng chứa các nhiệm vụ cần các công cụ phức tạp và không thể nhìn thấy từ nhiều danh mục (chẳng hạn như vị trí địa lý, ngày/giờ và các công cụ khác) để giải quyết. Trung bình, một tác vụ Danh mục I2 cần 6,76 công cụ và một tác vụ Danh mục I3 cần 8,24 công cụ. ToolEval có hai chỉ số chính: Tỷ lệ đạt đo lường phần trăm nhiệm vụ mà mô hình đạt được câu trả lời trong một số bước suy luận nhất định. Tỷ lệ thắng sử dụng trình đánh giá tự động được cung cấp bởi LLM theo bộ tiêu chí được xác định trước để có đường dẫn tốt hơn. Nó so sánh chất lượng và tính chính xác của các câu trả lời cơ bản với câu trả lời tham khảo do ChatGPT tạo ra. Tần và cộng sự. (2023) nhận thấy rằng bộ đánh giá tự động có mối tương quan cao tới 75,8% với bộ chú thích của con người. Ngoài hai số liệu này, chúng tôi còn đo Tỷ lệ lỗi công cụ , tỷ lệ các nhiệm vụ có ít nhất một lỗi liên quan đến công cụ.
ToolkenGPT (Hao và cộng sự, 2023). ToolkenGPT là một phương pháp tinh chỉnh việc sử dụng công cụ. ToolkenGPT đại diện cho mỗi công cụ dưới dạng một mã thông báo đặc biệt và chỉ tối ưu hóa việc nhúng mã thông báo công cụ để sử dụng công cụ. Trong quá trình suy luận, ToolkenGPT sẽ gọi một công cụ sau khi dự đoán được mã thông báo đặc biệt tương ứng. Trong khi gọi công cụ, nó chuyển các đối số bằng cách học hỏi từ các minh họa trong ngữ cảnh. ToolkenGPT sử dụng LLaMA-33B (Touvron và cộng sự, 2023) làm mô hình cơ sở.
Công cụLLM+TOOLDEC. Theo dõi Qin và cộng sự. (2023), chúng tôi sử dụng ReAct (Yao và cộng sự, 2023) để lập kế hoạch gọi công cụ của ToolLLM. Điều này phù hợp với trường hợp chuyển đổi chế độ thứ hai trong Phần 3.2. Có ba phần trong FSM dành cho ToolLLM. Đầu tiên, một định dạng FSM thực thi cú pháp “Suy nghĩ, Hành động, Đầu vào Hành động” của ReAct. Sau khi giải mã “Hành động:”, FSM này chuyển sang trạng thái bắt đầu của tên hàm FSM, điều này đảm bảo rằng tên hàm được giải mã luôn hợp lệ. Chúng tôi cũng đã xây dựng một đối số hàm dựa trên JSON FSM. Chúng tôi đã cho phép LLM suy luận 5 bước trước khi phải gọi hành động kết thúc để được coi là “vượt qua”.
ToolkenGPT+TOOLDEC. Vì ToolkenGPT sử dụng mã thông báo đặc biệt để gọi công cụ nên TOOLDEC chỉ được áp dụng để đảm bảo cú pháp của đối số. Trong thử nghiệm này, FSM của chúng tôi đảm bảo rằng mọi đối số đều là số hợp lệ và các đối số được phân tách bằng dấu phẩy. Nó cũng đảm bảo rằng số lượng đối số thực tế được truyền cho một hàm chính xác là số mà nó cần. Chúng tôi so sánh TOOLDEC với hai biến thể của đường cơ sở trong Hao et al. (2023), một có dấu vết quay lại và một không có. Backtrace cố gắng tránh các lệnh gọi công cụ không thành công bằng cách cho phép LLM quay lại và thử mã thông báo có thể xảy ra tiếp theo, thay cho lệnh gọi công cụ không thành công. Để đánh giá TOOLDEC, chúng tôi báo cáo thời gian suy luận trung bình cho mỗi vấn đề và tỷ lệ lỗi của công cụ bên cạnh độ chính xác.
TOOLDEC tăng cường LLM của công cụ học tập trong ngữ cảnh. Bảng 3 cho thấy hiệu suất của TOOLDEC trên ToolEval. TOOLDEC đạt tỷ lệ thắng 55% ở Danh mục I2 và tỷ lệ thắng 60% ở hướng dẫn I3. Là một sự thay thế thay thế cho thuật toán giải mã ban đầu, TOOLDEC đã loại bỏ cả ba loại lỗi liên quan đến công cụ và đạt được tỷ lệ thắng và tỷ lệ vượt qua tốt nhất, thậm chí đánh bại ChatGPT.
Tỷ lệ lỗi công cụ cao trong các đường cơ sở cho thấy rằng ngay cả sau khi tinh chỉnh lệnh, ToolLLM vẫn thiếu khả năng gọi chính xác các công cụ bên ngoài từ tài liệu công cụ. Sự bất lực này càng lộ rõ hơn khi có sẵn rất nhiều công cụ, như trong I3-Instruction. Hơn nữa, những lỗi này ảnh hưởng đáng kể đến khả năng hoàn thành nhiệm vụ của mô hình.
Chúng tôi trình bày tỷ lệ lỗi của từng loại lỗi theo hai điểm chuẩn trong Hình 4. Đối với ToolLLM, lỗi tên, tức là gọi một công cụ không tồn tại, là lỗi cú pháp phổ biến nhất trong lệnh gọi công cụ. TOOLDEC đã loại bỏ hoàn toàn cả 3 lỗi trên.
Với ảo giác tên hàm là lỗi phổ biến nhất liên quan đến công cụ, đường cơ sở tốt hơn một chút là giảm thiểu nó bằng cách khớp mờ theo hậu tố. Chúng tôi trình bày các kết quả của đường cơ sở có đối sánh mờ là ToolLLM + So khớp mờ và không có đối sánh mờ là ToolLLM. Việc giảm nhẹ này làm tăng tỷ lệ vượt qua nhưng ít ảnh hưởng đến tỷ lệ thắng, như được thấy rõ trong Bảng 3, vì các API sai thường có thể được chọn khi một mô hình không thể gọi chính xác công cụ mà nó muốn. Nhìn chung, các thử nghiệm của chúng tôi trên ToolLLM chứng minh rằng TOOLDEC có hiệu quả cao trong việc học LLM theo ngữ cảnh. Thông qua đường cơ sở tiếp theo, ToolkenGPT, chúng tôi cho thấy rằng TOOLDEC cũng có lợi cho các LLM công cụ được tinh chỉnh.
TOOLDEC tăng cường các công cụ tinh chỉnh LLM. Bảng 4 thể hiện kết quả trên FuncQAmulti. Mặc dù ToolkenGPT loại bỏ khả năng gọi tên công cụ không tồn tại bằng cách tinh chỉnh việc nhúng mã thông báo đặc biệt, nhưng nó vẫn có thể mắc các lỗi cú pháp khác, điều này được thể hiện qua tỷ lệ lỗi công cụ là 27,9%. Là một giải pháp thay thế thả vào, TOOLDEC đã tăng độ chính xác của ToolkenGPT đồng thời suy luận nhanh hơn nhiều. Mặc dù ToolkenGPT + backtrace đạt được độ chính xác cao hơn một chút so với TOOLDEC nhưng nó lại tốn thời gian gấp đôi để thử các công cụ khác nhau. Lưu ý rằng vì TOOLDEC đã loại bỏ tất cả các lỗi của công cụ nên không có lệnh gọi quay lui nào thất bại để thử lại. Các kết quả nhấn mạnh mức độ liên quan của các lỗi liên quan đến công cụ và khả năng ứng dụng của TOOLDEC cho cả việc học theo ngữ cảnh gần đây và các LLM tăng cường công cụ tinh chỉnh.
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0 DEED.