tác giả:
(1) Kexun Zhang, UC Santa Barbara và đóng góp bình đẳng;
(2) Hongqiao Chen, Trường Trung học Northwood và đóng góp bình đẳng;
(3) Lei Li, Đại học Carnegie Mellon;
(4) William Yang Wang, UC Santa Barbara.
Trong Thí nghiệm II, chúng tôi trình bày cách TOOLDEC khái quát hóa các công cụ chưa được nhìn thấy mà không cần thêm dữ liệu đào tạo và tài liệu về công cụ. Chúng tôi so sánh TOOLDEC với hai đường cơ sở vững chắc—ToolkenGPT (Hao và cộng sự, 2023) là phương pháp tinh chỉnh tiêu biểu và RestGPT (Song và cộng sự, 2023) là phương pháp học tập theo ngữ cảnh tiêu biểu. Chúng tôi đã tiến hành thử nghiệm trên ba điểm chuẩn— FuncQA (Hao và cộng sự, 2023) và KAMEL (Kalo & Fichtel, 2022) và RestBench (Song và cộng sự, 2023). Những điểm chuẩn này yêu cầu bộ công cụ đa dạng từ các lĩnh vực rất khác nhau, bao gồm lý luận toán học, trả lời câu hỏi kiến thức và các dịch vụ web trong thế giới thực. Trong cả ba lĩnh vực, kết quả của chúng tôi cho thấy TOOLDEC có thể khái quát hóa một cách hiệu quả cho các công cụ mới mà không cần tinh chỉnh dữ liệu bổ sung.
ToolkenGPT là một cách tiếp cận tinh chỉnh để sử dụng công cụ nhằm tìm hiểu mã thông báo đặc biệt cho mọi công cụ. Để khái quát hóa các công cụ mới, ToolkenGPT vẫn cần dữ liệu bổ sung và tinh chỉnh bổ sung liên quan đến việc sử dụng các công cụ mới. Chúng tôi chứng minh rằng TOOLDEC, sau khi được tinh chỉnh trên một bộ công cụ nhìn thấy nhất định, không cần dữ liệu bổ sung và tinh chỉnh thêm để áp dụng các công cụ không nhìn thấy được. Chúng tôi so sánh TOOLDEC và các đường cơ sở bằng cách điều chỉnh chúng trên cùng một tập hợp con các công cụ, được ký hiệu là “công cụ nhìn thấy được” và sau đó đánh giá hiệu suất của chúng trên “các công cụ không nhìn thấy được”.
Để đảm bảo so sánh công bằng, Chúng tôi bắt chước phương pháp lập kế hoạch của ToolkenGPT để giải quyết vấn đề “khi nào nên sử dụng công cụ”. Cụ thể, chúng tôi tinh chỉnh việc nhúng một mã thông báo đặc biệt <T> để thể hiện tất cả các công cụ, giảm kích thước của từ vựng bổ sung xuống 1. Sau khi <T> được tạo, lệnh gọi công cụ sẽ bắt đầu.
Chúng tôi nhắc LLM tạo tên công cụ. Việc tạo tên công cụ này được hướng dẫn bởi FSM được xây dựng từ danh sách tất cả các công cụ có sẵn. Tên công cụ này sau đó được cắm lại vào ngữ cảnh để bắt đầu tạo đối số. Chúng tôi đưa ra một ví dụ về quá trình này trong Phụ lục A.2.
Chúng tôi đã chọn một tập hợp con nhỏ gồm “các công cụ đã thấy” trong số tất cả các công cụ có sẵn và chỉ điều chỉnh việc nhúng bằng phần trình diễn các công cụ trong tập hợp con đã chọn. Chúng tôi đã tinh chỉnh đường cơ sở bằng cách sử dụng cùng một tập hợp con. Sau đó, chúng tôi đã đánh giá phương pháp của mình và các đường cơ sở cho các nhiệm vụ liên quan đến các công cụ chưa được nhìn thấy trong tập hợp con để chứng minh khả năng khái quát hóa của TOOLDEC.
Điểm chuẩn về các hàm toán học. Chúng tôi sử dụng các câu hỏi nhiều bước của FuncQA để đánh giá phương pháp của mình. Các công cụ trong FuncQA, chẳng hạn như hoán vị, gcd, lũy thừa là các hàm toán học giới hạn nghiêm ngặt đối số của chúng là các số trong phạm vi nhất định. Chúng tôi chọn 4 trong số 13 công cụ làm tập hợp con được nhìn thấy để điều chỉnh đường cơ sở và đánh giá các cách tiếp cận khác nhau trên 9 công cụ chưa được nhìn thấy còn lại.
Điểm chuẩn về mối quan hệ đồ thị tri thức. Để nghiên cứu sâu hơn về khả năng khái quát hóa của TOOLDEC trên một bộ công cụ lớn hơn, chúng tôi cũng đánh giá KAMEL (Kalo & Fichtel, 2022), một tập dữ liệu trả lời câu hỏi chứa tổng cộng 234 quan hệ kiến thức giống với đặc điểm của API (ví dụ: số lượng trẻ em). Có thể tìm thêm các ví dụ khác trong Phụ lục A.4. Các công cụ trong KAMEL có nhiều hơn những công cụ trong FuncQA. Chúng cũng phức tạp và đa dạng hơn vì số lượng đối số cho các công cụ của chúng thay đổi từ 1 đến 3 và loại của chúng bao gồm chuỗi, vị trí, ngày tháng, số và các loại đặc biệt khác. Chúng tôi chọn 30 trong số 234 công cụ làm tập hợp con được xem và đánh giá trên 4 bộ đánh giá khác nhau, với 30, 60, 100 và 234 công cụ tương ứng. Theo dõi Hảo và cộng sự. (2023), chúng tôi sử dụng nhắc nhở, bắn ít và không bắn làm đường cơ sở bổ sung. (1) Việc nhắc nhở dựa vào kiến thức nội bộ về LLM vì không có công cụ nào được cung cấp. (2) Vài lần bắn thể hiện việc sử dụng công cụ thông qua các ví dụ về một vài lần bắn. (3) Zero-shot cung cấp mô tả về tất cả các công cụ có sẵn trong ngữ cảnh. Do tập dữ liệu đào tạo và đánh giá của KAMEL có cùng một mẫu câu hỏi cho mọi công cụ, điều này thường không đúng trong cài đặt thực tế nên chúng tôi chỉ so sánh TOOLDEC với ToolkenGPT được đào tạo trên tập dữ liệu tổng hợp do nghiên cứu ban đầu đề xuất. Chúng tôi sử dụng độ chính xác của lệnh gọi công cụ làm thước đo, được xác định bởi tỷ lệ phản hồi đưa ra mối quan hệ kiến thức chính xác.
RestGPT (Song và cộng sự, 2023) là một phương pháp học tập trong ngữ cảnh, học cách sử dụng công cụ từ tài liệu về công cụ trong ngữ cảnh. Chúng tôi chứng minh khả năng tổng quát hóa của RestGPT được cải tiến bởi TOOLDEC bằng cách chứng minh rằng RestGPT với TOOLDEC có thể đạt được độ chính xác cao hơn mà không cần tài liệu trong ngữ cảnh so với đường cơ sở RestGPT có tài liệu. Vì TOOLDEC cần quyền truy cập vào lần phân phối mã thông báo tiếp theo nên chúng tôi sử dụng RestGPT dựa trên Vicuna (Zheng và cộng sự, 2023) làm đường cơ sở. Đối với phương pháp của chúng tôi, chúng tôi xóa tất cả tài liệu về công cụ khỏi lời nhắc, chỉ để lại hướng dẫn lý luận.
Điểm chuẩn về API cho Dịch vụ web trong thế giới thực. Chúng tôi đánh giá trên RestBench (Song và cộng sự, 2023). Nó bao gồm các nhiệm vụ trong các tình huống thực tế bao gồm TMDB, một trang web thông tin phim và Spotify, một trình phát nhạc trực tuyến. Các tác vụ này trực tiếp đến từ hướng dẫn của người dùng thực và yêu cầu nhiều công cụ dưới dạng API RESTful để giải quyết. API RESTful là tiêu chuẩn thực tế cho các dịch vụ web (Li và cộng sự, 2016) sử dụng các phương thức HTTP để thao tác tài nguyên. Các giải pháp thực tế cơ bản được con người chú thích dưới dạng chuỗi lệnh gọi công cụ. Chúng tôi đánh giá phương pháp của mình và đường cơ sở trên TMDB, bao gồm 55 API RESTful. Vì các phương thức HTTP như GET và POST có định dạng khác với lệnh gọi công cụ nên định dạng đối số công cụ của TOOLDEC. Chúng tôi viết lại các API này để tuân theo định dạng này. Chúng tôi sử dụng tốc độ đường dẫn chính xác (CP%) do bài báo gốc đề xuất làm thước đo để đo độ chính xác. Tỷ lệ đường dẫn chính xác là tỷ lệ đầu ra của mô hình chứa đường dẫn lệnh gọi công cụ chính xác được chú thích bởi con người.
Khái quát hóa các hàm toán học chưa nhìn thấy. Trong Hình 5a, chúng tôi trình bày kết quả trên FuncQA. Trong khi ToolkenGPT và TOOLDEC đạt được độ chính xác tương tự đối với các tác vụ chỉ liên quan đến các công cụ nhìn thấy được, ToolkenGPT đã không thể khái quát hóa các công cụ không nhìn thấy được, dẫn đến hiệu suất giảm đáng kể. Mặt khác, TOOLDEC có thể duy trì độ chính xác tương đương ngay cả trên các công cụ không nhìn thấy được và đạt được độ chính xác cao hơn gấp 8 lần đối với các vấn đề nhiều bước nhảy, nhấn mạnh tính khái quát của nó. Do đó, TOOLDEC vượt trội hơn đáng kể so với ToolkenGPT về độ chính xác tổng thể.
Khái quát hóa các hàm đồ thị tri thức chưa được nhìn thấy. Chúng tôi trình bày kết quả của mình về KAMEL trong Hình 5b. Khi số lượng công cụ có sẵn tăng lên, hai phương pháp ICL bị giới hạn độ dài ngữ cảnh (Hao và cộng sự, 2023) và có độ chính xác giảm đáng kể. ToolkenGPT, được tinh chỉnh trên 30 công cụ đầu tiên, cũng không thể khái quát hóa cho nhiều công cụ hơn. Lời nhắc giữ độ chính xác ổn định ở mức thấp vì nó không dựa vào tài liệu công cụ trong ngữ cảnh. Mặt khác, TOOLDEC có thể duy trì độ chính xác ngay cả khi số lượng công cụ không nhìn thấy lên tới 204.
Khái quát hóa các dịch vụ web không nhìn thấy. Kết quả trên RestBench được báo cáo trong Bảng 5. TOOLDEC đã cho phép mô hình sử dụng API dịch vụ web mà không cần tài liệu ngữ cảnh, giảm kích thước lời nhắc từ 1974 mã thông báo xuống chỉ còn 880 mã thông báo. Tuy nhiên, TOOLDEC vẫn vượt trội đáng kể so với đường cơ sở về độ chính xác được biểu thị bằng tỷ lệ đường dẫn chính xác (CP%), nâng nó lên 8 điểm. Những kết quả này cho thấy TOOLDEC cũng có thể cải thiện tính khái quát của việc sử dụng công cụ học tập theo ngữ cảnh trong các ứng dụng web trong thế giới thực.
Kết quả từ cả ba cài đặt chỉ ra rằng TOOLDEC không chỉ giúp tinh chỉnh LLM của công cụ tinh chỉnh khái quát hóa mà không cần thêm dữ liệu đào tạo mà còn giúp các LLM của công cụ học tập trong ngữ cảnh khái quát hóa mà không cần tài liệu trong ngữ cảnh. Khả năng này của TOOLDEC đã được chứng minh ở ba lĩnh vực khác nhau.
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0 DEED.