tác giả:
(1) Nicholas Farn, Tập đoàn Microsoft {Tập đoàn Microsoft {[email protected]};
(2) Richard Shin, Tập đoàn Microsoft {[email protected]}.
Kết luận, độ tái lập và tài liệu tham khảo
A. Danh sách đầy đủ các công cụ
D. Sắc thái so sánh công việc trước đó
Các mô hình ngôn ngữ lớn (LLM) đã cho thấy những cải tiến lớn về kỹ năng lý luận và ra quyết định, đồng thời có thể tổ chức các cuộc trò chuyện tự nhiên với người dùng. Nhiều công trình gần đây tìm cách tăng cường các trợ lý dựa trên LLM bằng các công cụ bên ngoài để chúng có thể truy cập thông tin riêng tư hoặc cập nhật và thực hiện các hành động thay mặt cho người dùng. Để đo lường tốt hơn hiệu suất của các trợ lý này, bài viết này giới thiệu ToolTalk, một điểm chuẩn bao gồm các ý định phức tạp của người dùng yêu cầu việc sử dụng công cụ gồm nhiều bước được chỉ định thông qua đối thoại. ToolTalk chứa 28 công cụ được nhóm thành 7 plugin và bao gồm cách triển khai mô phỏng hoàn chỉnh của từng công cụ, cho phép đánh giá hoàn toàn tự động các trợ lý dựa trên phản hồi thực thi. ToolTalk cũng nhấn mạnh đến các công cụ có tác động ra bên ngoài thế giới hơn là chỉ các công cụ để tham khảo hoặc tìm kiếm thông tin. Chúng tôi đánh giá GPT-3.5 và GPT-4 trên ToolTalk với tỷ lệ thành công lần lượt là 26% và 50%. Phân tích của chúng tôi về các lỗi cho thấy ba loại chính và đề xuất một số hướng cải tiến trong tương lai.
Chúng tôi phát hành ToolTalk tại https://github.com/microsoft/ToolTalk.
Các mô hình ngôn ngữ lớn (LLM) có thể thực hiện những thành tựu ấn tượng trong việc hiểu, tạo ngôn ngữ tự nhiên và các nhiệm vụ khác liên quan đến thao tác văn bản. Với những điều chỉnh phù hợp sau khi đào tạo trước, họ có thể trò chuyện trôi chảy và tự nhiên với người dùng. Tuy nhiên, phạm vi của các cuộc trò chuyện như vậy vẫn bị hạn chế do LLM thiếu khả năng tiếp cận kiến thức bên ngoài dữ liệu đào tạo của họ, thể hiện khả năng tính toán và lý luận toán học hạn chế, đồng thời không thể tương tác với thế giới bên ngoài.
Để khắc phục những hạn chế này, nhiều công trình trước đây đã đề xuất tích hợp các chatbot hỗ trợ LLM với khả năng sử dụng các công cụ như công cụ tìm kiếm (Nakano và cộng sự, 2022), máy tính hoặc API web (Mialon và cộng sự, 2023). Để đạt được tiến bộ có ý nghĩa trong việc sử dụng công cụ, cần có các tiêu chuẩn và bộ dữ liệu đánh giá phù hợp để có thể thực hiện đầy đủ các hệ thống này bằng các cuộc trò chuyện thực tế và đầy thách thức. Trong bài viết này, chúng tôi giới thiệu ToolTalk như một bước hướng tới mục tiêu này. ToolTalk bao gồm 78 cuộc hội thoại với tổng số 178 lượt, sử dụng 28 công cụ độc đáo được nhóm thành 7 danh mục, cùng với phương pháp đánh giá được điều chỉnh theo hướng đo lường việc sử dụng công cụ chính xác.
Một số cân nhắc đã giúp chúng tôi thiết kế ToolTalk để mô phỏng tốt nhất các cuộc hội thoại điển hình mà người dùng có thể mong muốn có với trợ lý dựa trên LLM. Đầu tiên, chúng tôi muốn đảm bảo rằng ToolTalk có tính chất đàm thoại và cho phép thực hiện nhiều vòng đối thoại giữa người dùng và trợ lý cho một mục đích duy nhất; phản ánh việc người dùng không phải lúc nào cũng muốn đưa ra yêu cầu đầy đủ của mình trong một lần phát biểu và có thể thêm các từ hạn định bổ sung hoặc đưa ra các chỉnh sửa sau khi nhận được một số phản hồi từ trợ lý. Điều này cho phép chúng tôi bao gồm các ý định của người dùng yêu cầu một loạt lệnh gọi công cụ phức tạp mà không có những câu nói dài bất thường. Thứ hai, chúng tôi bao gồm một tập hợp các lệnh gọi công cụ thực tế lẽ ra phải được thực hiện cho từng phát ngôn của người dùng, phù hợp để sử dụng trong quá trình đánh giá tự động so với các lệnh gọi công cụ do trợ lý dự đoán. Thứ ba, ToolTalk bao gồm các triển khai thực thi của mọi công cụ có trong tập dữ liệu, để tạo điều kiện thuận lợi cho việc đánh giá các trợ lý có thể xem xét kết quả từ các lệnh gọi công cụ trước đó để quyết định nên thực hiện công cụ nào tiếp theo. Thứ tư, ToolTalk bao gồm các công cụ có tác dụng phụ (chẳng hạn như gửi email hoặc thêm/xóa sự kiện lịch), mà chúng tôi gọi là “công cụ hành động”, thay vì chỉ thực hiện truy vấn cơ sở dữ liệu (chẳng hạn như tìm kiếm email có chứa một từ khóa cụ thể ). Những công cụ hành động như vậy là cần thiết nếu trợ lý muốn tự động hóa các tác vụ của người dùng.
Chúng tôi điều chỉnh phương pháp đánh giá của mình theo các chi tiết cụ thể trong thiết kế tập dữ liệu của mình, vượt xa các số liệu phổ biến như độ chính xác đối sánh chính xác. Cụ thể, chúng tôi xem xét riêng các lệnh gọi công cụ hành động và không hành động, xem xét rằng các lệnh gọi công cụ hành động không chính xác, chẳng hạn như gửi tin nhắn đến nhầm người, có thể có tác động đặc biệt tiêu cực đối với người dùng. Mặt khác, nếu trợ lý thực hiện cả hai lệnh gọi công cụ không hành động chính xác và một số lệnh gọi không liên quan không chính xác, thì những lệnh gọi không liên quan vẫn có thể cung cấp thông tin hữu ích cho người dùng (ngay cả khi đó không phải là những gì người dùng trực tiếp yêu cầu). Do đó, chúng tôi sử dụng khả năng thu hồi lệnh gọi công cụ và tỷ lệ hành động không chính xác làm số liệu chính trong một lượt trò chuyện và xác định khái niệm thành công ở cấp độ cuộc trò chuyện.
Chúng tôi áp dụng ToolTalk trên hai trợ lý được triển khai bằng cách sử dụng chức năng gọi hỗ trợ API hoàn thành Trò chuyện của OpenAI với các mô hình GPT-3.5 và GPT-4. Chúng tôi nhận thấy rằng gpt-3.5-turbo-0613 và gpt-4-0613 đạt được tỷ lệ thành công ở cấp độ hội thoại lần lượt là 26% và 50%, chứng tỏ rằng việc sử dụng công cụ trong cài đặt hội thoại vẫn là một nhiệm vụ khó khăn đối với ngay cả một số người trong số những người dùng phổ biến nhất. những mô hình tiên tiến nhất. Sau đó, chúng tôi tiến hành phân tích sâu hơn để xác định lý do khiến GPT-3.5 và GPT-4 không thực hiện được cuộc trò chuyện. Chúng tôi nhận thấy rằng cả GPT-3.5 và GPT-4 đều có thể tạo ra các tranh luận ảo giác, không hiểu tài liệu và thậm chí tuyên bố thẳng thừng rằng đã hoàn thành một nhiệm vụ mà không cần gọi bất kỳ công cụ nào.
Bài viết của chúng tôi có những đóng góp sau:
• Chúng tôi giới thiệu một tập dữ liệu hội thoại dành cho các trợ lý hỗ trợ LLM sử dụng công cụ, chứa nhiều công cụ và các cuộc hội thoại mẫu có chú thích thực tế cơ bản cho các lệnh gọi công cụ cho phép đánh giá tự động.
• Chúng tôi đảm bảo rằng tập dữ liệu chứa các cuộc hội thoại nhiều lượt yêu cầu sử dụng nhiều công cụ, bao gồm cả các công cụ có tác dụng phụ, để mô phỏng tốt hơn cách người dùng có thể tương tác với trợ lý sử dụng công cụ.
• Chúng tôi phát triển một phương pháp đánh giá phản ánh sự khác biệt giữa các công cụ có tác dụng phụ và các công cụ không có tác dụng phụ.
• Chúng tôi đánh giá các trợ lý được xây dựng bằng GPT-3.5 và GPT-4 bằng tập dữ liệu của chúng tôi và phân tích lỗi của chúng, tìm ra các vấn đề như lập luận ảo giác và tài liệu bị hiểu sai.
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.