paint-brush
Sử dụng công cụ không có lỗi và có thể khái quát hóa cho LLM: ToolDectừ tác giả@textmodels

Sử dụng công cụ không có lỗi và có thể khái quát hóa cho LLM: ToolDec

từ tác giả Writings, Papers and Blogs on Text Models4m2024/06/02
Read on Terminal Reader

dài quá đọc không nổi

Các nhà nghiên cứu đề xuất TOOLDEC, một giải mã được hướng dẫn bằng máy ở trạng thái hữu hạn cho LLM, giúp giảm lỗi và cải thiện việc sử dụng công cụ.
featured image - Sử dụng công cụ không có lỗi và có thể khái quát hóa cho LLM: ToolDec
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

tác giả:

(1) Kexun Zhang, UC Santa Barbara và đóng góp bình đẳng;

(2) Hongqiao Chen, Trường Trung học Northwood và đóng góp bình đẳng;

(3) Lei Li, Đại học Carnegie Mellon;

(4) William Yang Wang, UC Santa Barbara.

Bảng liên kết

3. TOOLDEC: SỬ DỤNG CÔNG CỤ LLM QUA GIẢI MÃ TRẠNG THÁI FINITE

Lệnh gọi công cụ đúng về mặt cú pháp cần tham chiếu đến tên công cụ hiện có và chuyển các đối số phù hợp với loại. Được thúc đẩy bởi thực tế là việc xác minh cú pháp của lệnh gọi công cụ bằng máy trạng thái hữu hạn (FSM) rất đơn giản, chúng tôi đề xuất TOOLDEC, một thuật toán giải mã có ràng buộc được hướng dẫn bởi FSM. Trong mỗi bước giải mã, mô hình sẽ lấy mẫu từ một tập hợp con từ vựng chỉ chứa mã thông báo đúng về mặt cú pháp. FSM chỉ định các tập hợp con mã thông báo có thể được xây dựng từ tài liệu công cụ. Ví dụ, trong Hình 2, một FSM được xây dựng cho các hàm cộng, exp, bình phương và sqrt. Bảng 2 cho thấy cách TOOLDEC trả lời câu hỏi “cạnh hình vuông là 5, diện tích của nó là bao nhiêu?” sử dụng FSM. Với sự hướng dẫn từ FSM, TOOLDEC đạt được các mục tiêu sau:


• Chuyển đổi chế độ. Chuyển đổi giữa “chế độ văn bản” khi mô hình có thể tự do tạo bất kỳ văn bản nào và “chế độ công cụ” khi mô hình chỉ có thể tạo các lệnh gọi công cụ hợp lệ.


• Tạo tên công cụ. Khi bắt đầu lệnh gọi công cụ, chỉ tạo tên công cụ hiện có chính xác từ danh sách công cụ được xác định trước.


• Truyền đối số. Chỉ truyền các đối số phù hợp với loại cho công cụ.

3.1 GIẢI MÃ TRẠNG THÁI HẠN CHẾ

TOOLDEC được hướng dẫn bởi máy trạng thái hữu hạn (FSM). Một FSM là một bộ 5 (S, V, g, s0, R), bao gồm một tập trạng thái hữu hạn S, một bảng chữ cái V , một hàm chuyển tiếp g : S ×V → S, một trạng thái ban đầu s0 và một tập hợp các trạng thái chấp nhận R. Trong trường hợp của chúng tôi, S và g được xây dựng từ chữ ký công cụ. V là từ vựng mã thông báo của mô hình ngôn ngữ. R tương ứng với các mã thông báo được xác định trước có thể xác định LM đã hoàn thành nhiệm vụ, như ''.


Hình 2: Một máy trạng thái hữu hạn cho TOOLDEC được xây dựng cho các hàm toán học cộng, exp, bình phương, sqrt lấy số nguyên làm đối số. Tên của các công cụ được biểu diễn bằng cấu trúc tri. “IntFSM” là một mô-đun con phân tích các số nguyên.


Tại mỗi bước giải mã t, TOOLDEC duy trì trạng thái hiện tại s. Nó chỉ có thể tạo ra các mã thông báo được FSM cho phép, tức là các mã thông báo mà g(s, ·) được xác định. Những cái này


Bảng 2: Cách TOOLDEC sử dụng FSM trong Hình 2 để trả lời câu hỏi “cạnh hình vuông là 5, diện tích là bao nhiêu?”. Tại mỗi bước thời gian, trạng thái trong máy tương ứng với một tập hợp các mã thông báo tiếp theo hợp lệ. Chúng tôi loại bỏ tất cả các mã thông báo khác và chuẩn hóa lại lần phân phối mã thông báo tiếp theo, buộc LLM chỉ lấy mẫu mã thông báo hợp lệ.


3.2 XÂY DỰNG FSMS ĐẢM BẢO CUỘC GỌI CÔNG CỤ CHÍNH XÁC



Để xây dựng một trie, chúng ta chèn từng chuỗi vào đó. Chèn một chuỗi vào trie có nghĩa là đi từ gốc xuống đường dẫn do chuỗi tạo và tạo các nút mới khi bước tiếp theo trong đường dẫn không tồn tại. Ví dụ: chúng tôi trình bày cách thêm hai tên công cụ nữa, exp10 và mở rộng vào tri trong Hình 3.


Lưu ý rằng việc xây dựng trie phụ thuộc vào một giả định: không có hai công cụ nào có cùng tên. Mặc dù đây là một giả định hợp lý nhưng vẫn có thể có những ngoại lệ trong các ứng dụng thực tế. Trong trường hợp đó, chúng ta có thể viết lại tên công cụ để bao gồm nhiều chi tiết hơn nhằm làm rõ chúng. Viết lại các tên công cụ trừu tượng và khó hiểu cũng có thể giúp mô hình ngôn ngữ chọn chúng theo tên dễ dàng hơn.


Tạo các đối số công cụ hợp lệ về mặt cú pháp. Đối số công cụ có các loại được chỉ định. Giống như các đối số trong một chương trình, chúng cần tuân theo các quy tắc ngữ pháp nhất định. Những quy tắc này có thể được xác định bởi các máy trạng thái hữu hạn. Ví dụ: “IntFSM” trong Hình 2 mô tả một máy có trạng thái hữu hạn chỉ chấp nhận các số nguyên. Đối với tất cả các đối số của một công cụ, chúng tôi xâu chuỗi các FSM tương ứng của chúng lại với nhau và sử dụng trạng thái cuối cùng tương ứng với tên công cụ làm trạng thái ban đầu của chuỗi FSM này. Lưu ý rằng trong thực tế, không cần thiết phải xây dựng FSM này một cách rõ ràng. Bất kỳ trình kiểm tra ngữ pháp nào cho biết tập hợp các mã thông báo tiếp theo hợp lệ đều đủ.



Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0 DEED.