Lý luận toán học từ lâu đã là một biên giới đầy thách thức đối với trí tuệ nhân tạo. Trong khi các mô hình ngôn ngữ như GPT-3 và ChatGPT đã đạt được hiệu suất ấn tượng trong nhiều nhiệm vụ ngôn ngữ, chúng vẫn gặp khó khăn trong việc giải quyết chính xác các bài toán phức tạp cấp đại học. Việc nắm vững các khả năng suy luận toán học phức tạp có thể mở khóa các ứng dụng AI trong nhiều lĩnh vực khác nhau như khoa học, kỹ thuật, tài chính, v.v.
Gần đây, các nhà nghiên cứu từ Đại học Thanh Hoa và Microsoft đã đạt được tiến bộ đáng kể trong việc củng cố kỹ năng suy luận toán học của các mô hình ngôn ngữ lớn. Sự đổi mới kỹ thuật quan trọng của họ (
Hãy xem nó hoạt động như thế nào!
Các nhiệm vụ như tính toán số và đại số cơ bản có thể được xử lý khá tốt bằng các mô hình hiện có. Tuy nhiên, việc giải quyết vấn đề toán học phức tạp liên quan đến suy luận nhiều bước, các thao tác ký hiệu và các khái niệm trừu tượng vẫn còn nhiều vấn đề.
Ví dụ, các mô hình thường không giải được các bài toán đố đại số đòi hỏi phải xác định các biến, thiết lập hệ phương trình và hình thức hóa các mối quan hệ được mô tả bằng lời nói trong văn bản về mặt toán học. Hình học đặt ra những thách thức do nhu cầu về kỹ năng suy luận không gian. Các bài tập toán ở trường trung học và đại học cũng giới thiệu các khái niệm như chứng minh, tích phân, ma trận, v.v., làm bối rối các mô hình ngôn ngữ hiện có.
Các nhà nghiên cứu cho rằng những khó khăn này là do hai yếu tố chính:
Thiếu khả năng suy luận trừu tượng : Các mô hình ngôn ngữ ngày nay được đào tạo chủ yếu trên ngữ liệu văn bản trên internet. Mặc dù điều này dạy các kỹ năng ngôn ngữ nhưng nó không cung cấp kiến thức có cấu trúc và logic cần thiết cho lý luận toán học.
Không có khả năng thực hiện các phép tính ký hiệu : Ngôn ngữ thiếu tính chặt chẽ và chính xác cần thiết để thao tác các ký hiệu toán học. Các mô hình có thể mắc các lỗi nhỏ ở mỗi bước và tích lũy qua các bài toán có nhiều bước.
Để giải quyết những thách thức này, các nhà nghiên cứu đề xuất các mô hình ngôn ngữ giảng dạy lý luận theo định dạng mà họ gọi là Lý luận tích hợp công cụ . Sự đổi mới quan trọng là đan xen các cơ sở ngôn ngữ tự nhiên do mô hình tạo ra với mã để gọi các công cụ toán học bên ngoài.
Ví dụ: với một bài toán từ đại số phức tạp, trước tiên, mô hình có thể mô tả cách tiếp cận bằng lời, sau đó viết chương trình Python bằng SymPy để thiết lập một cách tượng trưng hệ phương trình, thực hiện nó để có được lời giải và cuối cùng giải thích kết quả bằng lời nói.
Điều này bổ sung cho điểm mạnh của các mô hình ngôn ngữ trong lập luận và lập kế hoạch cấp cao với độ chính xác và sức mạnh tính toán của các công cụ toán học. Họ dự đoán điều này có thể nâng cao đáng kể khả năng của mô hình trong việc giải quyết các vấn đề đòi hỏi cả sự hiểu biết về ngữ nghĩa và thao tác biểu tượng.
Để hiện thực hóa tầm nhìn này, trước tiên các nhà nghiên cứu phải tạo ra một tập dữ liệu thể hiện khả năng suy luận tích hợp công cụ đối với các bài toán. Họ đã tận dụng các khả năng của GPT-3 để tự động tạo ra 16.000 ví dụ về việc GPT-3 tự giải quyết các vấn đề từ bộ dữ liệu GSM8k và MATH trong khi tương tác với các công cụ như SymPy.
Với kho quỹ đạo tương tác công cụ này, nhóm đã đào tạo trước các phiên bản của mô hình LLaMA bằng cách sử dụng phương pháp học mô phỏng. Nghĩa là, các mô hình đã được đào tạo để dự đoán hành vi sử dụng công cụ và các cơ sở ngôn ngữ tự nhiên xen kẽ được thể hiện trong tập dữ liệu.
Cách tiếp cận này đã tạo ra một loạt Máy lý luận nguồn bút O tích hợp công cụ (TORA) có phạm vi từ 7 tỷ đến 70 tỷ tham số.
Các nhà nghiên cứu đã đánh giá một cách có hệ thống các mô hình TORA trên 10 bộ dữ liệu suy luận toán học đa dạng và so sánh hiệu suất với các kỹ thuật tiên tiến nhất trước đó.
Kết quả chứng minh rằng việc đào tạo lý luận tích hợp công cụ mang lại lợi ích đáng kể trên các quy mô và nhiệm vụ mô hình:
Các mô hình TORA đạt độ chính xác trung bình cao hơn 13-19% so với các mô hình nguồn mở tốt nhất hiện có.
Trong bài kiểm tra toán cấp độ cạnh tranh đầy thử thách (tập dữ liệu MATH), TORA-7B đạt độ chính xác 40% , đánh bại mô hình tốt nhất trước đó 22 điểm phần trăm.
TORA-34B đạt được độ chính xác 51% trong môn TOÁN, vượt qua hiệu suất 43% của GPT-4 đối với các vấn đề tương tự.
Điều này cho thấy rằng việc học cách tận dụng các công cụ bên ngoài có thể nâng cao đáng kể ngay cả những mô hình rất lớn như GPT-4 về khả năng suy luận toán học.
Điều thú vị là những cải tiến này nhất quán trên nhiều loại bài toán khác nhau bao gồm số học, đại số, phép tính, hình học, xác suất, v.v. Việc tích hợp công cụ dường như mang lại nhiều lợi ích.
Để hiểu rõ hơn về hành vi của mô hình, các nhà nghiên cứu đã phân tích một cách có hệ thống các kiểu sử dụng công cụ trên các lĩnh vực toán học:
Họ cũng đánh giá việc cắt bỏ bằng cách loại bỏ các lý do ngôn ngữ tự nhiên hoặc tích hợp công cụ:
Những hiểu biết sâu sắc này làm sáng tỏ sức mạnh bổ sung của cả lý luận ngôn ngữ và biểu tượng.
Bất chấp những lợi ích từ việc tích hợp công cụ, vẫn còn nhiều chỗ cần cải thiện. Các nhà nghiên cứu xác định hình học và đại số nâng cao là những lĩnh vực mà các mô hình vẫn gặp khó khăn.
Hình học đặt ra một thách thức vì các công cụ hiện tại như SymPy có khả năng suy luận không gian hạn chế. Những tiến bộ trong lý luận đa phương thức và tích hợp chặt chẽ hơn với các thư viện đồ họa có thể giúp ích.
Đối với đại số trừu tượng, có thể cần đến các kỹ thuật được các nhà toán học con người sử dụng như tận dụng các định lý đã biết và giải các bài toán ngược từ kết quả. Khả năng lý luận biểu tượng mạnh mẽ hơn cũng có thể được yêu cầu.
Nhìn chung, nghiên cứu này cung cấp bằng chứng đầy hứa hẹn rằng việc kết hợp sức mạnh của mô hình ngôn ngữ với các công cụ chuyên dụng bên ngoài có thể cải thiện đáng kể khả năng suy luận toán học. Tuy nhiên, việc tích hợp hiệu quả các phương thức lý luận khác nhau và các chiến lược giải quyết vấn đề toán học ở cấp độ cao hơn vẫn là một vấn đề mở. Đây là những hướng quan trọng cho công việc sau này.
Mô hình đào tạo tích hợp công cụ được giới thiệu ở đây cũng có thể thúc đẩy nghiên cứu về việc tích hợp các khả năng bên ngoài để nâng cao khả năng lập luận giữa các ngành như logic, lý luận thông thường và nghệ thuật. Đây có thể là một bước quan trọng hướng tới các hệ thống AI có khả năng và linh hoạt hơn.
Cũng được xuất bản ở đây.