लेखक:
(1) केक्सुन झांग, यूसी सांता बारबरा और समान योगदान;
(2) हांगकियाओ चेन, नॉर्थवुड हाई स्कूल और समान योगदान;
(3) लेई ली, कार्नेगी मेलन विश्वविद्यालय;
(4) विलियम यांग वांग, यूसी सांता बारबरा।
इस खंड में, हम दिखाते हैं कि टूल कॉल जेनरेट करते समय TOOLDEC वाक्यविन्यास त्रुटियों को समाप्त कर सकता है। हमने TOOLDEC की क्षमता को प्रदर्शित करने के लिए दो हालिया बेसलाइन, ToolLLM और ToolkenGPT का चयन किया है, जो संदर्भ-आधारित शिक्षण और फ़ाइन-ट्यूनिंग प्रतिमान का प्रतिनिधित्व करते हैं। चूँकि दो बेसलाइन के लिए टूल-उपयोग सेटिंग्स अलग-अलग हैं और उन्हें एक-दूसरे पर लागू नहीं किया जा सकता है, इसलिए हम मूल पेपर से बेंचमार्क का उपयोग करके दो बेसलाइन के लिए अलग-अलग TOOLDEC के प्रदर्शन का परीक्षण करते हैं। व्यापक प्रयोगों के माध्यम से, हम दिखाते हैं कि TOOLDEC वाक्यविन्यास त्रुटियों को पूरी तरह से समाप्त कर सकता है, जिसके परिणामस्वरूप बेहतर सटीकता और कम अनुमान समय प्राप्त होता है।
टूलएलएलएम (किन एट अल., 2023)। टूलएलएलएम टूल-संवर्धित भाषा मॉडल के लिए एक संदर्भ-आधारित शिक्षण दृष्टिकोण है। यह टूल का उपयोग करने के लिए एक निर्देश-संचालित LLaMA-7B मॉडल (टूवरन एट अल., 2023) का उपयोग करता है। टूल-निर्भर कार्य के प्राकृतिक भाषा निर्देश को देखते हुए, एक API पुनर्प्राप्तिकर्ता पहले प्रासंगिक फ़ंक्शन का एक छोटा सा उपसमूह पुनर्प्राप्त करता है। इन प्रासंगिक फ़ंक्शन का पाठ्य विवरण और स्कीमा संदर्भ में उपलब्ध कराया जाता है। फिर, टूलएलएलएम अंतिम उत्तर देने के लिए फ़ंक्शन का उपयोग करके एक बहु-चरणीय तर्क प्रक्रिया से गुजरता है।
ToolLLM का मूल्यांकन ToolEval पर किया जाता है, जो उसी पेपर में प्रस्तावित एक डेटासेट है। ToolEval में ऐसे कार्य शामिल हैं जिनमें सार्वजनिक रूप से उपलब्ध REST APIs का एक विशाल सेट (10,000+) शामिल है। हम अपने तरीके का मूल्यांकन करने के लिए ToolEval के सबसे कठिन उपसमूहों का उपयोग करते हैं—I2-श्रेणी और I3-निर्देश। उनमें ऐसे कार्य होते हैं जिन्हें हल करने के लिए कई श्रेणियों (जैसे भौगोलिक स्थान, दिनांक/समय और अन्य) से जटिल और अनदेखे टूल की आवश्यकता होती है। औसतन, एक I2-श्रेणी कार्य के लिए 6.76 टूल की आवश्यकता होती है और एक I3-श्रेणी कार्य के लिए 8.24 टूल की आवश्यकता होती है। ToolEval के दो मुख्य मेट्रिक्स हैं: पास रेट उन कार्यों का प्रतिशत मापता है जिनके लिए मॉडल एक निश्चित मात्रा में तर्क चरणों के भीतर उत्तर तक पहुंचता है। विन रेट एक बेहतर पथ के लिए मानदंडों के पूर्व-निर्धारित सेट का पालन (2023) ने पाया कि स्वचालित मूल्यांकनकर्ता का मानव एनोटेटर्स के साथ 75.8% का उच्च सहसंबंध है। इन दो मेट्रिक्स के अलावा, हम टूल एरर रेट को भी मापते हैं, जो उन कार्यों का अनुपात है जिनमें कम से कम एक टूल-संबंधी त्रुटि होती है।
ToolkenGPT (हाओ एट अल., 2023)। ToolkenGPT टूल के उपयोग के लिए एक फाइन-ट्यूनिंग दृष्टिकोण है। ToolkenGPT प्रत्येक टूल को एक विशेष टोकन के रूप में दर्शाता है और टूल के उपयोग के लिए केवल टूल टोकन के एम्बेडिंग को अनुकूलित करता है। अनुमान के दौरान, ToolkenGPT एक टूल को आमंत्रित करता है जब संबंधित विशेष टोकन की भविष्यवाणी की जाती है। टूल कॉल के दौरान, यह इन-कॉन्टेक्स्ट डेमो से सीखकर तर्कों को पास करता है। ToolkenGPT अपने बेस मॉडल के रूप में LLaMA-33B (Touvron et al., 2023) का उपयोग करता है।
ToolLLM+TOOLDEC. किन एट अल. (2023) के अनुसार, हम ToolLLM के टूल कॉल की योजना बनाने के लिए ReAct (याओ एट अल., 2023) का उपयोग करते हैं। यह सेक्शन 3.2 में मोड स्विचिंग के दूसरे मामले के अनुरूप है। ToolLLM के लिए FSM में तीन भाग हैं। सबसे पहले, एक प्रारूप FSM जो ReAct के "विचार, क्रिया, क्रिया इनपुट" सिंटैक्स को लागू करता है। "क्रिया:" को डिकोड करने के बाद, यह FSM फ़ंक्शन नाम FSM की शुरुआती स्थिति में संक्रमण करता है, जो गारंटी देता है कि डिकोड किया गया फ़ंक्शन नाम हमेशा मान्य होता है। हमने JSON-आधारित फ़ंक्शन तर्क FSM का भी निर्माण किया। हमने LLM को 5 चरणों के लिए तर्क करने की अनुमति दी, इससे पहले कि इसे "पास" माना जाने के लिए फ़िनिश एक्शन को कॉल करना चाहिए।
ToolkenGPT+TOOLDEC. चूँकि ToolkenGPT टूल को कॉल करने के लिए विशेष टोकन का उपयोग करता है, TOOLDEC को केवल तर्कों के सिंटैक्स की गारंटी देने के लिए लागू किया जाता है। इस प्रयोग में, हमारा FSM गारंटी देता है कि प्रत्येक तर्क एक वैध संख्या है, और तर्क अल्पविराम से अलग किए गए हैं। यह भी गारंटी देता है कि किसी फ़ंक्शन को दिए गए तर्कों की वास्तविक संख्या ठीक वैसी ही है जितनी उसे ज़रूरत है। हमने TOOLDEC की तुलना Hao et al. (2023) में बेसलाइन के दो प्रकारों से की, एक बैकट्रेस के साथ और एक बिना। बैकट्रेस विफल टूल कॉल से बचने की कोशिश करता है, जिससे LLM को वापस जाने और विफल टूल कॉल के स्थान पर अगले संभावित टोकन को आज़माने की अनुमति मिलती है। TOOLDEC का मूल्यांकन करने के लिए, हम सटीकता के अलावा प्रति समस्या औसत अनुमान समय और टूल त्रुटि दर की रिपोर्ट करते हैं।
TOOLDEC इन-कॉन्टेक्स्ट लर्निंग टूल LLM को बेहतर बनाता है। तालिका 3 ToolEval पर TOOLDEC के प्रदर्शन को दर्शाती है। TOOLDEC ने I2-श्रेणी पर 55% जीत दर और I3-निर्देश पर 60% जीत दर हासिल की। मूल डिकोडिंग एल्गोरिदम के ड्रॉप-इन प्रतिस्थापन के रूप में, TOOLDEC ने सभी तीन प्रकार की टूल-संबंधित त्रुटियों को समाप्त कर दिया और सबसे अच्छी जीत दर और पास दर हासिल की, यहाँ तक कि ChatGPT को भी पीछे छोड़ दिया।
बेसलाइन की उच्च टूल त्रुटि दर से पता चलता है कि निर्देश फ़ाइनट्यूनिंग के बाद भी, ToolLLM में टूल डॉक्यूमेंटेशन से बाहरी टूल को सटीक रूप से लागू करने की क्षमता का अभाव है। यह अक्षमता तब और अधिक उजागर होती है जब I3-निर्देश में कई तरह के टूल उपलब्ध होते हैं। इसके अलावा, इन त्रुटियों ने मॉडल की कार्यों को पूरा करने की क्षमता को महत्वपूर्ण रूप से प्रभावित किया।
हम चित्र 4 में दो बेंचमार्क पर प्रत्येक त्रुटि प्रकार की त्रुटि दर प्रस्तुत करते हैं। ToolLLMs के लिए, नाम त्रुटि, यानी एक गैर-मौजूद टूल को कॉल करना, टूल कॉल में सबसे आम वाक्यविन्यास त्रुटि थी। TOOLDEC ने तीनों त्रुटियों को पूरी तरह से समाप्त कर दिया।
फ़ंक्शन नाम भ्रम सबसे प्रचलित उपकरण-संबंधी त्रुटि होने के कारण, प्रत्यय द्वारा फ़ज़ी मिलान के साथ इसे कम करना थोड़ा बेहतर आधार रेखा थी। हम फ़ज़ी मिलान के साथ आधार रेखा के परिणामों को ToolLLM + फ़ज़ी मिलान के रूप में और बिना ToolLLM के रूप में प्रस्तुत करते हैं। इस शमन ने पास दर में वृद्धि की, लेकिन जीत दर पर इसका बहुत कम प्रभाव पड़ा, जैसा कि तालिका 3 में स्पष्ट है, क्योंकि गलत API अक्सर तब चुने जा सकते थे जब कोई मॉडल अपने इच्छित उपकरण को ठीक से कॉल करने में असमर्थ था। कुल मिलाकर, ToolLLM पर हमारे प्रयोग प्रदर्शित करते हैं कि TOOLDEC इन-कॉन्टेक्स्ट लर्निंग LLM पर अत्यधिक प्रभावी है। अगली आधार रेखा, ToolkenGPT के माध्यम से, हम दिखाते हैं कि TOOLDEC फाइन-ट्यून्ड टूल LLM के लिए भी फायदेमंद है।
TOOLDEC ने टूल LLM को बेहतर बनाया है। तालिका 4 में FuncQAmulti पर परिणाम दिखाए गए हैं। हालाँकि ToolkenGPT एक विशेष टोकन एम्बेडिंग को ठीक करके गैर-मौजूद टूल नामों को कॉल करने की संभावना को समाप्त करता है, फिर भी यह अन्य वाक्यविन्यास त्रुटियों से ग्रस्त हो सकता है, जिसे 27.9% टूल त्रुटि दर द्वारा प्रदर्शित किया जाता है। ड्रॉप-इन प्रतिस्थापन के रूप में, TOOLDEC ने अनुमान में बहुत तेज़ होने के साथ-साथ ToolkenGPT की सटीकता को बढ़ाया। हालाँकि ToolkenGPT + बैकट्रेस ने TOOLDEC की तुलना में थोड़ी बेहतर सटीकता हासिल की, लेकिन इसने विभिन्न टूल आज़माने के लिए 2x अधिक समय का उपयोग किया। ध्यान दें कि चूंकि TOOLDEC ने सभी टूल त्रुटियों को समाप्त कर दिया था, इसलिए बैकट्रेस को पुनः प्रयास करने के लिए कोई विफल टूल कॉल नहीं था। परिणाम टूल-संबंधी त्रुटियों की प्रासंगिकता और TOOLDEC की हाल ही में इन-कॉन्टेक्स्ट लर्निंग और टूल-संवर्धित LLM को ठीक करने दोनों के लिए प्रयोज्यता को रेखांकित करते हैं।
यह पेपर CC 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।