paint-brush
LLM के लिए वाक्यविन्यास त्रुटि-रहित और सामान्यीकरण योग्य टूल का उपयोग: ToolDec सामान्यीकरण योग्य टूल चयन को सक्षम करता हैद्वारा@textmodels
142 रीडिंग

LLM के लिए वाक्यविन्यास त्रुटि-रहित और सामान्यीकरण योग्य टूल का उपयोग: ToolDec सामान्यीकरण योग्य टूल चयन को सक्षम करता है

द्वारा Writings, Papers and Blogs on Text Models6m2024/06/02
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने एलएलएम के लिए एक परिमित-अवस्था मशीन-निर्देशित डिकोडिंग टूलडेक का प्रस्ताव दिया है, जो त्रुटियों को कम करेगा और उपकरण के उपयोग में सुधार करेगा।
featured image - LLM के लिए वाक्यविन्यास त्रुटि-रहित और सामान्यीकरण योग्य टूल का उपयोग: ToolDec सामान्यीकरण योग्य टूल चयन को सक्षम करता है
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

लेखक:

(1) केक्सुन झांग, यूसी सांता बारबरा और समान योगदान;

(2) हांगकियाओ चेन, नॉर्थवुड हाई स्कूल और समान योगदान;

(3) लेई ली, कार्नेगी मेलन विश्वविद्यालय;

(4) विलियम यांग वांग, यूसी सांता बारबरा।

लिंक की तालिका

5. प्रयोग II: टूलडेक सामान्यीकृत टूल चयन को सक्षम करता है

प्रयोग II में, हम दिखाते हैं कि कैसे TOOLDEC अतिरिक्त प्रशिक्षण डेटा और टूल डॉक्यूमेंटेशन के बिना अनदेखे टूल को सामान्यीकृत करता है। हम TOOLDEC की तुलना दो मजबूत बेसलाइन से करते हैं—ToolkenGPT (हाओ एट अल., 2023) एक प्रतिनिधि फ़ाइन-ट्यूनिंग दृष्टिकोण के रूप में, और RestGPT (सोंग एट अल., 2023) एक प्रतिनिधि इन-कॉन्टेक्स्ट लर्निंग दृष्टिकोण के रूप में। हमने तीन बेंचमार्क पर प्रयोग किए— FuncQA (हाओ एट अल., 2023) और KAMEL (कालो और फ़िचटेल, 2022), और RestBench (सोंग एट अल., 2023)। इन बेंचमार्क के लिए बहुत अलग-अलग डोमेन से विविध टूल सेट की आवश्यकता होती है, जिसमें गणितीय तर्क, ज्ञान प्रश्न उत्तर और वास्तविक दुनिया की वेब सेवाएँ शामिल हैं। तीनों डोमेन में, हमारे परिणाम दिखाते हैं कि TOOLDEC अतिरिक्त डेटा पर फ़ाइन-ट्यूनिंग के बिना नए टूल को कुशलतापूर्वक सामान्यीकृत करने में सक्षम है।

5.1 फाइन-ट्यूनिंग बेसलाइन: टूलकेएनजीपीटी

ToolkenGPT उपकरण के उपयोग के लिए एक फ़ाइन-ट्यूनिंग दृष्टिकोण है जो प्रत्येक उपकरण के लिए एक विशेष टोकन सीखता है। नए उपकरणों को सामान्य बनाने के लिए, ToolkenGPT को अभी भी अतिरिक्त डेटा और नए उपकरणों के उपयोग से संबंधित अतिरिक्त फ़ाइन-ट्यूनिंग की आवश्यकता होती है। हम प्रदर्शित करते हैं कि TOOLDEC, एक बार देखे गए उपकरणों के दिए गए सेट पर फ़ाइन-ट्यून हो जाने के बाद, अनदेखे उपकरणों को अपनाने के लिए अतिरिक्त डेटा और आगे फ़ाइन-ट्यूनिंग की आवश्यकता नहीं होती है। हम TOOLDEC और बेसलाइन की तुलना उपकरणों के एक ही उपसमूह पर ट्यून करके करते हैं, जिन्हें "देखे गए उपकरण" के रूप में दर्शाया जाता है, और फिर "अनदेखे उपकरणों" पर उनके प्रदर्शन का मूल्यांकन करते हैं।


निष्पक्ष तुलना की गारंटी देने के लिए, हम “टूल का उपयोग कब करें” समस्या को हल करने के लिए ToolkenGPT की योजना विधि की नकल करते हैं। विशेष रूप से, हम सभी उपकरणों का प्रतिनिधित्व करने के लिए एक विशेष टोकन <T> के एम्बेडिंग को ठीक करते हैं, जिससे अतिरिक्त शब्दावली का आकार 1 तक कम हो जाता है। एक बार <T> उत्पन्न होने के बाद, एक टूल कॉल शुरू होता है।


हम LLM को एक टूल नाम बनाने के लिए प्रेरित करते हैं। इस टूल नाम का निर्माण सभी उपलब्ध टूल की सूची से निर्मित FSM द्वारा निर्देशित होता है। फिर इस टूल नाम को तर्कों के निर्माण को शुरू करने के लिए संदर्भ में वापस प्लग किया जाता है। हम इस प्रक्रिया का एक उदाहरण परिशिष्ट A.2 में दिखाते हैं।


हमने सभी उपलब्ध उपकरणों में से "देखे गए उपकरणों" का एक छोटा सा उपसमूह चुना और चयनित उपसमूह में उपकरणों के प्रदर्शनों के साथ ही एम्बेडिंग को ट्यून किया। हमने उसी उपसमूह का उपयोग करके बेसलाइन को ठीक किया। फिर, हमने TOOLDEC की सामान्यीकरण क्षमता को प्रदर्शित करने के लिए उपसमूह में अदृश्य उपकरणों को शामिल करने वाले कार्यों पर अपनी विधि और बेसलाइन का मूल्यांकन किया।


गणितीय कार्यों पर बेंचमार्क। हम अपने तरीके का मूल्यांकन करने के लिए FuncQA मल्टी-हॉप प्रश्नों का उपयोग करते हैं। FuncQA में उपकरण, जैसे कि पर्मुटेट, gcd, पावर गणितीय फ़ंक्शन हैं जो अपने तर्कों को कुछ निश्चित श्रेणियों में संख्याओं तक सीमित रखते हैं। हम बेसलाइन को ट्यून करने के लिए देखे गए उपसमूह के रूप में 13 में से 4 टूल चुनते हैं और शेष 9 अनदेखे टूल पर विभिन्न दृष्टिकोणों का मूल्यांकन करते हैं।


ज्ञान ग्राफ संबंधों पर बेंचमार्क। टूल के एक बड़े सेट पर TOOLDEC की सामान्यता की आगे की जांच करने के लिए, हम KAMEL (Kalo & Fichtel, 2022) पर भी मूल्यांकन करते हैं, जो एक प्रश्न-उत्तर डेटासेट है जिसमें कुल 234 ज्ञान संबंध हैं जो API की विशेषताओं (जैसे बच्चों की संख्या) से मिलते जुलते हैं। अधिक उदाहरण परिशिष्ट A.4 में पाए जा सकते हैं। KAMEL में उपकरण FuncQA की तुलना में बहुत अधिक हैं। वे अधिक जटिल और विविध भी हैं क्योंकि उनके उपकरणों के लिए तर्कों की संख्या 1 से 3 तक भिन्न होती है, और उनके प्रकारों में स्ट्रिंग, स्थान, तिथियां, संख्याएं और अन्य एड-हॉक प्रकार शामिल हैं। हम 234 में से 30 उपकरणों को देखे गए उपसमूह के रूप में चुनते हैं और 4 अलग-अलग मूल्यांकन सेटों पर मूल्यांकन करते हैं, जिसमें क्रमशः 30, 60, 100 और 234 उपकरण होते हैं। हाओ एट अल. (2023) का अनुसरण करते हुए, हम अतिरिक्त बेसलाइन के रूप में प्रॉम्प्टिंग, फ़्यू-शॉट और ज़ीरो-शॉट का उपयोग करते हैं। (1) प्रॉम्प्टिंग LLM के आंतरिक ज्ञान पर निर्भर करता है, क्योंकि कोई उपकरण प्रदान नहीं किया गया था। (2) फ्यू-शॉट कुछ-शॉट उदाहरणों के माध्यम से उपकरण के उपयोग को प्रदर्शित करता है। (3) ज़ीरो-शॉट संदर्भ में सभी उपलब्ध उपकरणों का विवरण प्रदान करता है। चूंकि KAMEL का प्रशिक्षण और मूल्यांकन डेटासेट प्रत्येक उपकरण के लिए एक ही प्रश्न टेम्पलेट साझा करता है, जो अक्सर वास्तविक दुनिया की सेटिंग में सच नहीं होता है, इसलिए हम TOOLDEC की तुलना केवल मूल अध्ययन द्वारा प्रस्तावित सिंथेटिक डेटासेट पर प्रशिक्षित ToolkenGPT से करते हैं। हम टूल कॉल की सटीकता को एक मीट्रिक के रूप में उपयोग करते हैं, जो सही ज्ञान संबंध को लागू करने वाले प्रतिक्रियाओं के अनुपात से निर्धारित होता है।

5.2 संदर्भगत शिक्षण आधार रेखा: RESTGPT

रेस्टजीपीटी (सोंग एट अल., 2023) एक इन-कॉन्टेक्स्ट लर्निंग दृष्टिकोण है जो इन-कॉन्टेक्स्ट टूल डॉक्यूमेंटेशन से टूल उपयोग सीखता है। हम TOOLDEC-एन्हांस्ड रेस्टजीपीटी की सामान्यीकरण क्षमता को यह दिखाकर प्रदर्शित करते हैं कि TOOLDEC के साथ रेस्टजीपीटी बिना इन-कॉन्टेक्स्ट डॉक्यूमेंटेशन के रेस्टजीपीटी बेसलाइन के साथ बेहतर सटीकता प्राप्त कर सकता है। चूंकि TOOLDEC को अगले टोकन वितरण तक पहुंच की आवश्यकता होती है, इसलिए हम बेसलाइन के रूप में विकुना-आधारित (झेंग एट अल., 2023) रेस्टजीपीटी का उपयोग करते हैं। हमारी विधि के लिए, हम प्रॉम्प्ट से सभी टूल डॉक्यूमेंटेशन हटा देते हैं, केवल तर्क के लिए निर्देश छोड़ते हैं।


वास्तविक दुनिया की वेब सेवाओं के लिए API पर बेंचमार्क। हम RestBench (Song et al., 2023) पर मूल्यांकन करते हैं। इसमें वास्तविक दुनिया के परिदृश्यों में कार्य शामिल हैं, जिसमें TMDB, मूवी जानकारी के लिए एक वेबसाइट और Spotify, एक ऑनलाइन संगीत प्लेयर शामिल है। ये कार्य सीधे वास्तविक उपयोगकर्ता निर्देशों से आते हैं और हल करने के लिए RESTful API के रूप में कई उपकरणों की आवश्यकता होती है। RESTful API वेब सेवाओं (Li et al., 2016) के लिए वास्तविक मानक हैं जो संसाधनों में हेरफेर करने के लिए HTTP विधियों का उपयोग करते हैं। ग्राउंड ट्रुथ समाधानों को टूल कॉल चेन के रूप में मनुष्यों द्वारा एनोटेट किया जाता है। हम TMDB पर अपनी विधि और बेसलाइन का मूल्यांकन करते हैं, जिसमें 55 RESTful API शामिल हैं। चूंकि GET और POST जैसी HTTP विधियों का टूल कॉल, टूल तर्क TOOLDEC के प्रारूप से अलग प्रारूप है। हमने इस प्रारूप का पालन करने के लिए इन API को फिर से लिखा। हम सटीकता को मापने के लिए मीट्रिक के रूप में मूल पेपर द्वारा प्रस्तावित सही पथ दर (CP%) का उपयोग करते हैं। सही पथ दर मॉडल आउटपुट का वह अनुपात है जिसमें मानव द्वारा एनोटेट किया गया सही टूल कॉल पथ शामिल होता है।

5.3 प्रयोग परिणाम

अदृश्य गणितीय कार्यों के लिए सामान्यीकरण। चित्र 5a में, हम FuncQA पर परिणाम प्रस्तुत करते हैं। जबकि ToolkenGPT और TOOLDEC ने केवल देखे गए टूल से जुड़े कार्यों पर समान सटीकता प्राप्त की, ToolkenGPT अदृश्य टूल को सामान्यीकृत करने में विफल रहा, जिसके परिणामस्वरूप प्रदर्शन में महत्वपूर्ण गिरावट आई। दूसरी ओर, TOOLDEC अदृश्य टूल पर भी तुलनीय सटीकता बनाए रखने में सक्षम था और मल्टी-हॉप समस्याओं पर 8x बेहतर सटीकता प्राप्त करता था, जो इसकी सामान्यीकरण क्षमता को रेखांकित करता है। परिणामस्वरूप, TOOLDEC ने कुल सटीकता पर ToolkenGPT से काफी बेहतर प्रदर्शन किया।


तालिका 5: रेस्टबेंच पर परिणाम। बेसलाइन को टूल उपयोग सीखने के लिए इन-कॉन्टेक्स्ट टूल डॉक्यूमेंटेशन के साथ बहुत लंबे प्रॉम्प्ट की आवश्यकता होती है, जबकि हमारी विधि को इसकी आवश्यकता नहीं है। फिर भी, हमारी विधि में बेसलाइन की तुलना में अभी भी बहुत अधिक सही पथ अनुपात (CP%) है।


चित्र 5: KAMEL और FuncQA पर परिणाम। जैसे-जैसे अनदेखे उपकरणों की संख्या बढ़ती गई, सभी बेसलाइनों में प्रदर्शन में उल्लेखनीय गिरावट देखी गई। लेकिन TOOLDEC ने समान उच्च प्रदर्शन बनाए रखा, हालांकि इसमें केवल उपकरणों का एक छोटा सा उपसमूह (KAMEL पर 234 में से 30 और FuncQA पर 13 में से 4) देखा गया था।


अदृश्य ज्ञान ग्राफ फ़ंक्शन के लिए सामान्यीकरण। हम चित्र 5बी में KAMEL पर अपने परिणाम प्रस्तुत करते हैं। जैसे-जैसे उपलब्ध उपकरणों की संख्या बढ़ती गई, दो ICL विधियाँ संदर्भ लंबाई सीमा (हाओ एट अल., 2023) से पीड़ित हुईं और सटीकता में महत्वपूर्ण गिरावट का अनुभव किया। पहले 30 उपकरणों पर फाइन-ट्यून किए गए टूलकेनजीपीटी भी अधिक उपकरणों के लिए सामान्यीकरण करने में असमर्थ थे। प्रॉम्प्टिंग ने स्थिर कम सटीकता बनाए रखी क्योंकि यह संदर्भ उपकरण प्रलेखन पर निर्भर नहीं था। दूसरी ओर, TOOLDEC तब भी अपनी सटीकता बनाए रखने में सक्षम था जब अदृश्य उपकरणों की मात्रा 204 तक पहुँच गई थी।


अनदेखी वेब सेवाओं के लिए सामान्यीकरण। रेस्टबेंच पर परिणाम तालिका 5 में रिपोर्ट किए गए हैं। TOOLDEC ने मॉडल को इन-कॉन्टेक्स्ट डॉक्यूमेंटेशन के बिना वेब-सर्विस API का उपयोग करने में सक्षम बनाया, जिससे प्रॉम्प्ट का आकार 1974 टोकन से घटकर केवल 880 टोकन रह गया। फिर भी, TOOLDEC ने अभी भी सही पथ अनुपात (CP%) द्वारा इंगित शुद्धता के मामले में बेसलाइन से बेहतर प्रदर्शन किया, इसे 8 अंकों से बढ़ाया। ये परिणाम बताते हैं कि TOOLDEC वास्तविक दुनिया के वेब अनुप्रयोगों में इन-कॉन्टेक्स्ट लर्निंग टूल के उपयोग की सामान्यता में भी सुधार कर सकता है।


तीनों सेटिंग्स से मिले परिणाम दर्शाते हैं कि न केवल TOOLDEC अतिरिक्त प्रशिक्षण डेटा के बिना फाइन-ट्यूनिंग टूल LLM को सामान्य बनाने में मदद करता है, बल्कि यह इन-कॉन्टेक्स्ट लर्निंग टूल LLM को इन-कॉन्टेक्स्ट डॉक्यूमेंटेशन के बिना सामान्य बनाने में भी मदद करता है। TOOLDEC की यह क्षमता तीन अलग-अलग डोमेन में साबित हुई है।


यह पेपर CC 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।