लेखक:  (1) केक्सुन झांग, यूसी सांता बारबरा और समान योगदान;  (2) हांगकियाओ चेन, नॉर्थवुड हाई स्कूल और समान योगदान;  (3) लेई ली, कार्नेगी मेलन विश्वविद्यालय;  (4) विलियम यांग वांग, यूसी सांता बारबरा।  लिंक की तालिका   सार और परिचय   संबंधित कार्य   ToolDec: परिमित-स्थिति डिकोडिंग के माध्यम से LLM टूल का उपयोग   प्रयोग: ToolDec वाक्यविन्यास त्रुटियों को समाप्त करता है   प्रयोग: ToolDec सामान्यीकृत उपकरण चयन को सक्षम करता है   निष्कर्ष और संदर्भ   अनुबंध  4. प्रयोग I: TOOLDEC वाक्यविन्यास त्रुटियों को समाप्त करता है  इस खंड में, हम दिखाते हैं कि टूल कॉल जेनरेट करते समय TOOLDEC वाक्यविन्यास त्रुटियों को समाप्त कर सकता है। हमने TOOLDEC की क्षमता को प्रदर्शित करने के लिए दो हालिया बेसलाइन, ToolLLM और ToolkenGPT का चयन किया है, जो संदर्भ-आधारित शिक्षण और फ़ाइन-ट्यूनिंग प्रतिमान का प्रतिनिधित्व करते हैं। चूँकि दो बेसलाइन के लिए टूल-उपयोग सेटिंग्स अलग-अलग हैं और उन्हें एक-दूसरे पर लागू नहीं किया जा सकता है, इसलिए हम मूल पेपर से बेंचमार्क का उपयोग करके दो बेसलाइन के लिए अलग-अलग TOOLDEC के प्रदर्शन का परीक्षण करते हैं। व्यापक प्रयोगों के माध्यम से, हम दिखाते हैं कि TOOLDEC वाक्यविन्यास त्रुटियों को पूरी तरह से समाप्त कर सकता है, जिसके परिणामस्वरूप बेहतर सटीकता और कम अनुमान समय प्राप्त होता है।  4.1 आधार रेखाएं और बेंचमार्क    टूलएलएलएम टूल-संवर्धित भाषा मॉडल के लिए एक संदर्भ-आधारित शिक्षण दृष्टिकोण है। यह टूल का उपयोग करने के लिए एक निर्देश-संचालित LLaMA-7B मॉडल (टूवरन एट अल., 2023) का उपयोग करता है। टूल-निर्भर कार्य के प्राकृतिक भाषा निर्देश को देखते हुए, एक API पुनर्प्राप्तिकर्ता पहले प्रासंगिक फ़ंक्शन का एक छोटा सा उपसमूह पुनर्प्राप्त करता है। इन प्रासंगिक फ़ंक्शन का पाठ्य विवरण और स्कीमा संदर्भ में उपलब्ध कराया जाता है। फिर, टूलएलएलएम अंतिम उत्तर देने के लिए फ़ंक्शन का उपयोग करके एक बहु-चरणीय तर्क प्रक्रिया से गुजरता है। टूलएलएलएम (किन एट अल., 2023)।  ToolLLM का मूल्यांकन   उसी पेपर में प्रस्तावित एक डेटासेट है। ToolEval में ऐसे कार्य शामिल हैं जिनमें सार्वजनिक रूप से उपलब्ध REST APIs का एक विशाल सेट (10,000+) शामिल है। हम अपने तरीके का मूल्यांकन करने के लिए ToolEval के सबसे कठिन उपसमूहों का उपयोग करते हैं—I2-श्रेणी और I3-निर्देश। उनमें ऐसे कार्य होते हैं जिन्हें हल करने के लिए कई श्रेणियों (जैसे भौगोलिक स्थान, दिनांक/समय और अन्य) से जटिल और अनदेखे टूल की आवश्यकता होती है। औसतन, एक I2-श्रेणी कार्य के लिए 6.76 टूल की आवश्यकता होती है और एक I3-श्रेणी कार्य के लिए 8.24 टूल की आवश्यकता होती है। ToolEval के दो मुख्य मेट्रिक्स हैं:   उन कार्यों का प्रतिशत मापता है जिनके लिए मॉडल एक निश्चित मात्रा में तर्क चरणों के भीतर उत्तर तक पहुंचता है।   एक बेहतर पथ के लिए मानदंडों के पूर्व-निर्धारित सेट का पालन (2023) ने पाया कि स्वचालित मूल्यांकनकर्ता का मानव एनोटेटर्स के साथ 75.8% का उच्च सहसंबंध है। इन दो मेट्रिक्स के अलावा, हम   भी मापते हैं, जो उन कार्यों का अनुपात है जिनमें कम से कम एक टूल-संबंधी त्रुटि होती है। ToolEval पर किया जाता है, जो पास रेट विन रेट टूल एरर रेट को    ToolkenGPT टूल के उपयोग के लिए एक फाइन-ट्यूनिंग दृष्टिकोण है। ToolkenGPT प्रत्येक टूल को एक विशेष टोकन के रूप में दर्शाता है और टूल के उपयोग के लिए केवल टूल टोकन के एम्बेडिंग को अनुकूलित करता है। अनुमान के दौरान, ToolkenGPT एक टूल को आमंत्रित करता है जब संबंधित विशेष टोकन की भविष्यवाणी की जाती है। टूल कॉल के दौरान, यह इन-कॉन्टेक्स्ट डेमो से सीखकर तर्कों को पास करता है। ToolkenGPT अपने बेस मॉडल के रूप में LLaMA-33B (Touvron et al., 2023) का उपयोग करता है।  ToolkenGPT (हाओ एट अल., 2023)।  4.2 टूलडेक को आधार मॉडल के साथ एकीकृत करना    किन एट अल. (2023) के अनुसार, हम ToolLLM के टूल कॉल की योजना बनाने के लिए ReAct (याओ एट अल., 2023) का उपयोग करते हैं। यह सेक्शन 3.2 में मोड स्विचिंग के दूसरे मामले के अनुरूप है। ToolLLM के लिए FSM में तीन भाग हैं। सबसे पहले, एक प्रारूप FSM जो ReAct के "विचार, क्रिया, क्रिया इनपुट" सिंटैक्स को लागू करता है। "क्रिया:" को डिकोड करने के बाद, यह FSM फ़ंक्शन नाम FSM की शुरुआती स्थिति में संक्रमण करता है, जो गारंटी देता है कि डिकोड किया गया फ़ंक्शन नाम हमेशा मान्य होता है। हमने JSON-आधारित फ़ंक्शन तर्क FSM का भी निर्माण किया। हमने LLM को 5 चरणों के लिए तर्क करने की अनुमति दी, इससे पहले कि इसे "पास" माना जाने के लिए फ़िनिश एक्शन को कॉल करना चाहिए। ToolLLM+TOOLDEC.    चूँकि ToolkenGPT टूल को कॉल करने के लिए विशेष टोकन का उपयोग करता है, TOOLDEC को केवल तर्कों के सिंटैक्स की गारंटी देने के लिए लागू किया जाता है। इस प्रयोग में, हमारा FSM गारंटी देता है कि प्रत्येक तर्क एक वैध संख्या है, और तर्क अल्पविराम से अलग किए गए हैं। यह भी गारंटी देता है कि किसी फ़ंक्शन को दिए गए तर्कों की वास्तविक संख्या ठीक वैसी ही है जितनी उसे ज़रूरत है। हमने TOOLDEC की तुलना Hao et al. (2023) में बेसलाइन के दो प्रकारों से की, एक बैकट्रेस के साथ और एक बिना। बैकट्रेस विफल टूल कॉल से बचने की कोशिश करता है, जिससे LLM को वापस जाने और विफल टूल कॉल के स्थान पर अगले संभावित टोकन को आज़माने की अनुमति मिलती है। TOOLDEC का मूल्यांकन करने के लिए, हम सटीकता के अलावा प्रति समस्या औसत अनुमान समय और टूल त्रुटि दर की रिपोर्ट करते हैं। ToolkenGPT+TOOLDEC.  4.3 प्रायोगिक परिणाम    तालिका 3 ToolEval पर TOOLDEC के प्रदर्शन को दर्शाती है। TOOLDEC ने I2-श्रेणी पर 55% जीत दर और I3-निर्देश पर 60% जीत दर हासिल की। मूल डिकोडिंग एल्गोरिदम के ड्रॉप-इन प्रतिस्थापन के रूप में, TOOLDEC ने सभी तीन प्रकार की टूल-संबंधित त्रुटियों को समाप्त कर दिया और सबसे अच्छी जीत दर और पास दर हासिल की, यहाँ तक कि ChatGPT को भी पीछे छोड़ दिया। TOOLDEC इन-कॉन्टेक्स्ट लर्निंग टूल LLM को बेहतर बनाता है।  बेसलाइन की उच्च टूल त्रुटि दर से पता चलता है कि निर्देश फ़ाइनट्यूनिंग के बाद भी, ToolLLM में टूल डॉक्यूमेंटेशन से बाहरी टूल को सटीक रूप से लागू करने की क्षमता का अभाव है। यह अक्षमता तब और अधिक उजागर होती है जब I3-निर्देश में कई तरह के टूल उपलब्ध होते हैं। इसके अलावा, इन त्रुटियों ने मॉडल की कार्यों को पूरा करने की क्षमता को महत्वपूर्ण रूप से प्रभावित किया।   हम चित्र 4 में दो बेंचमार्क पर प्रत्येक त्रुटि प्रकार की त्रुटि दर प्रस्तुत करते हैं। ToolLLMs के लिए, नाम त्रुटि, यानी एक गैर-मौजूद टूल को कॉल करना, टूल कॉल में सबसे आम वाक्यविन्यास त्रुटि थी। TOOLDEC ने तीनों त्रुटियों को पूरी तरह से समाप्त कर दिया।   फ़ंक्शन नाम भ्रम सबसे प्रचलित उपकरण-संबंधी त्रुटि होने के कारण, प्रत्यय द्वारा फ़ज़ी मिलान के साथ इसे कम करना थोड़ा बेहतर आधार रेखा थी। हम फ़ज़ी मिलान के साथ आधार रेखा के परिणामों को ToolLLM + फ़ज़ी मिलान के रूप में और बिना ToolLLM के रूप में प्रस्तुत करते हैं। इस शमन ने पास दर में वृद्धि की, लेकिन जीत दर पर इसका बहुत कम प्रभाव पड़ा, जैसा कि तालिका 3 में स्पष्ट है, क्योंकि गलत API अक्सर तब चुने जा सकते थे जब कोई मॉडल अपने इच्छित उपकरण को ठीक से कॉल करने में असमर्थ था। कुल मिलाकर, ToolLLM पर हमारे प्रयोग प्रदर्शित करते हैं कि TOOLDEC इन-कॉन्टेक्स्ट लर्निंग LLM पर अत्यधिक प्रभावी है। अगली आधार रेखा, ToolkenGPT के माध्यम से, हम दिखाते हैं कि TOOLDEC फाइन-ट्यून्ड टूल LLM के लिए भी फायदेमंद है।    तालिका 4 में FuncQAmulti पर परिणाम दिखाए गए हैं। हालाँकि ToolkenGPT एक विशेष टोकन एम्बेडिंग को ठीक करके गैर-मौजूद टूल नामों को कॉल करने की संभावना को समाप्त करता है, फिर भी यह अन्य वाक्यविन्यास त्रुटियों से ग्रस्त हो सकता है, जिसे 27.9% टूल त्रुटि दर द्वारा प्रदर्शित किया जाता है। ड्रॉप-इन प्रतिस्थापन के रूप में, TOOLDEC ने अनुमान में बहुत तेज़ होने के साथ-साथ ToolkenGPT की सटीकता को बढ़ाया। हालाँकि ToolkenGPT + बैकट्रेस ने TOOLDEC की तुलना में थोड़ी बेहतर सटीकता हासिल की, लेकिन इसने विभिन्न टूल आज़माने के लिए 2x अधिक समय का उपयोग किया। ध्यान दें कि चूंकि TOOLDEC ने सभी टूल त्रुटियों को समाप्त कर दिया था, इसलिए बैकट्रेस को पुनः प्रयास करने के लिए कोई विफल टूल कॉल नहीं था। परिणाम टूल-संबंधी त्रुटियों की प्रासंगिकता और TOOLDEC की हाल ही में इन-कॉन्टेक्स्ट लर्निंग और टूल-संवर्धित LLM को ठीक करने दोनों के लिए प्रयोज्यता को रेखांकित करते हैं। TOOLDEC ने टूल LLM को बेहतर बनाया है।  यह पेपर CC 4.0 DEED लाइसेंस के अंतर्गत   है। arxiv पर उपलब्ध

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

इन 18 डेवलपर टूल के साथ अपनी उत्पादकता बढ़ाएँ 🚀🔥

AI की शक्ति को उन्मुक्त करना। अत्याधुनिक तकनीकों की एक व्यवस्थित समीक्षा: सार और परिचय

टेलीग्राम: क्रिप्टो द्वीप का मुख्य भूमि से पुल

क्रिप्टो ग्रोथ: प्रभावी उपयोगकर्ता व्यक्तित्व बनाना

इन 18 डेवलपर टूल के साथ अपनी उत्पादकता बढ़ाएँ 🚀🔥

AI की शक्ति को उन्मुक्त करना। अत्याधुनिक तकनीकों की एक व्यवस्थित समीक्षा: सार और परिचय

टेलीग्राम: क्रिप्टो द्वीप का मुख्य भूमि से पुल

क्रिप्टो ग्रोथ: प्रभावी उपयोगकर्ता व्यक्तित्व बनाना

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps