लेखक:  (1) निकोलस फ़ार्न, माइक्रोसॉफ्ट कॉर्पोरेशन {माइक्रोसॉफ्ट कॉर्पोरेशन {nifarn@microsoft.com};  (2) रिचर्ड शिन, माइक्रोसॉफ्ट कॉर्पोरेशन {eush@microsoft.com}.  लिंक की तालिका   सार और परिचय   डेटासेट डिज़ाइन   मूल्यांकन पद्धति   प्रयोग और विश्लेषण   संबंधित कार्य   निष्कर्ष, पुनरुत्पादनशीलता, और संदर्भ   A. उपकरणों की पूरी सूची   बी. परिदृश्य संकेत   C. अवास्तविक प्रश्न   D. पूर्व कार्य की तुलना में बारीकियाँ  अमूर्त  बड़े भाषा मॉडल (LLM) ने तर्क और निर्णय लेने के कौशल में बड़े पैमाने पर सुधार प्रदर्शित किए हैं और उपयोगकर्ताओं के साथ स्वाभाविक बातचीत कर सकते हैं। कई हालिया कार्य बाहरी उपकरणों के साथ LLM-आधारित सहायकों को बढ़ाने का प्रयास करते हैं ताकि वे निजी या अद्यतित जानकारी तक पहुँच सकें और उपयोगकर्ताओं की ओर से कार्रवाई कर सकें। इन सहायकों के प्रदर्शन को बेहतर ढंग से मापने के लिए, यह पेपर ToolTalk का परिचय देता है, जो एक बेंचमार्क है जिसमें जटिल उपयोगकर्ता इरादे शामिल हैं जिन्हें संवाद के माध्यम से निर्दिष्ट बहु-चरणीय उपकरण उपयोग की आवश्यकता होती है। ToolTalk में 7 प्लगइन्स में समूहीकृत 28 उपकरण शामिल हैं, और इसमें प्रत्येक उपकरण का पूर्ण सिम्युलेटेड कार्यान्वयन शामिल है, जो निष्पादन प्रतिक्रिया पर निर्भर सहायकों के पूरी तरह से स्वचालित मूल्यांकन की अनुमति देता है। ToolTalk उन उपकरणों पर भी जोर देता है जो केवल संदर्भ या जानकारी खोजने के लिए उपकरणों के बजाय दुनिया को बाहरी रूप से प्रभावित करते हैं। हमने ToolTalk पर GPT-3.5 और GPT-4 का मूल्यांकन किया, जिसके परिणामस्वरूप क्रमशः 26% और 50% की सफलता दर मिली। त्रुटियों के हमारे विश्लेषण से तीन प्रमुख श्रेणियां सामने आईं और सुधार के लिए कुछ भविष्य की दिशाएँ सुझाई गईं।  हम ToolTalk को https://github.com/microsoft/ToolTalk पर जारी करते हैं।  1 परिचय  बड़े भाषा मॉडल (एलएलएम) प्राकृतिक भाषा को समझने, उत्पन्न करने और पाठ में हेरफेर करने से जुड़े अन्य कार्यों में प्रभावशाली कार्य कर सकते हैं। प्रीट्रेनिंग के बाद उचित समायोजन के साथ, वे उपयोगकर्ताओं के साथ धाराप्रवाह और स्वाभाविक बातचीत कर सकते हैं। हालाँकि, इस तरह की बातचीत का दायरा अभी भी सीमित है क्योंकि एलएलएम के पास अपने प्रशिक्षण डेटा के बाहर ज्ञान तक पहुँच की कमी है, सीमित गणितीय तर्क और कम्प्यूटेशनल क्षमताएँ प्रदर्शित करते हैं, और अन्यथा बाहरी दुनिया के साथ बातचीत करने में असमर्थ हैं।  इन सीमाओं को दूर करने के लिए, विभिन्न पूर्व कार्यों ने LLM-संचालित चैटबॉट को सर्च इंजन (नाकानो एट अल., 2022), कैलकुलेटर या वेब API (मियालोन एट अल., 2023) जैसे उपकरणों का उपयोग करने की क्षमता के साथ एकीकृत करने का प्रस्ताव दिया है। उपकरण उपयोग में सार्थक प्रगति करने के लिए प्रासंगिक बेंचमार्क और मूल्यांकन डेटासेट की आवश्यकता होती है जो यथार्थवादी और चुनौतीपूर्ण बातचीत के साथ इन प्रणालियों का पूरी तरह से उपयोग कर सकते हैं। इस पेपर में, हम इस लक्ष्य की ओर एक कदम के रूप में टूलटॉक का परिचय देते हैं। टूलटॉक में 178 कुल मोड़ों के साथ 78 वार्तालाप शामिल हैं, जो 7 श्रेणियों में समूहीकृत 28 अद्वितीय उपकरणों का उपयोग करते हैं, साथ ही सटीक उपकरण उपयोग को मापने के लिए एक मूल्यांकन पद्धति भी है।  टूलटॉक के हमारे डिजाइन में कई बातों पर विचार किया गया है ताकि उपयोगकर्ता द्वारा LLM-आधारित सहायक के साथ की जाने वाली सामान्य बातचीत को सर्वोत्तम तरीके से अनुकरण किया जा सके। सबसे पहले, हम यह सुनिश्चित करना चाहते थे कि टूलटॉक संवादात्मक हो, और एक ही इरादे के लिए उपयोगकर्ता और सहायक के बीच संवाद के कई दौर की अनुमति देता हो; यह दर्शाता है कि उपयोगकर्ता हमेशा अपने पूरे अनुरोध को एक ही कथन में तैयार नहीं करना चाहते हैं और सहायक से कुछ प्रतिक्रिया प्राप्त करने के बाद अतिरिक्त योग्यताएँ जोड़ सकते हैं या सुधार जारी कर सकते हैं। यह हमें उपयोगकर्ता के इरादों को शामिल करने की अनुमति देता है, जिसके लिए अस्वाभाविक रूप से लंबे कथनों के बिना टूल इनवोकेशन की एक जटिल श्रृंखला की आवश्यकता होती है। दूसरा, हम टूल कॉल का एक ग्राउंड-ट्रुथ सेट शामिल करते हैं, जिसे प्रत्येक उपयोगकर्ता कथन के लिए बनाया जाना चाहिए था, जो एक सहायक द्वारा पूर्वानुमानित टूल कॉल के विरुद्ध तुलना करने के लिए एक स्वचालित मूल्यांकन में उपयोग के लिए उपयुक्त है। तीसरा, टूलटॉक में डेटासेट में शामिल प्रत्येक टूल के निष्पादन योग्य कार्यान्वयन शामिल हैं, ताकि सहायकों के मूल्यांकन को सुविधाजनक बनाया जा सके जो पिछले टूल इनवोकेशन के परिणामों पर विचार कर सकते हैं ताकि यह तय किया जा सके कि अगला कौन सा करना है। चौथा, टूलटॉक में साइड इफ़ेक्ट (जैसे ईमेल भेजना, या कैलेंडर ईवेंट जोड़ना/हटाना) के लिए बनाए गए टूल शामिल हैं, जिन्हें हम "एक्शन टूल" कहते हैं, न कि केवल डेटाबेस क्वेरीज़ (जैसे किसी विशेष कीवर्ड वाले ईमेल की खोज करना)। यदि सहायक को उपयोगकर्ता के कार्यों को स्वचालित करना है तो ऐसे एक्शन टूल आवश्यक हैं।  हम अपने मूल्यांकन पद्धति को अपने डेटासेट डिज़ाइन के विवरण के अनुसार ढालते हैं, जो सटीक-मिलान सटीकता जैसे सामान्य मीट्रिक से परे है। विशेष रूप से, हम अलग-अलग क्रिया और गैर-क्रिया उपकरणों के आह्वान पर विचार करते हैं, यह देखते हुए कि क्रिया उपकरणों के गलत आह्वान, जैसे कि गलत व्यक्ति को संदेश भेजना, उपयोगकर्ता के लिए विशेष रूप से नकारात्मक प्रभाव डाल सकता है। दूसरी ओर, यदि सहायक सही गैर-क्रिया उपकरण आह्वान और कुछ गलत बाहरी आह्वान दोनों करता है, तो बाहरी आह्वान अभी भी उपयोगकर्ता को उपयोगी जानकारी प्रदान कर सकते हैं (भले ही यह वह न हो जो उपयोगकर्ता ने सीधे अनुरोध किया हो)। इस प्रकार, हम एक ही वार्तालाप मोड़ के भीतर प्राथमिक मीट्रिक के रूप में उपकरण आह्वान रिकॉल और गलत क्रिया दर का उपयोग करते हैं, और सफलता की वार्तालाप-स्तरीय धारणा को परिभाषित करते हैं।  हमने GPT-3.5 और GPT-4 मॉडल के साथ OpenAI के चैट कंप्लीशन API के फ़ंक्शन कॉलिंग समर्थन का उपयोग करके कार्यान्वित किए गए दो सहायकों पर ToolTalk लागू किया। हमने पाया कि gpt-3.5-turbo-0613 और gpt-4-0613 क्रमशः 26% और 50% की वार्तालाप-स्तर की सफलता दर प्राप्त करते हैं, यह दर्शाता है कि वार्तालाप सेटिंग में टूल का उपयोग अभी भी कुछ सबसे अत्याधुनिक मॉडलों के लिए एक कठिन कार्य है। फिर हम GPT-3.5 और GPT-4 वार्तालापों में विफल होने के कारणों को निर्धारित करने के लिए आगे के विश्लेषण करते हैं। हम पाते हैं कि GPT-3.5 और GPT-4 दोनों तर्कों को भ्रमित कर सकते हैं, दस्तावेज़ीकरण को समझने में विफल हो सकते हैं, और यहां तक कि किसी भी उपकरण को कॉल किए बिना किसी कार्य को पूरा करने का दावा भी कर सकते हैं।  हमारा पेपर निम्नलिखित योगदान देता है:  • हम उपकरण का उपयोग करने वाले एलएलएम-संचालित सहायकों के लिए एक संवादात्मक डेटासेट प्रस्तुत करते हैं, जिसमें उपकरणों की एक विस्तृत श्रृंखला और उपकरण आह्वान के लिए ग्राउंड ट्रुथ एनोटेशन के साथ उदाहरण वार्तालाप शामिल हैं जो स्वचालित मूल्यांकन की अनुमति देते हैं।  • हम यह सुनिश्चित करते हैं कि डेटासेट में बहु-टर्न वार्तालाप शामिल हों, जिसके लिए कई उपकरणों के उपयोग की आवश्यकता होती है, जिसमें साइड इफेक्ट वाले उपकरण भी शामिल हैं, ताकि यह बेहतर ढंग से अनुकरण किया जा सके कि उपयोगकर्ता उपकरण का उपयोग करने वाले सहायक के साथ कैसे बातचीत कर सकते हैं।  • हम एक मूल्यांकन पद्धति विकसित करते हैं जो दुष्प्रभाव वाले औजारों और बिना दुष्प्रभाव वाले औजारों के बीच अंतर को दर्शाती है।  • हम अपने डेटासेट का उपयोग करके GPT-3.5 और GPT-4 का उपयोग करके बनाए गए सहायकों का मूल्यांकन करते हैं और उनकी त्रुटियों का विश्लेषण करते हैं, जिसमें भ्रामक तर्क और गलत समझे गए दस्तावेज़ जैसे मुद्दे मिलते हैं।  यह पेपर CC 4.0 लाइसेंस के अंतर्गत   है। arxiv पर उपलब्ध

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Read My Stories

BotBeat is an AI Research Goldmine - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

BotBeat's Blog

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

टूलटॉक: टूल-उपयोग करने वाले AI सहायकों के भविष्य की बेंचमार्किंग

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

AI की शक्ति को उन्मुक्त करना। अत्याधुनिक तकनीकों की एक व्यवस्थित समीक्षा: सार और परिचय

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

AI की शक्ति को उन्मुक्त करना। अत्याधुनिक तकनीकों की एक व्यवस्थित समीक्षा: सार और परिचय

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps