कृत्रिम बुद्धिमत्ता के लिए गणितीय तर्क लंबे समय से एक चुनौतीपूर्ण सीमा रही है। जबकि GPT-3 और ChatGPT जैसे भाषा मॉडल ने कई भाषा कार्यों पर प्रभावशाली प्रदर्शन हासिल किया है, फिर भी वे जटिल विश्वविद्यालय-स्तरीय गणित समस्याओं को सटीक रूप से हल करने के लिए संघर्ष करते हैं। परिष्कृत गणितीय तर्क क्षमताओं में महारत हासिल करने से विज्ञान, इंजीनियरिंग, वित्त और अन्य जैसे विभिन्न क्षेत्रों में एआई अनुप्रयोगों को अनलॉक किया जा सकता है।
हाल ही में, सिंघुआ विश्वविद्यालय और माइक्रोसॉफ्ट के शोधकर्ताओं ने बड़े भाषा मॉडल के गणितीय तर्क कौशल को मजबूत करने में महत्वपूर्ण प्रगति की है। उनका प्रमुख तकनीकी नवाचार (
आइए देखें कि यह कैसे काम करता है!
संख्यात्मक गणना और बुनियादी बीजगणित जैसे कार्यों को मौजूदा मॉडलों द्वारा यथोचित रूप से अच्छी तरह से संभाला जा सकता है। हालाँकि, बहु-चरणीय अनुमान, प्रतीकात्मक जोड़-तोड़ और अमूर्त अवधारणाओं से युक्त जटिल गणितीय समस्या-समाधान समस्याग्रस्त बना हुआ है।
उदाहरण के लिए, मॉडल अक्सर बीजगणित की शब्द समस्याओं को हल करने में विफल होते हैं जिनके लिए चर की पहचान करने, समीकरणों की प्रणाली स्थापित करने और पाठ में मौखिक रूप से वर्णित संबंधों को गणितीय रूप से औपचारिक बनाने की आवश्यकता होती है। स्थानिक तर्क कौशल की आवश्यकता के कारण ज्यामिति चुनौतियाँ पेश करती है। हाई स्कूल और विश्वविद्यालय के गणित अभ्यास भी प्रमाण, इंटीग्रल्स, मैट्रिक्स और अन्य जैसी अवधारणाओं को पेश करते हैं जो मौजूदा भाषा मॉडल को भ्रमित करते हैं।
शोधकर्ता इन कठिनाइयों का श्रेय दो मुख्य कारकों को देते हैं:
अमूर्त तर्क क्षमताओं का अभाव : भाषा मॉडल आज मुख्य रूप से इंटरनेट टेक्स्ट कॉर्पोरा पर प्रशिक्षित किए जाते हैं। हालाँकि यह भाषाई कौशल सिखाता है, लेकिन यह गणितीय तर्क के लिए आवश्यक संरचित ज्ञान और तर्क प्रदान नहीं करता है।
प्रतीकात्मक गणना करने में असमर्थता : भाषा में गणितीय प्रतीकों में हेरफेर करने के लिए आवश्यक कठोरता और सटीकता का अभाव है। मॉडल प्रत्येक चरण में छोटी-छोटी त्रुटियाँ कर सकते हैं जो बहु-चरणीय समस्याओं के कारण एकत्रित हो जाती हैं।
इन चुनौतियों का समाधान करने के लिए, शोधकर्ता भाषा मॉडल को एक ऐसे प्रारूप में तर्क करना सिखाने का प्रस्ताव करते हैं जिसे वे टूल-इंटीग्रेटेड रीजनिंग कहते हैं। मुख्य नवाचार बाहरी गणितीय उपकरणों को लागू करने के लिए मॉडल द्वारा उत्पन्न प्राकृतिक भाषा तर्कों को कोड के साथ जोड़ना है।
उदाहरण के लिए, एक जटिल बीजगणित शब्द समस्या को देखते हुए, मॉडल पहले शब्दों में दृष्टिकोण का वर्णन कर सकता है, फिर समीकरणों की प्रणाली को प्रतीकात्मक रूप से स्थापित करने के लिए सिम्पी का उपयोग करके एक पायथन प्रोग्राम लिख सकता है, समाधान प्राप्त करने के लिए इसे निष्पादित कर सकता है, और अंत में परिणाम को मौखिक रूप से समझा सकता है।
यह गणितीय उपकरणों की सटीकता और कम्प्यूटेशनल शक्ति के साथ उच्च-स्तरीय तर्क और योजना में भाषा मॉडल की ताकत को पूरक करता है। उनका अनुमान है कि इससे अर्थ संबंधी समझ और प्रतीकात्मक हेरफेर दोनों की आवश्यकता वाली समस्याओं को हल करने की मॉडल की क्षमता में काफी वृद्धि हो सकती है।
इस दृष्टिकोण को साकार करने के लिए, शोधकर्ताओं को सबसे पहले गणित की समस्याओं पर उपकरण-एकीकृत तर्क प्रदर्शित करने वाला एक डेटासेट बनाना था। उन्होंने GPT-3 की क्षमताओं का लाभ उठाते हुए SymPy जैसे उपकरणों के साथ बातचीत करते हुए GSM8k और MATH डेटासेट से समस्याओं को हल करने के लिए स्वचालित रूप से GPT-3 के 16,000 उदाहरण तैयार किए।
टूल इंटरेक्शन प्रक्षेप पथ के इस संग्रह के साथ, टीम ने अनुकरण शिक्षण का उपयोग करके एलएलएएमए मॉडल के पूर्व-प्रशिक्षित संस्करण बनाए। अर्थात्, मॉडलों को उपकरण के उपयोग के व्यवहार की भविष्यवाणी करने और डेटासेट में प्रदर्शित प्राकृतिक भाषा के तर्कों को समझने के लिए प्रशिक्षित किया गया था।
इस दृष्टिकोण ने 7 बिलियन से 70 बिलियन मापदंडों तक टी ओओएल-एकीकृत ओ पेन-सोर्स आर ईज़निंग ए जेंट्स (टीओआरए) की एक श्रृंखला का उत्पादन किया।
शोधकर्ताओं ने 10 विविध गणितीय तर्क डेटासेट पर TORA मॉडल का व्यवस्थित रूप से मूल्यांकन किया और प्रदर्शन की तुलना पूर्व की अत्याधुनिक तकनीकों से की।
परिणाम दर्शाते हैं कि उपकरण-एकीकृत तर्क प्रशिक्षण मॉडल आकार और कार्यों में पर्याप्त लाभ देता है:
TORA मॉडल ने सर्वोत्तम मौजूदा ओपन-सोर्स मॉडल की तुलना में औसतन 13-19% अधिक सटीकता हासिल की।
एक चुनौतीपूर्ण प्रतिस्पर्धा-स्तरीय गणित परीक्षण (MATH डेटासेट) पर, TORA-7B ने 40% सटीकता हासिल की, और पिछले सर्वश्रेष्ठ मॉडल को 22 प्रतिशत अंकों से हराया।
TORA-34B ने MATH पर 51% सटीकता प्राप्त की, समान समस्याओं पर GPT-4 के 43% के प्रदर्शन को पीछे छोड़ दिया।
इससे पता चलता है कि बाहरी उपकरणों का लाभ उठाना सीखना गणितीय तर्क में GPT-4 जैसे बहुत बड़े मॉडल को भी उल्लेखनीय रूप से बढ़ा सकता है।
दिलचस्प बात यह है कि अंकगणित, बीजगणित, कलन, ज्यामिति, संभाव्यता आदि में फैली विभिन्न समस्या प्रकारों में सुधार लगातार थे। उपकरण एकीकरण व्यापक लाभ प्रदान करता प्रतीत होता है।
मॉडल व्यवहार को बेहतर ढंग से समझने के लिए, शोधकर्ताओं ने गणितीय डोमेन में उपकरण उपयोग पैटर्न का व्यवस्थित रूप से विश्लेषण किया:
उन्होंने प्राकृतिक भाषा के औचित्य या उपकरण एकीकरण को हटाकर एब्लेशन का भी मूल्यांकन किया:
ये अंतर्दृष्टि भाषाई और प्रतीकात्मक तर्क दोनों की पूरक शक्तियों पर प्रकाश डालती हैं।
उपकरण एकीकरण से लाभ के बावजूद, सुधार की महत्वपूर्ण गुंजाइश बनी हुई है। शोधकर्ताओं ने ज्यामिति और उन्नत बीजगणित को ऐसे क्षेत्रों के रूप में पहचाना जहां मॉडल अभी भी संघर्ष कर रहे हैं।
ज्यामिति एक चुनौती है क्योंकि सिम्पी जैसे मौजूदा उपकरणों में स्थानिक तर्क के लिए सीमित क्षमताएं हैं। मल्टी-मोडल रीजनिंग में प्रगति और ग्राफ़िकल लाइब्रेरीज़ के साथ सख्त एकीकरण से मदद मिल सकती है।
अमूर्त बीजगणित के लिए, मानव गणितज्ञों द्वारा उपयोग की जाने वाली तकनीकों जैसे ज्ञात प्रमेयों का लाभ उठाना और समस्याओं को परिणाम से पीछे की ओर काम करना आवश्यक हो सकता है। संभवतः मजबूत प्रतीकात्मक तर्क क्षमताओं की भी आवश्यकता है।
कुल मिलाकर, यह शोध आशाजनक साक्ष्य प्रदान करता है कि विशेष बाहरी उपकरणों के साथ भाषा मॉडल की शक्तियों के संयोजन से गणितीय तर्क में उल्लेखनीय सुधार हो सकता है। हालाँकि, विभिन्न तर्क पद्धतियों और उच्च-स्तरीय गणितीय समस्या-समाधान रणनीतियों को कुशलतापूर्वक एकीकृत करना एक खुली समस्या बनी हुई है। ये भविष्य के कार्य के लिए महत्वपूर्ण दिशा-निर्देश हैं।
यहां प्रस्तुत उपकरण-एकीकृत प्रशिक्षण प्रतिमान तर्क, सामान्य ज्ञान तर्क और कला जैसे विषयों में तर्क को बढ़ाने के लिए बाहरी क्षमताओं को एकीकृत करने की जांच को भी प्रेरित कर सकता है। यह अधिक सक्षम और बहुमुखी एआई सिस्टम की दिशा में एक महत्वपूर्ण कदम हो सकता है।