AI शब्द "स्ट्रॉबेरी" में "R" की संख्या क्यों नहीं गिन सकता?
बड़े भाषा मॉडल, खास तौर पर OpenAI के ChatGPT ने उन मशीनों के साथ बातचीत करने के तरीके में क्रांति ला दी जो मानव जैसा टेक्स्ट समझती थीं और बना सकती थीं। लेकिन अपने आप में, ये मॉडल अपने अजीबोगरीब चरित्रों के साथ आए। हाल ही में सोशल मीडिया पर सबसे ज़्यादा परेशान करने वाली अजीबोगरीब बात यह रही है कि यह बड़ा भाषा मॉडल किसी शब्द में किसी खास अक्षर की संख्या को सही ढंग से गिनने में विफल रहा है। इसका एक बहुत ही लोकप्रिय उदाहरण "स्ट्रॉबेरी" शब्द है, जिसमें AI अक्सर यह गिनने में विफल रहता है कि "r" कितनी बार आया है। लेकिन यह ऐसा क्यों करता है? इसका जवाब इस बात के मूल में छिपा है कि ये मॉडल भाषा को कैसे प्रोसेस और जेनरेट करते हैं।
अक्षरों की गिनती जैसे सवालों पर एआई के अटकने का एक मुख्य कारण यह है कि यह वास्तव में शब्दों को जिस तरह से संसाधित करता है। GPT-3 और GPT-4 जैसे भाषा मॉडल शब्दों को अलग-अलग अक्षरों के अनुक्रम के रूप में नहीं मानते हैं। इसके बजाय, वे टेक्स्ट को "टोकन" नामक छोटी इकाइयों में तोड़ देते हैं। टोकन एक अक्षर जितना छोटा या एक पूरे शब्द जितना लंबा हो सकता है, यह प्रश्न में मॉडल के डिजाइन और शामिल विशेष शब्द पर निर्भर करता है।
उदाहरण के लिए, शब्द "स्ट्रॉबेरी" को संभवतः दो टोकन में विभाजित किया जाएगा, आंशिक शब्द अंशों का प्रतिनिधित्व जो मॉडल प्रशिक्षण से जानता है। बात यह है कि ये आमतौर पर शब्द के अक्षरों के अनुरूप नहीं होते हैं। ऐसा इसलिए है, क्योंकि "स्ट्रॉबेरी" जैसे उदाहरणों में, AI शब्द के पूर्ण, एकल अक्षरों में विभाजन को नहीं बल्कि दो टोकन को देख सकता है; जैसे टोकन आईडी 496 और 675। जब, बाद में, इसे विशेष अक्षरों की गिनती करने के लिए कहा जाता है, तो यह मॉडल टोकन को किसी विशेष अक्षर की घटनाओं की संख्या में मैप करने का आसान तरीका नहीं खोज पाएगा।
मूल रूप से, भाषा मॉडल भविष्यवाणी करते हैं कि अनुक्रम में अगला शब्द या टोकन क्या होगा, जो पिछले शब्दों या टोकन द्वारा दिए गए संदर्भ पर आधारित है। यह विशेष रूप से ऐसे पाठ को उत्पन्न करने के लिए काम करता है जो न केवल सुसंगत है बल्कि अपने संदर्भ से भी अवगत है। हालाँकि, यह वास्तव में उन उद्देश्यों के लिए उपयुक्त नहीं है जिनके लिए आपको किसी चीज़ को सटीक रूप से गिनने या अलग-अलग वर्णों के बारे में तर्क करने की आवश्यकता होती है।
यदि आप AI से "स्ट्रॉबेरी" शब्द में अक्षर "r" की घटनाओं की संख्या गिनने के लिए कहें, तो उसके पास उस शब्द का इतना बढ़िया प्रतिनिधित्व नहीं होगा जिससे उस अक्षर के हर उदाहरण की संख्या और स्थिति निकाली जा सके। इसके बजाय, यह अनुरोध की संरचना से पूर्वानुमान बनाने के बारे में जो कुछ भी सीखा है, उसके अनुसार उत्तर देता है। बेशक, यह गलत हो सकता है, क्योंकि जिस डेटा से उसने सीखा है वह अक्षरों की गिनती के बारे में नहीं है, और इसमें हमारे उदाहरण शब्द में "r" का पता लगाने के लिए आवश्यक सामग्री भी शामिल नहीं हो सकती है।
एक और महत्वपूर्ण बात यह है कि अधिकांश चैटबॉट में इस्तेमाल किए जाने वाले भाषा मॉडल स्पष्ट गिनती या अंकगणित के लिए अनुपयुक्त हैं। दूसरे तरीके से, शुद्ध भाषा मॉडल उन्नत शब्दकोशों या भविष्य कहनेवाला पाठ एल्गोरिदम से थोड़ा अधिक हैं जो सीखे गए पैटर्न के आधार पर संभाव्यता के साथ भारित कार्य करते हैं लेकिन उन कार्यों के साथ संघर्ष करते हैं जिनके लिए सख्त तार्किक तर्क की आवश्यकता होती है, जैसे गिनती। यदि AI को किसी शब्द को स्पेलिंग करने या इसे अलग-अलग अक्षरों में तोड़ने के लिए कहा जाता है, तो यह इसे अधिक बार सही कर सकता है, क्योंकि यह उस कार्य के अनुरूप है जिस पर इसे प्रशिक्षित किया गया है: पाठ निर्माण।
इन सीमाओं के बावजूद, ऐसे कार्यों में AI के प्रदर्शन में सुधार संभव है। AI को गिनती करने के लिए सभी प्रकार की प्रोग्रामिंग भाषाओं, जैसे कि पायथन, का उपयोग करने के लिए कहकर उन्हें बेहतर बनाया जा सकता है। उदाहरण के लिए, आप AI को एक पायथन फ़ंक्शन लिखने का निर्देश देने का प्रयास कर सकते हैं जो "स्ट्रॉबेरी" में "आर" की संख्या की गणना करता है, और संभवतः यह सही होगा। हम इस दृष्टिकोण का उपयोग करते हैं क्योंकि यह AI की कोड को समझने और उत्पन्न करने की क्षमता का लाभ उठाता है, जिसे कार्य को सही ढंग से करने के लिए निष्पादित किया जा सकता है।
इसके अलावा, भाषा मॉडल की अधिक नवीनतम पीढ़ियों को अन्य उपकरणों और एल्गोरिदम के साथ संयोजित किया गया है, जो इन मॉडलों को अधिक संरचित कार्यों के लिए अधिक शक्तिशाली बनाते हैं, जिनमें गिनती और अंकगणित भी शामिल हैं।
प्रतीकात्मक तर्क को शामिल करने या एलएलएम को बाह्य तर्क इंजनों के साथ संयोजित करने से एआई प्रणाली उन कमियों पर काबू पाने में सक्षम हो जाएगी।
शब्दों में अक्षर गिनने की समस्या, जैसे "स्ट्रॉबेरी", इस संबंध में एक बहुत बड़े और अधिक सामान्य मुद्दे की ओर इशारा करती है: इन प्रशिक्षित मॉडलों की "सामूहिक मूर्खता"। ये मॉडल, भले ही उन्हें बहुत बड़े डेटासेट पर प्रशिक्षित किया गया हो और इस प्रकार वे बहुत परिष्कृत स्तरों पर पाठ निर्माण कर सकते हैं, फिर भी कभी-कभी बहुत मूर्खतापूर्ण गलतियाँ करेंगे जिन्हें एक छोटा बच्चा आसानी से टाल सकता है। ऐसा इसलिए होता है क्योंकि मॉडल का "ज्ञान" पैटर्न पहचान और सांख्यिकीय संघों से बना होना चाहिए, न कि इसकी वास्तविक दुनिया की समझ या तार्किक अनुमान से।
यहां तक कि जब विस्तार से निर्देश दिए जाते हैं या यहां तक कि ऐसी स्थिति में सेट किया जाता है जहां कई मॉडल एक-दूसरे की जांच करते हैं, तब भी AI हठपूर्वक गलत उत्तरों पर अड़ा रह सकता है। यह व्यवहार बहुत विस्तार से दिखाता है कि AI सिस्टम की क्षमताओं को उनकी मजबूत विशेषताओं से परे अधिक महत्व नहीं देना कितना महत्वपूर्ण है, बल्कि यह पूरी तरह से समझना है कि वे क्या कर सकते हैं और क्या नहीं।
"स्ट्रॉबेरी" में "आर" की संख्या गिनने में एआई की अक्षमता एक मामूली दोष से कहीं अधिक है; बल्कि, यह भाषा मॉडल की अंतर्निहित वास्तुकला और डिजाइन दर्शन का प्रतिबिंब है। ये मॉडल मानव जैसा पाठ बनाने, संदर्भ को समझने और बातचीत का अनुकरण करने में बहुत शक्तिशाली हैं, लेकिन सीधे उन कार्यों के लिए नहीं बनाए गए हैं जिनमें विशेष रूप से चरित्र स्तर पर विवरण पर ध्यान देने की आवश्यकता होती है।
एआई में लगातार सुधार के साथ, भविष्य के मॉडल टोकनाइजेशन की बेहतर प्रक्रियाओं, अतिरिक्त तर्क उपकरणों को एकीकृत करने, या यहां तक कि भाषा को समझने और उसमें हेरफेर करने के पूरी तरह से अलग तरीकों के माध्यम से ऐसे कार्यों के लिए अधिक सक्षम होने की संभावना है। तब तक, इसे इसकी सीमाओं की समझ के साथ, उचित वर्कअराउंड का उपयोग करके और यह पहचानते हुए देखा जाना चाहिए कि यह समझ का अनुकरण तो कर सकता है, लेकिन यह अभी तक मनुष्यों की तरह वास्तव में "समझ" नहीं पाता है।