आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग की शाखाओं में "मॉडल-आधारित" और "इंस्टेंस-आधारित" सीखने के बीच मूलभूत सिद्धांतों और अंतरों को स्पष्ट करने वाला एक प्रस्तावना लेख।
"इंस्टेंस-आधारित" और "मॉडल-आधारित" 2 अलग-अलग प्रकार के शिक्षण दृष्टिकोण हैं जिनका उपयोग विभिन्न मशीन लर्निंग एल्गोरिदम द्वारा अपने कार्य को करने के लिए किया जाता है।
हम जानते हैं कि किसी भी भविष्य कहनेवाला मॉडल का अंतिम उद्देश्य डेटा के अंदर छिपे हुए पैटर्न को सीखना और सीखे गए ज्ञान के आधार पर उचित सटीकता के साथ मूल्यों की भविष्यवाणी करना है। डेटा के बारे में जानने के लिए एल्गोरिदम द्वारा उपयोग किए जाने वाले 2 अलग-अलग दृष्टिकोण हैं-
गणितीय अवधारणाओं पर जाने से पहले आइए एक सरल कहानी देखें। जॉन और जोसेफ सबसे अच्छे दोस्त हैं जो परीक्षाओं में हमेशा अच्छे अंक प्राप्त करते हैं। उनके स्कूल में केविन नाम का एक और छात्र था। चूंकि केविन पढ़ाई में थोड़ा कमजोर है, इसलिए उसने दोनों से उसकी पढ़ाई में मदद करने का अनुरोध किया, ताकि वह भी परीक्षा में अच्छे अंक प्राप्त कर सके। जॉन और जोसेफ दोनों सहमत थे कि वे उसे विषय पढ़ाएंगे।
पहले दिन केविन जॉन के घर गणित सीखने गया। जॉन ने केविन को सभी गहन अवधारणाएँ समझाईं और उन्हें विभिन्न प्रकार की समस्याओं को हल करने के लिए विभिन्न परिदृश्यों और दृष्टिकोणों के बारे में सिखाया। उन्होंने केविन को कई नमूना समस्याओं को हल करने के लिए प्रशिक्षित किया और उन्हें परीक्षा में समान सामग्री और वेटेज वाले विषयों और प्रश्नों को समझने में मदद की। केविन बहुत आत्मविश्वासी और खुश महसूस कर रहे थे। साथ ही, उन्होंने जॉन को धन्यवाद दिया और अपने घर से निकल गए।
ट्रा गुयेन द्वारा फोटो
दूसरे दिन केविन जोसफ के घर विज्ञान सीखने गया। जोसेफ ने उससे पूछा कि क्या वह इस विषय पर सभी गहन अवधारणाओं और सिद्धांतों को समझना चाहता है या यदि वह केवल उन प्रश्नों की सूची चाहता है जो प्रश्न पत्र पर दिखाई देंगे क्योंकि सभी महत्वपूर्ण प्रश्नों को याद करने से अच्छे अंक प्राप्त करना संभव है। यहां तक कि प्रत्येक उत्तर के पीछे की अवधारणा को समझे बिना। केविन आंतरिक रूप से एक आलसी लड़का था। इसलिए, उन्होंने कहा कि वह अवधारणाओं को सीखने में प्रयास नहीं करना चाहते हैं और उन्हें केवल महत्वपूर्ण प्रश्नों की सूची की आवश्यकता है ताकि वह उन उत्तरों को याद कर सकें। जोसफ ने 50 महत्वपूर्ण प्रश्नों और उत्तरों की एक सूची दी और संपूर्ण सामग्री को कंठस्थ करने को कहा।
दिमित्री रतुश्नी द्वारा फोटो
अंत में, परीक्षा के दिन आ गए। पहली परीक्षा गणित की थी। प्रश्न पत्र में बहुत कठिन प्रश्न थे लेकिन केविन की वैचारिक समझ अच्छी थी जो उन्होंने जॉन से सीखी। उन्होंने लगभग सभी समस्याओं को हल किया और उन्हें 90% अंक प्राप्त करने का विश्वास था।
दूसरी परीक्षा विज्ञान की थी। जब केविन को प्रश्नपत्र मिला, तो वह हैरान रह गया क्योंकि अधिकांश प्रश्न प्रश्नों और उत्तरों की सूची से थे जिन्हें उसने पहले ही याद कर लिया था। उसने सभी उत्तरों को याद किया और उन्हें बड़े करीने से लिखा। अत: विज्ञान में भी उन्हें 90% अंक प्राप्त करने का पूरा विश्वास था। भले ही उन्होंने अवधारणात्मक रूप से कुछ भी नहीं किया, उन्होंने वह सब कुछ लिखा जो उन्होंने याद किया और अपने उद्देश्य को प्राप्त किया।
अनस्प्लैश पर ग्रीन गिरगिट द्वारा फोटो
गणित के लिए अपनाए जाने वाले सीखने के पैटर्न को "सामान्यीकरण" कहा जाता है और विज्ञान के लिए अपनाए जाने वाले सीखने के पैटर्न को "याद रखना" कहा जाता है। उम्मीद है आपको कहानी पसंद आई होगी। अब हम मशीन लर्निंग स्पष्टीकरण पर जा सकते हैं।
सामान्यीकरण में, मॉडल हमेशा आंतरिक पैटर्न, व्यवहार और समस्या की समग्र अवधारणा के बारे में जानने का प्रयास करते हैं।
उदाहरण के लिए,
हम सभी "रैखिक प्रतिगमन" के सूत्र को जानते हैं। इसे इस प्रकार प्रदर्शित किया जाता है-
Y = m1x1 + m2x2 +... mnxn + c
कहाँ पे,
मान लीजिए कि हमने एक रेखीय प्रतिगमन मॉडल विकसित किया है जो किसी व्यक्ति की उम्र, ऊंचाई और माता-पिता की ऊंचाई के आधार पर उसके वजन का अनुमान लगा सकता है। मॉडल का गणितीय प्रतिनिधित्व इस प्रकार होगा-
वजन = 0.3*(ऊंचाई) + 0.2*(आयु) + 0.4*(पिता की ऊंचाई) + 0.1*(मां की ऊंचाई) + 2
यहां, 0.3, 0.2, 0.4 और 0.1 ढलानों के मान हैं जो हमने एक व्यापक हाइपरपैरामीटर ट्यूनिंग प्रक्रिया के बाद प्राप्त किए हैं। इसी तरह, 2 प्रतिगमन तल के लिए अवरोधन का मान है।
दृश्य निरूपण कुछ इस तरह दिखाई देगा-
लेखक द्वारा चित्रित छवि
यहां, प्रत्येक सुविधा एक आयाम होगी और डेटा बिंदुओं को इस बहुआयामी स्थान में प्रक्षेपित किया जाएगा। इस प्रक्रिया के बाद, हम एक प्रतिगमन विमान प्राप्त करेंगे जो इन आयामों से गुजर सकता है। एक विशेष "ऊंचाई", "उम्र", "पिता की ऊंचाई" और "मां की ऊंचाई" के लिए अनुमानित मूल्य (वजन) कुछ भी नहीं है, लेकिन इस प्रतिगमन विमान का मूल्य फीचर आयामों के अक्ष निर्देशांक के अनुरूप है।
एक अन्य पहलू में, इस मॉडल ने आयु, ऊंचाई, आदि जैसे चरों के बीच रैखिक संबंध को समझने की कोशिश की, और एक काल्पनिक हाइपरप्लेन प्राप्त किया जो इस स्थान में कई प्राकृतिक डिजाइन संरचनाओं जैसे रैखिकता, समरूपता, स्वतःसंबंध के आधार पर अनुमानित मूल्य का संकेत दे सकता है। , आदि।
मॉडल हाइपरप्लेन को सामान्यीकृत तरीके से बनाने की कोशिश करेगा जैसे कि भविष्यवाणी में समग्र त्रुटि कम होगी यानी डेटा बिंदुओं और प्रतिगमन विमान के बीच की दूरी यथासंभव कम होगी। एमएल प्रशिक्षण गतिविधि के एक भाग के रूप में अंतरिक्ष में विभिन्न पैटर्न खोजने के लिए डेटा के बारे में सीखने के कारण यह इस सामान्यीकृत हाइपरप्लेन को प्राप्त करने में सक्षम था।
आइए "समर्थन वेक्टर मशीन" नामक एक अन्य एल्गोरिदम के साथ एक और उदाहरण देखें।
सपोर्ट वेक्टर मशीन एक पर्यवेक्षित मशीन लर्निंग एल्गोरिथम है जिसका उपयोग लोकप्रिय रूप से लेबल किए गए डेटा बिंदुओं की श्रेणी की भविष्यवाणी करने के लिए किया जाता है।
उदाहरण के लिए-
एसवीएम एक काल्पनिक विमान का उपयोग करता है जो अपने भविष्यवाणी उद्देश्य के लिए कई आयामों में यात्रा कर सकता है। ये काल्पनिक विमान जो कई आयामों में यात्रा कर सकते हैं, हाइपरप्लेन कहलाते हैं। मानव मस्तिष्क का उपयोग करके उच्च आयामों की कल्पना करना बहुत कठिन है क्योंकि हमारा मस्तिष्क स्वाभाविक रूप से केवल 3 आयामों तक की कल्पना करने में सक्षम है।
आइए इस परिदृश्य को समझने के लिए एक सरल उदाहरण लेते हैं।
हमारे पास यह भविष्यवाणी करने के लिए एक वर्गीकरण समस्या है कि कोई छात्र परीक्षा में उत्तीर्ण होगा या अनुत्तीर्ण। हमारे पास स्वतंत्र चर के रूप में निम्नलिखित विशेषताएं हैं-
तो, ये 3 स्वतंत्र चर इस तरह एक स्थान के 3 आयाम बन जाते हैं-
लेखक द्वारा चित्रित छवि
आइए विचार करें कि हमारे डेटा बिंदु इस तरह दिखते हैं-
लेखक द्वारा सचित्र छवि
अब, एसवीएम एक हाइपरप्लेन बनाएगा जो अनुत्तीर्ण और उत्तीर्ण छात्रों के बीच अंतर करने के लिए इन 3 आयामों के माध्यम से यात्रा करेगा-
लेखक द्वारा चित्रित छवि
तो, तकनीकी रूप से अब मॉडल समझता है कि हाइपरप्लेन के एक तरफ गिरने वाले प्रत्येक डेटा बिंदु उन छात्रों के हैं जिन्होंने परीक्षा उत्तीर्ण की है और इसके विपरीत। जैसा कि हमने रैखिक प्रतिगमन में देखा, एसवीएम हाइपरप्लेन भी जटिल हाइपरपैरामीटर ट्यूनिंग के अंतिम परिणाम के रूप में बनाया गया है और एमएल मॉडल द्वारा इसकी प्रशिक्षण गतिविधि के एक भाग के रूप में किया गया है।
क्या आपको उपर्युक्त 2 एल्गोरिदम के सीखने के दृष्टिकोण में कोई समानता मिलती है?
उन दोनों ने पूरे स्थान की प्रकृति, डेटा बिंदुओं के बीच छिपे हुए पैटर्न और त्रुटियों को कम करने के लिए विभिन्न अनुकूलन तकनीकों के बारे में जानने की कोशिश की, जिससे समस्या को हल करने के लिए एक सामान्यीकृत गणितीय कार्य प्राप्त हुआ। इस दृष्टिकोण को "मॉडल-आधारित शिक्षा" कहा जाता है।
भविष्यवाणी के उद्देश्यों के लिए सामान्यीकरण प्रक्रिया का पालन करने वाले मॉडलों के सीखने के दृष्टिकोण को मॉडल-आधारित शिक्षा कहा जाता है।
अब दूसरे उदाहरण पर आते हैं जहां हमें "K निकटतम पड़ोसी" एल्गोरिथम लागू करने की आवश्यकता है।
हम उसी परिदृश्य पर विचार कर सकते हैं जिसे हमने एसवीएम उदाहरण के लिए मान लिया था। यहाँ भी, हमें यह अनुमान लगाने की आवश्यकता है कि कोई छात्र परीक्षा में उत्तीर्ण होगा या अनुत्तीर्ण। हमारा डेटा इस तरह दिखता है-
लेखक द्वारा सचित्र छवि
अब, केएनएन एल्गोरिदम के अनुसार, हमें "के" (पड़ोसियों की संख्या) के लिए एक मान तय करना चाहिए और प्रत्येक गैर-लेबल डेटा बिंदुओं के लिए 'के' निकटतम पड़ोसियों की श्रेणी नोट करनी चाहिए। लेबल न किए गए डेटा बिंदु के लिए अनुमानित मान वह वर्ग होगा जिसमें "के" निकटतम पड़ोसियों के बीच बहुसंख्यक भागीदारी है।
मान लें कि हमने K = 3 का मान निर्दिष्ट किया है। इसके अलावा, डेटा बिंदु "ए", "बी", और "सी" बिना लेबल वाले डेटा बिंदु हैं, जिसके लिए हमें इस मॉडल का उपयोग करके कक्षा की भविष्यवाणी करने की आवश्यकता है।
लेखक द्वारा चित्रित छवि
क्या आपने केएनएन की कार्यप्रणाली और पहले उल्लिखित अन्य 2 एल्गोरिदम के बीच कोई महत्वपूर्ण अंतर देखा?
वास्तव में, केएनएन किसी भी प्रशिक्षण प्रक्रिया से नहीं गुज़रा। यह अंतरिक्ष के बारे में डेटा बिंदुओं या गणितीय धारणाओं के बीच के पैटर्न के बारे में नहीं सीख पाया या इसने स्वतंत्र चर और आश्रित चर को मैप करने के लिए किसी भी गणितीय कार्य को प्राप्त करने का प्रयास नहीं किया। एकमात्र चर जिसे एक शोधकर्ता को सावधानीपूर्वक अनुकूलित करने की आवश्यकता होती है, वह है "K" का मान। यह सिर्फ अपने पड़ोसियों के बीच बहुसंख्यक वर्ग को चुनने की प्रक्रिया को याद कर रहा है और इसे अनुमानित मूल्य के रूप में दावा कर रहा है। यह किसी भी गणितीय कार्य के एक भाग के रूप में किसी सामान्यीकरण तकनीक का उपयोग नहीं करता है। इसके बजाय, केवल मतदान के सिद्धांत को याद करें और उस कार्य को हर गैर-सूचीबद्ध डेटा बिंदु के लिए दोहराएं। इस प्रक्रिया को "याद रखना" कहा जाता है।
मॉडल के सीखने के दृष्टिकोण जो भविष्यवाणी के उद्देश्यों के लिए याद रखने की प्रक्रिया का पालन करते हैं, उन्हें उदाहरण-आधारित शिक्षा कहा जाता है।