2,110 रीडिंग

एआई और एमएल में "मॉडल-आधारित" और "इंस्टेंस-आधारित" सीखने के पीछे की धारणाएँ

द्वारा Sanjay Kumar9m2022/12/15

बहुत लंबा; पढ़ने के लिए

आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग की शाखाओं में "मॉडल-आधारित" और "इंस्टाग्राम-आधारित" सीखने "के बीच मूलभूत सिद्धांतों और अंतरों को स्पष्ट करने वाला एक प्रस्तावना लेख। डेटा के बारे में जानने के लिए एल्गोरिदम द्वारा उपयोग किए जाने वाले 2 अलग-अलग दृष्टिकोण हैं- 'सामान्यीकरण' और 'याद रखना' गणित के लिए अपनाए जाने वाले सीखने के पैटर्न को "सामान्यीकरण" कहा जाता है और "याद रखना" दो अलग-अलग प्रकार के सीखने के दृष्टिकोण हैं।

featured image - एआई और एमएल में "मॉडल-आधारित" और "इंस्टेंस-आधारित" सीखने के पीछे की धारणाएँ

आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग की शाखाओं में "मॉडल-आधारित" और "इंस्टेंस-आधारित" सीखने के बीच मूलभूत सिद्धांतों और अंतरों को स्पष्ट करने वाला एक प्रस्तावना लेख।

सामग्री की तालिका

परिचय
"सामान्यीकरण" और "याद" के पीछे सहज विचार
"मॉडल-आधारित" सीखने के पीछे की अवधारणा
"इंस्टेंस-आधारित" सीखने के पीछे की अवधारणा
सारांश
सन्दर्भ

परिचय

"इंस्टेंस-आधारित" और "मॉडल-आधारित" 2 अलग-अलग प्रकार के शिक्षण दृष्टिकोण हैं जिनका उपयोग विभिन्न मशीन लर्निंग एल्गोरिदम द्वारा अपने कार्य को करने के लिए किया जाता है।

हम जानते हैं कि किसी भी भविष्य कहनेवाला मॉडल का अंतिम उद्देश्य डेटा के अंदर छिपे हुए पैटर्न को सीखना और सीखे गए ज्ञान के आधार पर उचित सटीकता के साथ मूल्यों की भविष्यवाणी करना है। डेटा के बारे में जानने के लिए एल्गोरिदम द्वारा उपयोग किए जाने वाले 2 अलग-अलग दृष्टिकोण हैं-

सामान्यकरण
याद

"सामान्यीकरण" और "याद" के पीछे सहज विचार

गणितीय अवधारणाओं पर जाने से पहले आइए एक सरल कहानी देखें। जॉन और जोसेफ सबसे अच्छे दोस्त हैं जो परीक्षाओं में हमेशा अच्छे अंक प्राप्त करते हैं। उनके स्कूल में केविन नाम का एक और छात्र था। चूंकि केविन पढ़ाई में थोड़ा कमजोर है, इसलिए उसने दोनों से उसकी पढ़ाई में मदद करने का अनुरोध किया, ताकि वह भी परीक्षा में अच्छे अंक प्राप्त कर सके। जॉन और जोसेफ दोनों सहमत थे कि वे उसे विषय पढ़ाएंगे।

पहले दिन केविन जॉन के घर गणित सीखने गया। जॉन ने केविन को सभी गहन अवधारणाएँ समझाईं और उन्हें विभिन्न प्रकार की समस्याओं को हल करने के लिए विभिन्न परिदृश्यों और दृष्टिकोणों के बारे में सिखाया। उन्होंने केविन को कई नमूना समस्याओं को हल करने के लिए प्रशिक्षित किया और उन्हें परीक्षा में समान सामग्री और वेटेज वाले विषयों और प्रश्नों को समझने में मदद की। केविन बहुत आत्मविश्वासी और खुश महसूस कर रहे थे। साथ ही, उन्होंने जॉन को धन्यवाद दिया और अपने घर से निकल गए।

ट्रा गुयेन द्वारा फोटो

दूसरे दिन केविन जोसफ के घर विज्ञान सीखने गया। जोसेफ ने उससे पूछा कि क्या वह इस विषय पर सभी गहन अवधारणाओं और सिद्धांतों को समझना चाहता है या यदि वह केवल उन प्रश्नों की सूची चाहता है जो प्रश्न पत्र पर दिखाई देंगे क्योंकि सभी महत्वपूर्ण प्रश्नों को याद करने से अच्छे अंक प्राप्त करना संभव है। यहां तक कि प्रत्येक उत्तर के पीछे की अवधारणा को समझे बिना। केविन आंतरिक रूप से एक आलसी लड़का था। इसलिए, उन्होंने कहा कि वह अवधारणाओं को सीखने में प्रयास नहीं करना चाहते हैं और उन्हें केवल महत्वपूर्ण प्रश्नों की सूची की आवश्यकता है ताकि वह उन उत्तरों को याद कर सकें। जोसफ ने 50 महत्वपूर्ण प्रश्नों और उत्तरों की एक सूची दी और संपूर्ण सामग्री को कंठस्थ करने को कहा।

दिमित्री रतुश्नी द्वारा फोटो

अंत में, परीक्षा के दिन आ गए। पहली परीक्षा गणित की थी। प्रश्न पत्र में बहुत कठिन प्रश्न थे लेकिन केविन की वैचारिक समझ अच्छी थी जो उन्होंने जॉन से सीखी। उन्होंने लगभग सभी समस्याओं को हल किया और उन्हें 90% अंक प्राप्त करने का विश्वास था।

दूसरी परीक्षा विज्ञान की थी। जब केविन को प्रश्नपत्र मिला, तो वह हैरान रह गया क्योंकि अधिकांश प्रश्न प्रश्नों और उत्तरों की सूची से थे जिन्हें उसने पहले ही याद कर लिया था। उसने सभी उत्तरों को याद किया और उन्हें बड़े करीने से लिखा। अत: विज्ञान में भी उन्हें 90% अंक प्राप्त करने का पूरा विश्वास था। भले ही उन्होंने अवधारणात्मक रूप से कुछ भी नहीं किया, उन्होंने वह सब कुछ लिखा जो उन्होंने याद किया और अपने उद्देश्य को प्राप्त किया।

अनस्प्लैश पर ग्रीन गिरगिट द्वारा फोटो

गणित के लिए अपनाए जाने वाले सीखने के पैटर्न को "सामान्यीकरण" कहा जाता है और विज्ञान के लिए अपनाए जाने वाले सीखने के पैटर्न को "याद रखना" कहा जाता है। उम्मीद है आपको कहानी पसंद आई होगी। अब हम मशीन लर्निंग स्पष्टीकरण पर जा सकते हैं।

"मॉडल-आधारित" सीखने के पीछे की अवधारणा

सामान्यीकरण में, मॉडल हमेशा आंतरिक पैटर्न, व्यवहार और समस्या की समग्र अवधारणा के बारे में जानने का प्रयास करते हैं।

उदाहरण के लिए,

हम सभी "रैखिक प्रतिगमन" के सूत्र को जानते हैं। इसे इस प्रकार प्रदर्शित किया जाता है-

Y = m1x1 + m2x2 +... mnxn + c

कहाँ पे,

Y = निर्भर चर
x1,x2 ..xn स्वतंत्र चर हैं
m1, m2 ...mn संबंधित स्वतंत्र चरों के ढलान हैं।
c अवरोधन है

मान लीजिए कि हमने एक रेखीय प्रतिगमन मॉडल विकसित किया है जो किसी व्यक्ति की उम्र, ऊंचाई और माता-पिता की ऊंचाई के आधार पर उसके वजन का अनुमान लगा सकता है। मॉडल का गणितीय प्रतिनिधित्व इस प्रकार होगा-

वजन = 0.3*(ऊंचाई) + 0.2*(आयु) + 0.4*(पिता की ऊंचाई) + 0.1*(मां की ऊंचाई) + 2

यहां, 0.3, 0.2, 0.4 और 0.1 ढलानों के मान हैं जो हमने एक व्यापक हाइपरपैरामीटर ट्यूनिंग प्रक्रिया के बाद प्राप्त किए हैं। इसी तरह, 2 प्रतिगमन तल के लिए अवरोधन का मान है।

दृश्‍य निरूपण कुछ इस तरह दिखाई देगा-

लेखक द्वारा चित्रित छवि

यहां, प्रत्येक सुविधा एक आयाम होगी और डेटा बिंदुओं को इस बहुआयामी स्थान में प्रक्षेपित किया जाएगा। इस प्रक्रिया के बाद, हम एक प्रतिगमन विमान प्राप्त करेंगे जो इन आयामों से गुजर सकता है। एक विशेष "ऊंचाई", "उम्र", "पिता की ऊंचाई" और "मां की ऊंचाई" के लिए अनुमानित मूल्य (वजन) कुछ भी नहीं है, लेकिन इस प्रतिगमन विमान का मूल्य फीचर आयामों के अक्ष निर्देशांक के अनुरूप है।

एक अन्य पहलू में, इस मॉडल ने आयु, ऊंचाई, आदि जैसे चरों के बीच रैखिक संबंध को समझने की कोशिश की, और एक काल्पनिक हाइपरप्लेन प्राप्त किया जो इस स्थान में कई प्राकृतिक डिजाइन संरचनाओं जैसे रैखिकता, समरूपता, स्वतःसंबंध के आधार पर अनुमानित मूल्य का संकेत दे सकता है। , आदि।

मॉडल हाइपरप्लेन को सामान्यीकृत तरीके से बनाने की कोशिश करेगा जैसे कि भविष्यवाणी में समग्र त्रुटि कम होगी यानी डेटा बिंदुओं और प्रतिगमन विमान के बीच की दूरी यथासंभव कम होगी। एमएल प्रशिक्षण गतिविधि के एक भाग के रूप में अंतरिक्ष में विभिन्न पैटर्न खोजने के लिए डेटा के बारे में सीखने के कारण यह इस सामान्यीकृत हाइपरप्लेन को प्राप्त करने में सक्षम था।

आइए "समर्थन वेक्टर मशीन" नामक एक अन्य एल्गोरिदम के साथ एक और उदाहरण देखें।

सपोर्ट वेक्टर मशीन एक पर्यवेक्षित मशीन लर्निंग एल्गोरिथम है जिसका उपयोग लोकप्रिय रूप से लेबल किए गए डेटा बिंदुओं की श्रेणी की भविष्यवाणी करने के लिए किया जाता है।

उदाहरण के लिए-

भविष्यवाणी करना कि कोई व्यक्ति पुरुष है या महिला
भविष्यवाणी करना कि फल सेब है या संतरा
यह भविष्यवाणी करना कि कोई छात्र परीक्षा में उत्तीर्ण होगा या अनुत्तीर्ण होगा आदि।

एसवीएम एक काल्पनिक विमान का उपयोग करता है जो अपने भविष्यवाणी उद्देश्य के लिए कई आयामों में यात्रा कर सकता है। ये काल्पनिक विमान जो कई आयामों में यात्रा कर सकते हैं, हाइपरप्लेन कहलाते हैं। मानव मस्तिष्क का उपयोग करके उच्च आयामों की कल्पना करना बहुत कठिन है क्योंकि हमारा मस्तिष्क स्वाभाविक रूप से केवल 3 आयामों तक की कल्पना करने में सक्षम है।

आइए इस परिदृश्य को समझने के लिए एक सरल उदाहरण लेते हैं।

हमारे पास यह भविष्यवाणी करने के लिए एक वर्गीकरण समस्या है कि कोई छात्र परीक्षा में उत्तीर्ण होगा या अनुत्तीर्ण। हमारे पास स्वतंत्र चर के रूप में निम्नलिखित विशेषताएं हैं-

आंतरिक परीक्षा में अंक
परियोजनाओं में अंक
उपस्थिति प्रतिशत

तो, ये 3 स्वतंत्र चर इस तरह एक स्थान के 3 आयाम बन जाते हैं-

लेखक द्वारा चित्रित छवि

आइए विचार करें कि हमारे डेटा बिंदु इस तरह दिखते हैं-

हरा रंग उन छात्रों का प्रतिनिधित्व करता है जिन्होंने परीक्षा उत्तीर्ण की है
लाल रंग उन छात्रों का प्रतिनिधित्व करता है जो परीक्षा में अनुत्तीर्ण हो गए

लेखक द्वारा सचित्र छवि

अब, एसवीएम एक हाइपरप्लेन बनाएगा जो अनुत्तीर्ण और उत्तीर्ण छात्रों के बीच अंतर करने के लिए इन 3 आयामों के माध्यम से यात्रा करेगा-

लेखक द्वारा चित्रित छवि

तो, तकनीकी रूप से अब मॉडल समझता है कि हाइपरप्लेन के एक तरफ गिरने वाले प्रत्येक डेटा बिंदु उन छात्रों के हैं जिन्होंने परीक्षा उत्तीर्ण की है और इसके विपरीत। जैसा कि हमने रैखिक प्रतिगमन में देखा, एसवीएम हाइपरप्लेन भी जटिल हाइपरपैरामीटर ट्यूनिंग के अंतिम परिणाम के रूप में बनाया गया है और एमएल मॉडल द्वारा इसकी प्रशिक्षण गतिविधि के एक भाग के रूप में किया गया है।

क्या आपको उपर्युक्त 2 एल्गोरिदम के सीखने के दृष्टिकोण में कोई समानता मिलती है?

उन दोनों ने पूरे स्थान की प्रकृति, डेटा बिंदुओं के बीच छिपे हुए पैटर्न और त्रुटियों को कम करने के लिए विभिन्न अनुकूलन तकनीकों के बारे में जानने की कोशिश की, जिससे समस्या को हल करने के लिए एक सामान्यीकृत गणितीय कार्य प्राप्त हुआ। इस दृष्टिकोण को "मॉडल-आधारित शिक्षा" कहा जाता है।

भविष्यवाणी के उद्देश्यों के लिए सामान्यीकरण प्रक्रिया का पालन करने वाले मॉडलों के सीखने के दृष्टिकोण को मॉडल-आधारित शिक्षा कहा जाता है।

"इंस्टेंस-आधारित" सीखने के पीछे की अवधारणा

अब दूसरे उदाहरण पर आते हैं जहां हमें "K निकटतम पड़ोसी" एल्गोरिथम लागू करने की आवश्यकता है।

हम उसी परिदृश्य पर विचार कर सकते हैं जिसे हमने एसवीएम उदाहरण के लिए मान लिया था। यहाँ भी, हमें यह अनुमान लगाने की आवश्यकता है कि कोई छात्र परीक्षा में उत्तीर्ण होगा या अनुत्तीर्ण। हमारा डेटा इस तरह दिखता है-

लेखक द्वारा सचित्र छवि

अब, केएनएन एल्गोरिदम के अनुसार, हमें "के" (पड़ोसियों की संख्या) के लिए एक मान तय करना चाहिए और प्रत्येक गैर-लेबल डेटा बिंदुओं के लिए 'के' निकटतम पड़ोसियों की श्रेणी नोट करनी चाहिए। लेबल न किए गए डेटा बिंदु के लिए अनुमानित मान वह वर्ग होगा जिसमें "के" निकटतम पड़ोसियों के बीच बहुसंख्यक भागीदारी है।

मान लें कि हमने K = 3 का मान निर्दिष्ट किया है। इसके अलावा, डेटा बिंदु "ए", "बी", और "सी" बिना लेबल वाले डेटा बिंदु हैं, जिसके लिए हमें इस मॉडल का उपयोग करके कक्षा की भविष्यवाणी करने की आवश्यकता है।

लेखक द्वारा चित्रित छवि

डेटा बिंदु "ए" के लिए, सभी 3 पड़ोसी "लाल" हैं। इसलिए हम भविष्यवाणी कर सकते हैं कि यह छात्र शायद परीक्षा में अनुत्तीर्ण हो जाएगा।
डेटा बिंदु "बी" के लिए, 3 पड़ोसियों में से 2 "लाल" हैं और 1 पड़ोसी "हरा" है। अधिकांश "के" निकटतम पड़ोसी "विफल" वर्ग से संबंधित हैं। इसलिए हम भविष्यवाणी कर सकते हैं कि यह छात्र शायद परीक्षा में अनुत्तीर्ण हो जाएगा। यदि 3 पड़ोसियों में से कम से कम 2 "हरे" थे, तो हमने अनुमान लगाया होगा कि यह छात्र परीक्षा उत्तीर्ण करेगा क्योंकि बहुमत उस मामले में "उत्तीर्ण" वर्ग का समर्थन करेगा।
डेटा बिंदु "सी" के लिए, सभी 3 पड़ोसी "हरे" हैं। इसलिए हम अनुमान लगा सकते हैं कि यह छात्र शायद परीक्षा पास कर लेगा।

क्या आपने केएनएन की कार्यप्रणाली और पहले उल्लिखित अन्य 2 एल्गोरिदम के बीच कोई महत्वपूर्ण अंतर देखा?

वास्तव में, केएनएन किसी भी प्रशिक्षण प्रक्रिया से नहीं गुज़रा। यह अंतरिक्ष के बारे में डेटा बिंदुओं या गणितीय धारणाओं के बीच के पैटर्न के बारे में नहीं सीख पाया या इसने स्वतंत्र चर और आश्रित चर को मैप करने के लिए किसी भी गणितीय कार्य को प्राप्त करने का प्रयास नहीं किया। एकमात्र चर जिसे एक शोधकर्ता को सावधानीपूर्वक अनुकूलित करने की आवश्यकता होती है, वह है "K" का मान। यह सिर्फ अपने पड़ोसियों के बीच बहुसंख्यक वर्ग को चुनने की प्रक्रिया को याद कर रहा है और इसे अनुमानित मूल्य के रूप में दावा कर रहा है। यह किसी भी गणितीय कार्य के एक भाग के रूप में किसी सामान्यीकरण तकनीक का उपयोग नहीं करता है। इसके बजाय, केवल मतदान के सिद्धांत को याद करें और उस कार्य को हर गैर-सूचीबद्ध डेटा बिंदु के लिए दोहराएं। इस प्रक्रिया को "याद रखना" कहा जाता है।

मॉडल के सीखने के दृष्टिकोण जो भविष्यवाणी के उद्देश्यों के लिए याद रखने की प्रक्रिया का पालन करते हैं, उन्हें उदाहरण-आधारित शिक्षा कहा जाता है।

सारांश

मॉडल-आधारित शिक्षण डेटा बिंदुओं के बीच छिपे हुए पैटर्न की खोज की प्रक्रिया पर ध्यान केंद्रित करता है, जिससे संपूर्ण डेटासेट के प्रशिक्षण के माध्यम से मापदंडों का अनुकूलन होता है। उदाहरण-आधारित शिक्षण संपूर्ण डेटासेट को प्रशिक्षित नहीं करता है। इसके बजाय, यह केवल शोधकर्ता द्वारा कॉन्फ़िगर किए गए कुछ सरल नियमों का पालन करके किसी विशेष लेबल रहित डेटा बिंदु के लिए भविष्यवाणी करता है।

मॉडल-आधारित शिक्षा में, हम सिस्टम से प्रशिक्षण डेटा को हटा सकते हैं क्योंकि मॉडल ने पहले ही उस डेटासेट से सभी पैटर्न सीख लिए हैं। हालाँकि, उदाहरण-आधारित शिक्षा में, प्रशिक्षण डेटा को रखा जाना चाहिए क्योंकि यह मॉडल भविष्यवाणी उद्देश्यों के लिए प्रशिक्षण नमूनों के पूर्ण या भाग के लेबल का उपयोग करता है।

मॉडल-आधारित शिक्षा में, भविष्यवाणी एक तेज़ प्रक्रिया होगी। हालाँकि, उदाहरण-आधारित शिक्षा में, भविष्यवाणी तुलनात्मक रूप से धीमी होगी क्योंकि इसमें इनपुट मानों को जल्दी से पारित करने और आउटपुट प्राप्त करने के लिए कोई गणितीय कार्य नहीं मिला है। इसके बजाय, इसे विभिन्न प्रशिक्षण नमूनों के साथ तुलना करके प्रत्येक गैर-लेबल डेटा बिंदुओं के लिए तुलना और नियम-आधारित निर्णय लेने में कुछ समय बिताने की आवश्यकता है। दूसरे शब्दों में, ये मॉडल प्रसंस्करण में देरी करते हैं जब तक कि एक नया उदाहरण वर्गीकृत नहीं किया जाना चाहिए। इसी कारण इन्हें आलसी शिक्षार्थी भी कहा जाता है।

उदाहरण-आधारित शिक्षार्थियों को अप्रासंगिक सुविधाएँ प्रदान करके आसानी से मूर्ख बनाया जा सकता है। हालाँकि, मॉडल-आधारित शिक्षा में, मॉडल को विभिन्न विशेषताओं के महत्व के बारे में पता चल जाएगा क्योंकि वे विभिन्न अनुकूलन तकनीकों से गुजर रहे हैं।

उदाहरण-आधारित शिक्षार्थी शोर वाले डेटा को संभालने में अच्छे हैं और वे कोई जानकारी नहीं खोते हैं। हालाँकि, मॉडल-आधारित शिक्षार्थी शोर वाले डेटा बिंदुओं को अच्छी तरह से प्रबंधित नहीं कर सकते हैं। इस चुनौती का मुकाबला करने के लिए पूर्व मॉडलिंग चरण में आउटलेयर और विसंगतियों को आमतौर पर डेटासेट से हटा दिया जाता है। लेकिन यह ध्यान दिया जाना चाहिए कि, आउटलेयर के उन्मूलन के परिणामस्वरूप डेटासेट की समग्र विशेषताओं के बारे में कुछ जानकारी का नुकसान हो सकता है जो मॉडल की भविष्य कहनेवाला क्षमता को प्रभावित कर सकता है।

सन्दर्भ

वाल्टर डेलेमैन्स ; एंटल वैन डेन बॉश (2005)। मेमोरी-आधारित भाषा प्रसंस्करण। कैम्ब्रिज यूनिवर्सिटी प्रेस।
रसेल, स्टुअर्ट जे .; नॉर्विग, पीटर (2003), आर्टिफिशियल इंटेलिजेंस: ए मॉडर्न अप्रोच (दूसरा संस्करण), अपर सैडल रिवर, न्यू जर्सी: प्रेंटिस हॉल, पी। 260, आईएसबीएन 0-13-790395-2
डी रान्डेल विल्सन; टोनी आर मार्टिनेज (2000)। "उदाहरण-आधारित शिक्षण एल्गोरिदम के लिए कमी तकनीक"। मशीन लर्निंग ।
न्यूटन एस. ली (1990)। "एक कम्प्यूटेशनल प्रतिमान जो विशेषज्ञ प्रणालियों में नियम-आधारित और मॉडल-आधारित तर्क को एकीकृत करता है"। इंटरनेशनल जर्नल ऑफ इंटेलिजेंट सिस्टम्स। विले। 5 (2): 135-151। डीओआई : 10.1002/इंट.4550050202 ।