paint-brush
एआई और एमएल में "मॉडल-आधारित" और "इंस्टेंस-आधारित" सीखने के पीछे की धारणाएँद्वारा@sanjaykn170396
2,108 रीडिंग
2,108 रीडिंग

एआई और एमएल में "मॉडल-आधारित" और "इंस्टेंस-आधारित" सीखने के पीछे की धारणाएँ

द्वारा Sanjay Kumar9m2022/12/15
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग की शाखाओं में "मॉडल-आधारित" और "इंस्टाग्राम-आधारित" सीखने "के बीच मूलभूत सिद्धांतों और अंतरों को स्पष्ट करने वाला एक प्रस्तावना लेख। डेटा के बारे में जानने के लिए एल्गोरिदम द्वारा उपयोग किए जाने वाले 2 अलग-अलग दृष्टिकोण हैं- 'सामान्यीकरण' और 'याद रखना' गणित के लिए अपनाए जाने वाले सीखने के पैटर्न को "सामान्यीकरण" कहा जाता है और "याद रखना" दो अलग-अलग प्रकार के सीखने के दृष्टिकोण हैं।
featured image - एआई और एमएल में "मॉडल-आधारित" और "इंस्टेंस-आधारित" सीखने के पीछे की धारणाएँ
Sanjay Kumar HackerNoon profile picture
आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग की शाखाओं में "मॉडल-आधारित" और "इंस्टेंस-आधारित" सीखने के बीच मूलभूत सिद्धांतों और अंतरों को स्पष्ट करने वाला एक प्रस्तावना लेख।

सामग्री की तालिका

  • परिचय
  • "सामान्यीकरण" और "याद" के पीछे सहज विचार
  • "मॉडल-आधारित" सीखने के पीछे की अवधारणा
  • "इंस्टेंस-आधारित" सीखने के पीछे की अवधारणा
  • सारांश
  • सन्दर्भ

परिचय

"इंस्टेंस-आधारित" और "मॉडल-आधारित" 2 अलग-अलग प्रकार के शिक्षण दृष्टिकोण हैं जिनका उपयोग विभिन्न मशीन लर्निंग एल्गोरिदम द्वारा अपने कार्य को करने के लिए किया जाता है।

हम जानते हैं कि किसी भी भविष्य कहनेवाला मॉडल का अंतिम उद्देश्य डेटा के अंदर छिपे हुए पैटर्न को सीखना और सीखे गए ज्ञान के आधार पर उचित सटीकता के साथ मूल्यों की भविष्यवाणी करना है। डेटा के बारे में जानने के लिए एल्गोरिदम द्वारा उपयोग किए जाने वाले 2 अलग-अलग दृष्टिकोण हैं-

  • सामान्यकरण
  • याद

"सामान्यीकरण" और "याद" के पीछे सहज विचार

गणितीय अवधारणाओं पर जाने से पहले आइए एक सरल कहानी देखें। जॉन और जोसेफ सबसे अच्छे दोस्त हैं जो परीक्षाओं में हमेशा अच्छे अंक प्राप्त करते हैं। उनके स्कूल में केविन नाम का एक और छात्र था। चूंकि केविन पढ़ाई में थोड़ा कमजोर है, इसलिए उसने दोनों से उसकी पढ़ाई में मदद करने का अनुरोध किया, ताकि वह भी परीक्षा में अच्छे अंक प्राप्त कर सके। जॉन और जोसेफ दोनों सहमत थे कि वे उसे विषय पढ़ाएंगे।

पहले दिन केविन जॉन के घर गणित सीखने गया। जॉन ने केविन को सभी गहन अवधारणाएँ समझाईं और उन्हें विभिन्न प्रकार की समस्याओं को हल करने के लिए विभिन्न परिदृश्यों और दृष्टिकोणों के बारे में सिखाया। उन्होंने केविन को कई नमूना समस्याओं को हल करने के लिए प्रशिक्षित किया और उन्हें परीक्षा में समान सामग्री और वेटेज वाले विषयों और प्रश्नों को समझने में मदद की। केविन बहुत आत्मविश्वासी और खुश महसूस कर रहे थे। साथ ही, उन्होंने जॉन को धन्यवाद दिया और अपने घर से निकल गए।

ट्रा गुयेन द्वारा फोटो

दूसरे दिन केविन जोसफ के घर विज्ञान सीखने गया। जोसेफ ने उससे पूछा कि क्या वह इस विषय पर सभी गहन अवधारणाओं और सिद्धांतों को समझना चाहता है या यदि वह केवल उन प्रश्नों की सूची चाहता है जो प्रश्न पत्र पर दिखाई देंगे क्योंकि सभी महत्वपूर्ण प्रश्नों को याद करने से अच्छे अंक प्राप्त करना संभव है। यहां तक कि प्रत्येक उत्तर के पीछे की अवधारणा को समझे बिना। केविन आंतरिक रूप से एक आलसी लड़का था। इसलिए, उन्होंने कहा कि वह अवधारणाओं को सीखने में प्रयास नहीं करना चाहते हैं और उन्हें केवल महत्वपूर्ण प्रश्नों की सूची की आवश्यकता है ताकि वह उन उत्तरों को याद कर सकें। जोसफ ने 50 महत्वपूर्ण प्रश्नों और उत्तरों की एक सूची दी और संपूर्ण सामग्री को कंठस्थ करने को कहा।

दिमित्री रतुश्नी द्वारा फोटो

अंत में, परीक्षा के दिन आ गए। पहली परीक्षा गणित की थी। प्रश्न पत्र में बहुत कठिन प्रश्न थे लेकिन केविन की वैचारिक समझ अच्छी थी जो उन्होंने जॉन से सीखी। उन्होंने लगभग सभी समस्याओं को हल किया और उन्हें 90% अंक प्राप्त करने का विश्वास था।

दूसरी परीक्षा विज्ञान की थी। जब केविन को प्रश्नपत्र मिला, तो वह हैरान रह गया क्योंकि अधिकांश प्रश्न प्रश्नों और उत्तरों की सूची से थे जिन्हें उसने पहले ही याद कर लिया था। उसने सभी उत्तरों को याद किया और उन्हें बड़े करीने से लिखा। अत: विज्ञान में भी उन्हें 90% अंक प्राप्त करने का पूरा विश्वास था। भले ही उन्होंने अवधारणात्मक रूप से कुछ भी नहीं किया, उन्होंने वह सब कुछ लिखा जो उन्होंने याद किया और अपने उद्देश्य को प्राप्त किया।

अनस्प्लैश पर ग्रीन गिरगिट द्वारा फोटो

गणित के लिए अपनाए जाने वाले सीखने के पैटर्न को "सामान्यीकरण" कहा जाता है और विज्ञान के लिए अपनाए जाने वाले सीखने के पैटर्न को "याद रखना" कहा जाता है। उम्मीद है आपको कहानी पसंद आई होगी। अब हम मशीन लर्निंग स्पष्टीकरण पर जा सकते हैं।

"मॉडल-आधारित" सीखने के पीछे की अवधारणा

सामान्यीकरण में, मॉडल हमेशा आंतरिक पैटर्न, व्यवहार और समस्या की समग्र अवधारणा के बारे में जानने का प्रयास करते हैं।

उदाहरण के लिए,

हम सभी "रैखिक प्रतिगमन" के सूत्र को जानते हैं। इसे इस प्रकार प्रदर्शित किया जाता है-

Y = m1x1 + m2x2 +... mnxn + c

कहाँ पे,

  • Y = निर्भर चर
  • x1,x2 ..xn स्वतंत्र चर हैं
  • m1, m2 ...mn संबंधित स्वतंत्र चरों के ढलान हैं।
  • c अवरोधन है

मान लीजिए कि हमने एक रेखीय प्रतिगमन मॉडल विकसित किया है जो किसी व्यक्ति की उम्र, ऊंचाई और माता-पिता की ऊंचाई के आधार पर उसके वजन का अनुमान लगा सकता है। मॉडल का गणितीय प्रतिनिधित्व इस प्रकार होगा-

वजन = 0.3*(ऊंचाई) + 0.2*(आयु) + 0.4*(पिता की ऊंचाई) + 0.1*(मां की ऊंचाई) + 2

यहां, 0.3, 0.2, 0.4 और 0.1 ढलानों के मान हैं जो हमने एक व्यापक हाइपरपैरामीटर ट्यूनिंग प्रक्रिया के बाद प्राप्त किए हैं। इसी तरह, 2 प्रतिगमन तल के लिए अवरोधन का मान है।

दृश्‍य निरूपण कुछ इस तरह दिखाई देगा-

लेखक द्वारा चित्रित छवि

यहां, प्रत्येक सुविधा एक आयाम होगी और डेटा बिंदुओं को इस बहुआयामी स्थान में प्रक्षेपित किया जाएगा। इस प्रक्रिया के बाद, हम एक प्रतिगमन विमान प्राप्त करेंगे जो इन आयामों से गुजर सकता है। एक विशेष "ऊंचाई", "उम्र", "पिता की ऊंचाई" और "मां की ऊंचाई" के लिए अनुमानित मूल्य (वजन) कुछ भी नहीं है, लेकिन इस प्रतिगमन विमान का मूल्य फीचर आयामों के अक्ष निर्देशांक के अनुरूप है।

एक अन्य पहलू में, इस मॉडल ने आयु, ऊंचाई, आदि जैसे चरों के बीच रैखिक संबंध को समझने की कोशिश की, और एक काल्पनिक हाइपरप्लेन प्राप्त किया जो इस स्थान में कई प्राकृतिक डिजाइन संरचनाओं जैसे रैखिकता, समरूपता, स्वतःसंबंध के आधार पर अनुमानित मूल्य का संकेत दे सकता है। , आदि।

मॉडल हाइपरप्लेन को सामान्यीकृत तरीके से बनाने की कोशिश करेगा जैसे कि भविष्यवाणी में समग्र त्रुटि कम होगी यानी डेटा बिंदुओं और प्रतिगमन विमान के बीच की दूरी यथासंभव कम होगी। एमएल प्रशिक्षण गतिविधि के एक भाग के रूप में अंतरिक्ष में विभिन्न पैटर्न खोजने के लिए डेटा के बारे में सीखने के कारण यह इस सामान्यीकृत हाइपरप्लेन को प्राप्त करने में सक्षम था।

आइए "समर्थन वेक्टर मशीन" नामक एक अन्य एल्गोरिदम के साथ एक और उदाहरण देखें।

सपोर्ट वेक्टर मशीन एक पर्यवेक्षित मशीन लर्निंग एल्गोरिथम है जिसका उपयोग लोकप्रिय रूप से लेबल किए गए डेटा बिंदुओं की श्रेणी की भविष्यवाणी करने के लिए किया जाता है।

उदाहरण के लिए-

  • भविष्यवाणी करना कि कोई व्यक्ति पुरुष है या महिला
  • भविष्यवाणी करना कि फल सेब है या संतरा
  • यह भविष्यवाणी करना कि कोई छात्र परीक्षा में उत्तीर्ण होगा या अनुत्तीर्ण होगा आदि।

एसवीएम एक काल्पनिक विमान का उपयोग करता है जो अपने भविष्यवाणी उद्देश्य के लिए कई आयामों में यात्रा कर सकता है। ये काल्पनिक विमान जो कई आयामों में यात्रा कर सकते हैं, हाइपरप्लेन कहलाते हैं। मानव मस्तिष्क का उपयोग करके उच्च आयामों की कल्पना करना बहुत कठिन है क्योंकि हमारा मस्तिष्क स्वाभाविक रूप से केवल 3 आयामों तक की कल्पना करने में सक्षम है।

आइए इस परिदृश्य को समझने के लिए एक सरल उदाहरण लेते हैं।

हमारे पास यह भविष्यवाणी करने के लिए एक वर्गीकरण समस्या है कि कोई छात्र परीक्षा में उत्तीर्ण होगा या अनुत्तीर्ण। हमारे पास स्वतंत्र चर के रूप में निम्नलिखित विशेषताएं हैं-

  • आंतरिक परीक्षा में अंक
  • परियोजनाओं में अंक
  • उपस्थिति प्रतिशत

तो, ये 3 स्वतंत्र चर इस तरह एक स्थान के 3 आयाम बन जाते हैं-

लेखक द्वारा चित्रित छवि

आइए विचार करें कि हमारे डेटा बिंदु इस तरह दिखते हैं-

  • हरा रंग उन छात्रों का प्रतिनिधित्व करता है जिन्होंने परीक्षा उत्तीर्ण की है
  • लाल रंग उन छात्रों का प्रतिनिधित्व करता है जो परीक्षा में अनुत्तीर्ण हो गए

लेखक द्वारा सचित्र छवि

अब, एसवीएम एक हाइपरप्लेन बनाएगा जो अनुत्तीर्ण और उत्तीर्ण छात्रों के बीच अंतर करने के लिए इन 3 आयामों के माध्यम से यात्रा करेगा-

लेखक द्वारा चित्रित छवि

तो, तकनीकी रूप से अब मॉडल समझता है कि हाइपरप्लेन के एक तरफ गिरने वाले प्रत्येक डेटा बिंदु उन छात्रों के हैं जिन्होंने परीक्षा उत्तीर्ण की है और इसके विपरीत। जैसा कि हमने रैखिक प्रतिगमन में देखा, एसवीएम हाइपरप्लेन भी जटिल हाइपरपैरामीटर ट्यूनिंग के अंतिम परिणाम के रूप में बनाया गया है और एमएल मॉडल द्वारा इसकी प्रशिक्षण गतिविधि के एक भाग के रूप में किया गया है।

क्या आपको उपर्युक्त 2 एल्गोरिदम के सीखने के दृष्टिकोण में कोई समानता मिलती है?

उन दोनों ने पूरे स्थान की प्रकृति, डेटा बिंदुओं के बीच छिपे हुए पैटर्न और त्रुटियों को कम करने के लिए विभिन्न अनुकूलन तकनीकों के बारे में जानने की कोशिश की, जिससे समस्या को हल करने के लिए एक सामान्यीकृत गणितीय कार्य प्राप्त हुआ। इस दृष्टिकोण को "मॉडल-आधारित शिक्षा" कहा जाता है।

भविष्यवाणी के उद्देश्यों के लिए सामान्यीकरण प्रक्रिया का पालन करने वाले मॉडलों के सीखने के दृष्टिकोण को मॉडल-आधारित शिक्षा कहा जाता है।

"इंस्टेंस-आधारित" सीखने के पीछे की अवधारणा

अब दूसरे उदाहरण पर आते हैं जहां हमें "K निकटतम पड़ोसी" एल्गोरिथम लागू करने की आवश्यकता है।

हम उसी परिदृश्य पर विचार कर सकते हैं जिसे हमने एसवीएम उदाहरण के लिए मान लिया था। यहाँ भी, हमें यह अनुमान लगाने की आवश्यकता है कि कोई छात्र परीक्षा में उत्तीर्ण होगा या अनुत्तीर्ण। हमारा डेटा इस तरह दिखता है-

लेखक द्वारा सचित्र छवि

अब, केएनएन एल्गोरिदम के अनुसार, हमें "के" (पड़ोसियों की संख्या) के लिए एक मान तय करना चाहिए और प्रत्येक गैर-लेबल डेटा बिंदुओं के लिए 'के' निकटतम पड़ोसियों की श्रेणी नोट करनी चाहिए। लेबल न किए गए डेटा बिंदु के लिए अनुमानित मान वह वर्ग होगा जिसमें "के" निकटतम पड़ोसियों के बीच बहुसंख्यक भागीदारी है।

मान लें कि हमने K = 3 का मान निर्दिष्ट किया है। इसके अलावा, डेटा बिंदु "ए", "बी", और "सी" बिना लेबल वाले डेटा बिंदु हैं, जिसके लिए हमें इस मॉडल का उपयोग करके कक्षा की भविष्यवाणी करने की आवश्यकता है।

    लेखक द्वारा चित्रित छवि

  • डेटा बिंदु "ए" के लिए, सभी 3 पड़ोसी "लाल" हैं। इसलिए हम भविष्यवाणी कर सकते हैं कि यह छात्र शायद परीक्षा में अनुत्तीर्ण हो जाएगा।
  • डेटा बिंदु "बी" के लिए, 3 पड़ोसियों में से 2 "लाल" हैं और 1 पड़ोसी "हरा" है। अधिकांश "के" निकटतम पड़ोसी "विफल" वर्ग से संबंधित हैं। इसलिए हम भविष्यवाणी कर सकते हैं कि यह छात्र शायद परीक्षा में अनुत्तीर्ण हो जाएगा। यदि 3 पड़ोसियों में से कम से कम 2 "हरे" थे, तो हमने अनुमान लगाया होगा कि यह छात्र परीक्षा उत्तीर्ण करेगा क्योंकि बहुमत उस मामले में "उत्तीर्ण" वर्ग का समर्थन करेगा।
  • डेटा बिंदु "सी" के लिए, सभी 3 पड़ोसी "हरे" हैं। इसलिए हम अनुमान लगा सकते हैं कि यह छात्र शायद परीक्षा पास कर लेगा।

क्या आपने केएनएन की कार्यप्रणाली और पहले उल्लिखित अन्य 2 एल्गोरिदम के बीच कोई महत्वपूर्ण अंतर देखा?

वास्तव में, केएनएन किसी भी प्रशिक्षण प्रक्रिया से नहीं गुज़रा। यह अंतरिक्ष के बारे में डेटा बिंदुओं या गणितीय धारणाओं के बीच के पैटर्न के बारे में नहीं सीख पाया या इसने स्वतंत्र चर और आश्रित चर को मैप करने के लिए किसी भी गणितीय कार्य को प्राप्त करने का प्रयास नहीं किया। एकमात्र चर जिसे एक शोधकर्ता को सावधानीपूर्वक अनुकूलित करने की आवश्यकता होती है, वह है "K" का मान। यह सिर्फ अपने पड़ोसियों के बीच बहुसंख्यक वर्ग को चुनने की प्रक्रिया को याद कर रहा है और इसे अनुमानित मूल्य के रूप में दावा कर रहा है। यह किसी भी गणितीय कार्य के एक भाग के रूप में किसी सामान्यीकरण तकनीक का उपयोग नहीं करता है। इसके बजाय, केवल मतदान के सिद्धांत को याद करें और उस कार्य को हर गैर-सूचीबद्ध डेटा बिंदु के लिए दोहराएं। इस प्रक्रिया को "याद रखना" कहा जाता है।

मॉडल के सीखने के दृष्टिकोण जो भविष्यवाणी के उद्देश्यों के लिए याद रखने की प्रक्रिया का पालन करते हैं, उन्हें उदाहरण-आधारित शिक्षा कहा जाता है। 

सारांश

  • मॉडल-आधारित शिक्षण डेटा बिंदुओं के बीच छिपे हुए पैटर्न की खोज की प्रक्रिया पर ध्यान केंद्रित करता है, जिससे संपूर्ण डेटासेट के प्रशिक्षण के माध्यम से मापदंडों का अनुकूलन होता है। उदाहरण-आधारित शिक्षण संपूर्ण डेटासेट को प्रशिक्षित नहीं करता है। इसके बजाय, यह केवल शोधकर्ता द्वारा कॉन्फ़िगर किए गए कुछ सरल नियमों का पालन करके किसी विशेष लेबल रहित डेटा बिंदु के लिए भविष्यवाणी करता है।
  • मॉडल-आधारित शिक्षा में, हम सिस्टम से प्रशिक्षण डेटा को हटा सकते हैं क्योंकि मॉडल ने पहले ही उस डेटासेट से सभी पैटर्न सीख लिए हैं। हालाँकि, उदाहरण-आधारित शिक्षा में, प्रशिक्षण डेटा को रखा जाना चाहिए क्योंकि यह मॉडल भविष्यवाणी उद्देश्यों के लिए प्रशिक्षण नमूनों के पूर्ण या भाग के लेबल का उपयोग करता है।
  • मॉडल-आधारित शिक्षा में, भविष्यवाणी एक तेज़ प्रक्रिया होगी। हालाँकि, उदाहरण-आधारित शिक्षा में, भविष्यवाणी तुलनात्मक रूप से धीमी होगी क्योंकि इसमें इनपुट मानों को जल्दी से पारित करने और आउटपुट प्राप्त करने के लिए कोई गणितीय कार्य नहीं मिला है। इसके बजाय, इसे विभिन्न प्रशिक्षण नमूनों के साथ तुलना करके प्रत्येक गैर-लेबल डेटा बिंदुओं के लिए तुलना और नियम-आधारित निर्णय लेने में कुछ समय बिताने की आवश्यकता है। दूसरे शब्दों में, ये मॉडल प्रसंस्करण में देरी करते हैं जब तक कि एक नया उदाहरण वर्गीकृत नहीं किया जाना चाहिए। इसी कारण इन्हें आलसी शिक्षार्थी भी कहा जाता है।
  • उदाहरण-आधारित शिक्षार्थियों को अप्रासंगिक सुविधाएँ प्रदान करके आसानी से मूर्ख बनाया जा सकता है। हालाँकि, मॉडल-आधारित शिक्षा में, मॉडल को विभिन्न विशेषताओं के महत्व के बारे में पता चल जाएगा क्योंकि वे विभिन्न अनुकूलन तकनीकों से गुजर रहे हैं।
  • उदाहरण-आधारित शिक्षार्थी शोर वाले डेटा को संभालने में अच्छे हैं और वे कोई जानकारी नहीं खोते हैं। हालाँकि, मॉडल-आधारित शिक्षार्थी शोर वाले डेटा बिंदुओं को अच्छी तरह से प्रबंधित नहीं कर सकते हैं। इस चुनौती का मुकाबला करने के लिए पूर्व मॉडलिंग चरण में आउटलेयर और विसंगतियों को आमतौर पर डेटासेट से हटा दिया जाता है। लेकिन यह ध्यान दिया जाना चाहिए कि, आउटलेयर के उन्मूलन के परिणामस्वरूप डेटासेट की समग्र विशेषताओं के बारे में कुछ जानकारी का नुकसान हो सकता है जो मॉडल की भविष्य कहनेवाला क्षमता को प्रभावित कर सकता है।

सन्दर्भ