paint-brush
मशीन लर्निंग में मॉडल अंशांकन: एक महत्वपूर्ण लेकिन अगोचर अवधारणाद्वारा@sanjaykn170396
4,209 रीडिंग
4,209 रीडिंग

मशीन लर्निंग में मॉडल अंशांकन: एक महत्वपूर्ण लेकिन अगोचर अवधारणा

द्वारा Sanjay Kumar6m2023/01/28
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

मशीन लर्निंग में अंशांकन सबसे महत्वपूर्ण अवधारणाओं में से एक है। यह हमें बताता है कि हम मॉडल भविष्यवाणी पर कितना भरोसा कर सकते हैं, खासकर वर्गीकरण मॉडल में। मशीन लर्निंग क्लासिफायर के संख्यात्मक आउटपुट की सार्थक व्याख्या के लिए अंशांकन की अच्छी समझ होना आवश्यक है। इस लेख में, हम मशीन लर्निंग मॉडल कैलिब्रेशन के पीछे के सिद्धांत और कुछ सरल वास्तविक जीवन के उदाहरणों के माध्यम से इसके महत्व पर चर्चा करेंगे।
featured image - मशीन लर्निंग में मॉडल अंशांकन: एक महत्वपूर्ण लेकिन अगोचर अवधारणा
Sanjay Kumar HackerNoon profile picture

विषयसूची

  • परिचय
  • मॉडल अंशांकन के पीछे की अवधारणा
  • मॉडल अंशांकन के कुछ वास्तविक समय के अनुप्रयोग
  • निष्कर्ष
  • संदर्भ

परिचय

कैलिब्रेशन- हालांकि मशीन लर्निंग में सबसे महत्वपूर्ण अवधारणाओं में से एक है, एआई/एमएल स्पेस में शुरुआती उत्साही लोगों के बीच इसके बारे में पर्याप्त बात नहीं की जाती है। अंशांकन हमें बताता है कि हम मॉडल भविष्यवाणी पर कितना भरोसा कर सकते हैं, खासकर वर्गीकरण मॉडल में। मशीन लर्निंग क्लासिफायर के संख्यात्मक आउटपुट की सार्थक व्याख्या के लिए अंशांकन की अच्छी समझ होना आवश्यक है। इस लेख में, हम मशीन लर्निंग मॉडल कैलिब्रेशन के पीछे के सिद्धांत और कुछ सरल वास्तविक जीवन के उदाहरणों के माध्यम से इसके महत्व पर चर्चा करेंगे।

मॉडल अंशांकन के पीछे की अवधारणा

एक मशीन लर्निंग मॉडल को कैलिब्रेट किया जाता है यदि यह कैलिब्रेटेड संभावनाएं पैदा करता है। अधिक विशेष रूप से, संभावनाओं को कैलिब्रेट किया जाता है जहां आत्मविश्वास पी वाले वर्ग की भविष्यवाणी समय का 100*p प्रतिशत सही है


जटिल लग रहा है?


आइए एक सरल उदाहरण के माध्यम से समझते हैं:


आइए हम इस बात पर विचार करें कि किसी विशेष दिन बारिश होगी या नहीं, इसका अनुमान लगाने के लिए हमें एक मशीन-लर्निंग मॉडल बनाने की आवश्यकता है। चूंकि केवल 2 संभावित परिणाम हैं - "वर्षा" और "कोई वर्षा नहीं", हम इसे एक द्विआधारी वर्गीकरण मॉडल के रूप में मान सकते हैं।


Unsplash पर उस्मान राणा द्वारा फोटो


यहाँ, "वर्षा" एक सकारात्मक वर्ग है जिसे 1 के रूप में दर्शाया गया है और "कोई वर्षा नहीं" एक नकारात्मक वर्ग है जिसे 0 के रूप में दर्शाया गया है।


यदि किसी विशेष दिन के लिए मॉडल की भविष्यवाणी 1 है तो हम मान सकते हैं कि यह उम्मीद की जा रही है कि उस दिन बारिश होने वाली है।


इसी तरह, यदि किसी विशेष दिन के लिए मॉडल की भविष्यवाणी 0 है तो हम मान सकते हैं कि यह उम्मीद कर रहा है कि उस दिन बारिश नहीं होने वाली है।


रीयल-टाइम में, मशीन लर्निंग मॉडल अक्सर कुछ संभाव्यता मूल्यों का प्रतिनिधित्व करने वाले संख्यात्मक वेक्टर के रूप में भविष्यवाणी का प्रतिनिधित्व करते हैं।


इसलिए, यह आवश्यक नहीं है कि हमें हमेशा 0 या 1 का मान प्राप्त होगा। आमतौर पर, यदि अनुमानित मान 0.5 से अधिक या उसके बराबर है, तो इसे 1 माना जाता है और यदि अनुमानित मान 0.5 से कम है, तो इसे 0 माना जाता है। .


उदाहरण के लिए, यदि किसी विशेष दिन के लिए मॉडल की भविष्यवाणी 0.66 है तो हम इसे 1 मान सकते हैं। इसी प्रकार, यदि किसी विशेष दिन के लिए मॉडल की भविष्यवाणी 0.24 है तो हम इसे 0 मान सकते हैं।


मान लेते हैं कि हमारे मॉडल ने आने वाले 10 दिनों के नतीजों की भविष्यवाणी इस तरह की:

छवि स्रोत: लेखक द्वारा सचित्र


हम देख सकते हैं कि यदि संभाव्यता मान 0.5 से अधिक या उसके बराबर है तो भविष्यवाणी "वर्षा" है।

इसी प्रकार, हम देख सकते हैं कि यदि प्रायिकता मान 0.5 से कम है तो पूर्वानुमान "वर्षा नहीं" है।


अब, सांख्यिकीय प्रश्न है -


"क्या प्रायिकता मान परिणाम के लिए वास्तविक संभावना मान हैं?"


दूसरे शब्दों में, अगर मेरे पास 0.8 का प्रायिकता मान है तो क्या इसका मतलब यह है कि उस दिन बारिश होने की 80% संभावना है?


अगर मेरे पास 0.2 का प्रायिकता मान है तो क्या इसका मतलब यह है कि 20% संभावना है कि दिन बारिश होगी?


सांख्यिकीय रूप से, यदि मैं दावा कर रहा हूं कि मेरा मॉडल अंशांकित है तो उत्तर "हां" होना चाहिए।


आउटपुट की श्रेणी तय करने के लिए संभाव्यता मान केवल थ्रेशोल्ड मान नहीं होना चाहिए। इसके बजाय, इसे परिणाम की वास्तविक संभावना का प्रतिनिधित्व करना चाहिए।


यहां, दिन 1 का प्रायिकता मान 0.81 है, लेकिन दिन 10 का प्रायिकता मान केवल 0.76 है। इसका मतलब यह है कि हालांकि दोनों दिन बारिश की संभावना है, पहले दिन बारिश होने के 10 दिन की तुलना में 5% अधिक संभावना है। यह परिणाम के संभावित पूर्वानुमान की ताकत को दर्शाता है। एक अच्छा सांख्यिकीविद् इस तरह के परिणामों की एक बड़ी संख्या से बहुत सारे पैटर्न का अनुमान लगाएगा यदि उसके पास इस तरह का मॉडल है।


आइए देखें कि कैसे सांख्यिकीविद् मॉडल अंशांकन की ग्राफिकल तरीके से व्याख्या कर रहे हैं।

इस तरह के एक ग्राफ पर विचार करें जिसमें 0 से 1 तक के मान X-अक्ष पर समान रूप से विभाजित हों-

छवि स्रोत: लेखक द्वारा सचित्र


अब, प्रत्येक बकेट में, परिणामों को उनके प्रायिकता मानों के अनुसार प्लॉट करें।

उदाहरण के लिए,


बकेट 0.6-0.8 में, हमारे पास 4 डेटा बिंदु हैं - दिन 4, दिन 8, दिन 9 और दिन 10।

छवि स्रोत: लेखक द्वारा सचित्र


इसी प्रकार, हम अन्य सभी बाल्टियों के लिए समान प्रक्रिया का पालन कर सकते हैं-

छवि स्रोत: लेखक द्वारा सचित्र अब तक, हमने केवल अनुमानित मान प्लॉट किए हैं।


चूंकि, हमारा सकारात्मक वर्ग "वर्षा" है, आइए हम प्रत्येक बकेट में मूल्यों को अलग करें जिसका वास्तविक मूल्य "वर्षा" है।
छवि स्रोत: लेखक द्वारा सचित्र


अब, प्रत्येक बकेट में धनात्मक वर्ग का अंश ज्ञात करें:
छवि स्रोत: लेखक द्वारा सचित्र


एक बार जब यह चरण पूरा हो जाता है, तो बस इन भिन्नात्मक मानों को Y-अक्ष के साथ एक रेखा के रूप में प्लॉट करें-
छवि स्रोत: लेखक द्वारा सचित्र


लाइन उचित रैखिक संरचना में नहीं है। इसका मतलब है कि हमारा मॉडल अच्छी तरह से कैलिब्रेटेड नहीं है। एक अच्छी तरह से कैलिब्रेटेड मॉडल का चार्ट ऐसा दिखता होगा-

छवि स्रोत: लेखक द्वारा सचित्र


आदर्श रूप से, एक अच्छी तरह से कैलिब्रेटेड मॉडल तीसरी बाल्टी (0.4-0.6) में लगभग 40% -60% "बारिश" की संभावना की उम्मीद करता है। हालाँकि, हमारा मॉडल "वर्षा" होने के परिणाम की केवल 30% संभावना दे रहा है। यह एक महत्वपूर्ण विचलन है। इस प्रकार का विचलन अन्य बाल्टियों में भी देखा जा सकता है।


कुछ सांख्यिकीविद् मॉडल के प्रदर्शन का मूल्यांकन करने के लिए कैलिब्रेटेड वक्र और मॉडल की संभावना वक्र के बीच के क्षेत्र का उपयोग करते हैं। जब क्षेत्र छोटा हो जाता है, तो प्रदर्शन अधिक होगा क्योंकि मॉडल वक्र अंशांकित वक्र के निकट होगा।


छवि स्रोत: लेखक द्वारा सचित्र

मशीन लर्निंग में मॉडल अंशांकन के कुछ वास्तविक समय के अनुप्रयोग

बहुत सारे रीयल-टाइम परिदृश्य हैं जिनमें एमएल अनुप्रयोगों के अंतिम उपयोगकर्ता प्रभावी और व्यावहारिक निर्णय लेने के लिए मॉडल अंशांकन पर निर्भर करते हैं जैसे-


  1. आइए मान लें कि हम ई-कॉमर्स प्लेटफॉर्म के लिए रैंकिंग-आधारित मॉडल बना रहे हैं। यदि कोई मॉडल अच्छी तरह से कैलिब्रेटेड है तो सिफारिश के उद्देश्य के लिए इसकी संभावना मूल्यों पर भरोसा किया जा सकता है। उदाहरण के लिए, मॉडल कहता है कि इस बात की 80% संभावना है कि उपयोगकर्ता उत्पाद A को पसंद करता है और 65% संभावना है कि उपयोगकर्ता उत्पाद B को पसंद करता है। इसलिए, हम उपयोगकर्ता को उत्पाद A को पहली वरीयता और उत्पाद B के रूप में सुझा सकते हैं। दूसरी वरीयता के रूप में।


  2. नैदानिक परीक्षणों के मामले में, विचार करें कि कुछ डॉक्टर दवाओं का विकास कर रहे हैं। यदि मॉडल भविष्यवाणी कर रहा है कि उपचार के लिए 2 दवाएं बहुत प्रभावी हैं - ड्रग ए और ड्रग बी। अब, डॉक्टरों को सूची से सबसे अच्छा उपलब्ध विकल्प चुनना चाहिए क्योंकि वे जोखिम नहीं उठा सकते क्योंकि यह एक अत्यधिक जोखिम भरा परीक्षण है मानव जीवन। यदि मॉडल ड्रग ए के लिए 95% और ड्रग बी के लिए 90% का प्रायिकता मान दे रहा है तो डॉक्टर स्पष्ट रूप से ड्रग ए के साथ आगे बढ़ेंगे।

निष्कर्ष


इस लेख में, हमने मॉडल अंशांकन के सैद्धांतिक आधार के माध्यम से जाना है और यह समझने के महत्व पर चर्चा की है कि क्लासिफायर को कैलिब्रेट किया गया है या नहीं, कुछ सरल वास्तविक जीवन उदाहरणों के माध्यम से। मशीन लर्निंग मॉडल के लिए "विश्वसनीयता" का निर्माण अक्सर शोधकर्ताओं के लिए इसे विकसित करने या सर्वर पर तैनात करने से बड़ी चुनौती होती है। मॉडल अंशांकन उन मामलों में अत्यंत मूल्यवान है जहां अनुमानित संभाव्यता ब्याज की है। यह मॉडल की भविष्यवाणी में अनिश्चितता की अंतर्दृष्टि या समझ देता है और बदले में, मॉडल की विश्वसनीयता को अंतिम उपयोगकर्ता द्वारा समझा जा सकता है, विशेष रूप से महत्वपूर्ण अनुप्रयोगों में।


मुझे उम्मीद है, इस लेख ने आपको इस अवधारणा की प्रस्तावना प्राप्त करने और इसकी गंभीरता को समझने में मदद की है। आप इसकी गहन समझ प्राप्त करने के लिए संदर्भ अनुभाग में उल्लिखित सामग्रियों का उल्लेख कर सकते हैं।

संदर्भ

  1. अंशांकन - विकिपीडिया
  2. गेबेल, मार्टिन (2009)। संभाव्यता स्थान (पीडीएफ) (पीएचडी थीसिस) में क्लासिफायर स्कोर का बहुभिन्नरूपी अंशांकन । डॉर्टमुंड विश्वविद्यालय।
  3. UM Garczarek "2004-11-23 वेबैक मशीन पर संग्रहीत," मानकीकृत विभाजन रिक्त स्थान में वर्गीकरण नियम, निबंध, डॉर्टमुंड विश्वविद्यालय, 2002
  4. . हस्ती और आर. टिबशिरानी, "जोड़ीवार युग्मन द्वारा वर्गीकरण। इन: एमआई जॉर्डन, एमजे किर्न्स और एसए सोल्ला (एड्स।), न्यूरल इंफॉर्मेशन प्रोसेसिंग सिस्टम्स में एडवांस, वॉल्यूम 10, कैम्ब्रिज, एमआईटी प्रेस, 1998।