मशीन लर्निंग ऐसे मॉडल बनाने पर केंद्रित है जो सटीक भविष्यवाणी करते हैं। मूल्यांकन मेट्रिक्स एक मॉडल की दक्षता को मापने का एक तरीका प्रदान करता है, जो हमें प्रदर्शन परिणामों के आधार पर एल्गोरिदम को परिष्कृत करने या यहां तक कि स्विच करने की अनुमति देता है।
"संभावना" की अवधारणा इनमें से कई मेट्रिक्स के लिए केंद्रीय है। यह मापता है कि किसी मॉडल की भविष्यवाणियां देखे गए डेटा के साथ कितनी अच्छी तरह संरेखित होती हैं। इसलिए, यह मॉडल प्रशिक्षण और मूल्यांकन में एक महत्वपूर्ण भूमिका निभाता है।
उदाहरण के लिए, उच्च संभावना वाला एक मॉडल सुझाव देता है कि दिए गए मॉडल की मान्यताओं के तहत मनाया गया डेटा अधिक संभावित है।
TensorFlow और PyTorch जैसे तकनीकी उपकरण अक्सर संभावना-आधारित मेट्रिक्स का उपयोग करते हैं, विशेष रूप से वर्गीकरण या अनुक्रम भविष्यवाणी जैसे कार्यों में। इन मेट्रिक्स के अनुरूप कार्यों और पुस्तकालयों से सुसज्जित ऐसे उपकरण, मॉडल मूल्यांकन के कार्य को सुलभ और अत्यधिक कुशल बनाते हैं।
मशीन लर्निंग में किसी के लिए भी संभावना और उससे जुड़े मेट्रिक्स को समझना महत्वपूर्ण है। यह हमें मॉडल मूल्यांकन और सुधार के लिए आधार बनाने की अनुमति देता है।
नीचे, हम तीन प्रमुख मूल्यांकन मेट्रिक्स पर करीब से नज़र डालेंगे और देखेंगे कि वे मशीन लर्निंग में कैसे काम करते हैं और एक-दूसरे से कैसे संबंधित हैं।
क्रॉसेंट्रॉपी संभावनाओं के दो सेटों के बीच भिन्नता का मूल्यांकन करती है, अक्सर एक मॉडल के पूर्वानुमानित परिणामों के साथ वास्तविक डेटा पैटर्न की तुलना करती है। गणितीय रूप से, असतत वितरण p
और q
के लिए, क्रॉसेंट्रॉपी H(p, q)
इस प्रकार दी गई है:
H(p, q) = -\sum p(x) \log(q(x))
जहां \( p(x) \) किसी घटना x
के घटित होने की वास्तविक संभावना है, और q(x)
मॉडल के अनुसार उसी घटना की अनुमानित संभावना है।
इसे मुख्य रूप से वर्गीकरण समस्याओं में लागू किया जाता है, विशेषकर उन परिदृश्यों में जहां आउटपुट कई वर्गों से संबंधित हो सकता है। इसका उपयोग इसलिए किया जाता है क्योंकि यह एक स्पष्ट माप प्रदान करता है कि किसी मॉडल की भविष्यवाणियां वास्तविक परिणामों से कितनी दूर हैं। क्रॉसएंट्रॉपी जितनी कम होगी, मॉडल की भविष्यवाणियां वास्तविक मूल्यों के साथ उतनी ही बेहतर संरेखित होंगी।
कई सॉफ्टवेयर लाइब्रेरी क्रॉसेंट्रॉपी से जुड़ी गणनाओं को संभालने के लिए सुसज्जित हैं। उल्लेखनीय रूप से:
tf.nn.softmax_cross_entropy_with_logits
जैसे फ़ंक्शन प्रदान करता है जो वर्गीकरण समस्याओं के लिए सीधे क्रॉसेंट्रॉपी की गणना करता है।
torch.nn.CrossEntropyLoss
जैसे कार्यों के साथ समान क्षमता प्रदान करता है, जो बहु-वर्ग वर्गीकरण कार्यों के लिए उपयुक्त है।
log_loss
फ़ंक्शन का उपयोग करके क्रॉसेंट्रॉपी से निकटता से संबंधित है। लॉगलॉस, लघुगणक हानि के लिए संक्षिप्त, गलत वर्गीकरण को दंडित करके एक क्लासिफायरियर की सटीकता का आकलन करता है। सही लेबल y
और अनुमानित संभाव्यता p
के साथ बाइनरी वर्गीकरण के लिए, लॉगलॉस इस प्रकार दिया गया है:
L(y, p) = -y \log(p) - (1 - y) \log(1 - p)
अनिवार्य रूप से, लॉगलॉस सच्चे लेबल और बाइनरी वर्गीकरण समस्याओं की भविष्यवाणियों के बीच क्रॉसएंट्रॉपी है। जब मल्टी-क्लास वर्गीकरण में विस्तारित किया जाता है, तो लॉगलॉस प्रत्येक वर्ग के लिए क्रॉसेंट्रॉपी मानों को सारांशित करता है, जिससे दोनों मेट्रिक्स घनिष्ठ रूप से संबंधित हो जाते हैं।
इसका उपयोग मुख्य रूप से द्विआधारी और बहु-वर्ग वर्गीकरण समस्याओं में किया जाता है। इसकी ताकत इस आधार पर भविष्यवाणियों की अनिश्चितता को मापने की क्षमता में निहित है कि वे वास्तविक लेबल से कितना विचलित हैं।
एक आदर्श मॉडल में 0 का लॉगलॉस होगा, हालांकि व्यवहार में, मान इससे अधिक होते हैं।
कई सॉफ़्टवेयर लाइब्रेरीज़ हमें लॉगलॉस की गणना करने की अनुमति देती हैं:
स्किकिट-सीखें । व्यापक रूप से उपयोग की जाने वाली मशीन लर्निंग लाइब्रेरी के रूप में, स्किकिट-लर्न log_loss
फ़ंक्शन प्रदान करता है, जो बाइनरी और मल्टी-क्लास वर्गीकरण परिदृश्यों दोनों के लिए उपयुक्त है।
टेन्सरफ्लो और पायटोरच। हालाँकि ये ढाँचे मुख्य रूप से तंत्रिका नेटवर्क और गहन शिक्षण पर ध्यान केंद्रित करते हैं, लेकिन वर्गीकरण कार्यों के लिए क्रॉसेंट्रॉपी हानि फ़ंक्शन का उपयोग करते समय वे स्वाभाविक रूप से लॉगलॉस की गणना करते हैं।
लाइटजीबीएम और एक्सजीबूस्ट। सारणीबद्ध डेटा प्रतियोगिताओं में अपने उच्च प्रदर्शन के लिए जाने जाने वाले इन ग्रेडिएंट-बूस्टिंग फ्रेमवर्क में लॉगलॉस की गणना करने की कार्यक्षमताएं भी शामिल हैं, जो वर्गीकरण चुनौतियों में मॉडल प्रदर्शन का मूल्यांकन करते समय विशेष रूप से उपयोगी होती हैं।
यह इस बात का माप है कि संभाव्यता वितरण या संभाव्यता मॉडल किसी नमूने की कितनी अच्छी भविष्यवाणी करता है।
द्वारा दिए गए:
Perplexity(P) = 2^{H(P)}
जहां H(P)
वितरण P
की क्रॉसएंट्रॉपी है, उलझन प्रभावी ढंग से प्रत्येक निर्णय बिंदु पर एक मॉडल के अनुसार विकल्पों की भारित औसत संख्या का प्रतिनिधित्व करती है।
क्रॉसेंट्रॉपी के संदर्भ में, एक उच्च क्रॉसेंट्रॉपी मान एक उच्च उलझन से मेल खाता है, जो दर्शाता है कि मॉडल अपनी भविष्यवाणियों के बारे में अधिक अनिश्चित है।
पर्प्लेक्सिटी का सबसे उल्लेखनीय अनुप्रयोग भाषा मॉडल में है, जहां यह मापता है कि कोई मॉडल शब्दों के अनुक्रम की कितनी अच्छी भविष्यवाणी करता है। कम उलझन वाले मॉडल को बेहतर माना जाता है क्योंकि यह कम औसत शाखा कारकों को दर्शाता है, या सरल शब्दों में, यह अनुक्रम में अगले शब्द के बारे में अधिक निश्चित है।
भाषा मॉडल के अलावा, अन्य संभाव्य मॉडल में भी उलझन एक प्रासंगिक मीट्रिक हो सकती है जहां अनुक्रम या वितरण पर भविष्यवाणी की गुणवत्ता महत्वपूर्ण है।
कई उपकरण और प्लेटफ़ॉर्म उलझन की गणना और व्याख्या में सहायता करते हैं:
एनएलटीके । नेचुरल लैंग्वेज टूलकिट संभाव्य भाषा मॉडल बनाने के लिए उपयोगिताएँ प्रदान करता है और इन मॉडलों के मूल्यांकन के लिए उलझन की गणना करता है।
टेन्सरफ्लो और पायटोरच। गहन शिक्षण-आधारित भाषा मॉडल के लिए, ये दोनों ढाँचे क्रॉसेंट्रॉपी की गणना करने के लिए कार्यक्षमता प्रदान करते हैं, जिसे बाद में उपरोक्त सूत्र का उपयोग करके उलझन में अनुवादित किया जा सकता है।
जेनसिम । ज्यादातर विषय मॉडलिंग के लिए जाना जाता है, जेनसिम में उलझन की गणना करने के तरीके भी शामिल हैं, जो विशेष रूप से उत्पन्न विषयों की सुसंगतता का मूल्यांकन करते समय उपयोगी होते हैं।
क्रॉसएंट्रॉपी, लॉगलॉस और पर्प्लेक्सिटी सभी मेट्रिक्स सूचना सिद्धांत और संभाव्य मॉडलिंग में निहित हैं। उनका मुख्य उद्देश्य भविष्यवाणियों की गुणवत्ता का मूल्यांकन करना है, चाहे वह वर्गीकरण के लिए हो या संभाव्यता वितरण अनुमान के लिए। उच्च स्तर पर:
एक सार्वभौमिक मीट्रिक के रूप में, क्रॉसेंट्रॉपी उन समस्याओं के लिए उपयुक्त है जहां लक्ष्य किसी विशेष संभाव्यता वितरण का अनुमान लगाना या उससे मेल खाना है। यह बहु-वर्ग वर्गीकरण कार्यों में चमकता है। उदाहरणों में छवि वर्गीकरण शामिल है जहां प्रत्येक छवि कई श्रेणियों में से एक से संबंधित हो सकती है, या रोगी के लक्षणों के आधार पर उसके रोग के प्रकार की भविष्यवाणी कर सकती है।
वर्गीकरण के लिए अनुकूलित, लॉगलॉस बाइनरी और मल्टी-क्लास समस्याओं के लिए पसंदीदा मीट्रिक बन जाता है, जो आत्मविश्वासपूर्ण गलत भविष्यवाणियों को भारी रूप से दंडित करता है। इसकी ताकत सटीक संभाव्य भविष्यवाणियों के प्रति इसकी संवेदनशीलता में निहित है।
उदाहरण के लिए, स्पैम का पता लगाने में (स्पैम या स्पैम नहीं), ग्राहक मंथन भविष्यवाणी (मंथन होगा या नहीं होगा), या यह भविष्यवाणी करना कि कोई दिया गया लेनदेन धोखाधड़ीपूर्ण है या नहीं।
अंत में, मुख्य रूप से भाषा मॉडलिंग में उपयोग किया जाता है, पर्प्लेक्सिटी यह आकलन करती है कि कोई मॉडल अनुक्रमों की कितनी अच्छी भविष्यवाणी करता है। कम मान एक ऐसे मॉडल को दर्शाते हैं जो अपनी अनुक्रमिक भविष्यवाणियों के बारे में अधिक निश्चित है। इसका उपयोग पाठ निर्माण कार्यों, मशीनी अनुवाद या वाक् पहचान के लिए किया जा सकता है, जहां मॉडल एक क्रम में अगले शब्द या वाक्यांश की भविष्यवाणी करता है।
जबकि सभी तीन मेट्रिक्स संभाव्य मॉडल के मूल्यांकन से संबंधित हैं, उनकी प्रयोज्यता कार्य की प्रकृति के आधार पर भिन्न होती है: वितरण मिलान, वर्गीकरण, या अनुक्रम भविष्यवाणी।
एक अनुभवी मशीन लर्निंग पेशेवर मॉडल प्रदर्शन का सबसे जानकारीपूर्ण मूल्यांकन सुनिश्चित करने के लिए कार्य के लिए सबसे उपयुक्त मीट्रिक का चयन करता है।
क्रॉसेंट्रॉपी, लॉगलॉस और पर्प्लेक्सिटी जैसे मूल्यांकन मेट्रिक्स की बारीकियों को पहचानने से मशीन लर्निंग प्रोजेक्ट्स में सूचित निर्णय लेने पर सीधे प्रभाव पड़ता है। इनमें से प्रत्येक मेट्रिक्स, अपनी विशिष्ट विशेषताओं और उपयोगों के साथ, भविष्यवाणी मॉडल की सटीकता और विश्वसनीयता को काफी हद तक प्रभावित करते हैं।
एमएल में, टेन्सरफ्लो, स्किकिट-लर्न और एनएलटीके जैसे प्लेटफार्मों का उपयोग करने से मेट्रिक्स की गणना करना आसान हो जाता है और मॉडल मूल्यांकन में सुधार होता है। सर्वोत्तम परिणाम के लिए हमेशा सुनिश्चित करें कि चुनी गई मीट्रिक परियोजना के लक्ष्यों के अनुरूप हो।
बेशक, जाने-माने टूल को पहले की तरह लागू करना आसान है, लेकिन वास्तव में उन्हें समझना अंत में अधिक फायदेमंद हो सकता है। सीखते रहें, और अपने सामने आने वाले प्रत्येक कार्य के लिए सही मीट्रिक चुनें।