paint-brush
मशीन लर्निंग के लिए डेटा तैयार करना: एक चरण-दर-चरण मार्गदर्शिकाद्वारा@itrex
3,797 रीडिंग
3,797 रीडिंग

मशीन लर्निंग के लिए डेटा तैयार करना: एक चरण-दर-चरण मार्गदर्शिका

द्वारा ITRex12m2023/04/13
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

कई व्यवसाय मानते हैं कि एमएल इंजन में बड़ी मात्रा में डेटा फीड करना सटीक भविष्यवाणियां करने के लिए पर्याप्त है। सच्चाई यह है कि इसके परिणामस्वरूप कई समस्याएं हो सकती हैं, उदाहरण के लिए, एल्गोरिथम पूर्वाग्रह या सीमित मापनीयता। मशीन लर्निंग की सफलता काफी हद तक डेटा पर निर्भर करती है। और दुख की बात है: सभी डेटा सेट त्रुटिपूर्ण हैं। इसीलिए मशीन लर्निंग के लिए डेटा तैयार करना महत्वपूर्ण है। यह कच्चे डेटा में निहित अशुद्धियों और पूर्वाग्रहों को दूर करने में मदद करता है, ताकि परिणामी एमएल मॉडल अधिक विश्वसनीय और सटीक भविष्यवाणियां उत्पन्न कर सके।
featured image - मशीन लर्निंग के लिए डेटा तैयार करना: एक चरण-दर-चरण मार्गदर्शिका
ITRex HackerNoon profile picture

वर्षों पहले, जब Spotify अपने अनुशंसा इंजन पर काम कर रहा था, तो उन्हें एमएल एल्गोरिदम के प्रशिक्षण के लिए उपयोग किए जाने वाले डेटा की गुणवत्ता से संबंधित चुनौतियों का सामना करना पड़ा।


अगर उन्होंने डेटा तैयार करने के चरण में वापस जाने और अपने डेटा को साफ करने, सामान्य बनाने और बदलने में अतिरिक्त प्रयास करने का फैसला नहीं किया होता, तो संभावना है कि हमारा सुनने का अनुभव उतना आनंददायक नहीं होता।


मशीन लर्निंग के लिए पूरी तरह से डेटा तैयार करने से स्ट्रीमिंग प्लेटफॉर्म को एक शक्तिशाली एमएल इंजन को प्रशिक्षित करने की अनुमति मिली जो उपयोगकर्ताओं की सुनने की प्राथमिकताओं की सटीक भविष्यवाणी करता है और अत्यधिक वैयक्तिकृत संगीत अनुशंसाएं प्रदान करता है।


जब मशीन लर्निंग के लिए डेटा तैयार करने की बात आती है तो स्पोटिफाई कंपनियां एक महत्वपूर्ण गलती से बचती हैं - पर्याप्त प्रयास नहीं करना या मंच को छोड़ देना।


कई व्यवसाय मानते हैं कि एमएल इंजन में बड़ी मात्रा में डेटा फीड करना सटीक भविष्यवाणियां करने के लिए पर्याप्त है। सच्चाई यह है कि इसके परिणामस्वरूप कई समस्याएं हो सकती हैं, उदाहरण के लिए, एल्गोरिथम पूर्वाग्रह या सीमित मापनीयता।


मशीन लर्निंग की सफलता काफी हद तक डेटा पर निर्भर करती है।


और दुख की बात है: सभी डेटा सेट त्रुटिपूर्ण हैं। इसीलिए मशीन लर्निंग के लिए डेटा तैयार करना महत्वपूर्ण है। यह कच्चे डेटा में निहित अशुद्धियों और पूर्वाग्रहों को दूर करने में मदद करता है, ताकि परिणामी एमएल मॉडल अधिक विश्वसनीय और सटीक भविष्यवाणियां उत्पन्न कर सके।


इस ब्लॉग पोस्ट में, हम मशीन लर्निंग के लिए डेटा तैयार करने के महत्व पर प्रकाश डालते हैं और डेटा एकत्र करने, साफ करने और बदलने के लिए अपना दृष्टिकोण साझा करते हैं। इसलिए, यदि आप एमएल के लिए नए हैं और यह सुनिश्चित करना चाहते हैं कि आपकी पहल सफल हो, तो पढ़ना जारी रखें।

मशीन लर्निंग के लिए डेटा कैसे तैयार करें

एमएल को सफलतापूर्वक अपनाने की दिशा में पहला कदम आपकी व्यावसायिक समस्या को स्पष्ट रूप से तैयार कर रहा है। यह न केवल यह सुनिश्चित करता है कि आप जो एमएल मॉडल बना रहे हैं, वह आपकी व्यावसायिक आवश्यकताओं के अनुरूप है, बल्कि यह आपको डेटा तैयार करने में समय और पैसा बचाने की भी अनुमति देता है जो प्रासंगिक नहीं हो सकता है।


इसके अतिरिक्त, एक स्पष्ट समस्या कथन एमएल मॉडल को समझाने योग्य बनाता है (जिसका अर्थ है कि उपयोगकर्ता समझते हैं कि यह कैसे निर्णय लेता है)। यह स्वास्थ्य सेवा और वित्त जैसे क्षेत्रों में विशेष रूप से महत्वपूर्ण है, जहां मशीन लर्निंग का लोगों के जीवन पर बड़ा प्रभाव पड़ता है।


व्यावसायिक समस्या समाप्त होने के साथ, यह डेटा कार्य को शुरू करने का समय है।


कुल मिलाकर, मशीन लर्निंग के लिए डेटा तैयार करने की प्रक्रिया को निम्न चरणों में विभाजित किया जा सकता है:


  1. डेटा संग्रहण
  2. डेटा की सफाई
  3. डेटा परिवर्तन
  4. डेटा विभाजन


आइए प्रत्येक पर करीब से नज़र डालें।

डेटा संग्रहण

मशीन लर्निंग के लिए डेटा तैयार करना डेटा संग्रह से शुरू होता है। डेटा संग्रह चरण के दौरान, आप भविष्य के एमएल मॉडल के प्रशिक्षण और ट्यूनिंग के लिए डेटा एकत्र करते हैं। ऐसा करते हुए, डेटा के प्रकार, मात्रा और गुणवत्ता को ध्यान में रखें: ये कारक सर्वोत्तम डेटा तैयार करने की रणनीति निर्धारित करेंगे।


मशीन लर्निंग तीन प्रकार के डेटा का उपयोग करता है: संरचित, असंरचित और अर्ध-संरचित।

  • संरचित डेटा एक विशिष्ट तरीके से व्यवस्थित किया जाता है, आमतौर पर तालिका या स्प्रेडशीट प्रारूप में। संरचित डेटा के उदाहरण डेटाबेस या लेनदेन प्रणाली से एकत्र की गई जानकारी।
  • असंरचित डेटा में चित्र, वीडियो, ऑडियो रिकॉर्डिंग और अन्य जानकारी शामिल होती है जो पारंपरिक डेटा मॉडल का पालन नहीं करती है।
  • अर्ध-संरचित डेटा सारणीबद्ध डेटा मॉडल के प्रारूप का अनुसरण नहीं करता है। फिर भी, यह पूरी तरह से असंगठित नहीं है, क्योंकि इसमें कुछ संरचनात्मक तत्व शामिल हैं, जैसे टैग या मेटाडेटा जो व्याख्या करना आसान बनाता है। उदाहरणों में XML या JSON स्वरूपों में डेटा शामिल है।


मशीन सीखने के लिए डेटा तैयार करने के लिए डेटा की संरचना इष्टतम दृष्टिकोण निर्धारित करती है। संरचित डेटा, उदाहरण के लिए, आसानी से तालिकाओं में व्यवस्थित किया जा सकता है और डुप्लीकेशन के माध्यम से साफ किया जा सकता है, लापता मूल्यों को भर सकता है, या डेटा प्रारूपों को मानकीकृत कर सकता है।


इसके विपरीत, असंरचित डेटा से प्रासंगिक विशेषताओं को निकालने के लिए अधिक जटिल तकनीकों की आवश्यकता होती है, जैसे प्राकृतिक भाषा प्रसंस्करण या कंप्यूटर दृष्टि


मशीन लर्निंग के लिए डेटा तैयार करने का इष्टतम तरीका भी प्रशिक्षण डेटा की मात्रा से प्रभावित होता है। एक बड़े डेटासेट को नमूनाकरण की आवश्यकता हो सकती है, जिसमें कम्प्यूटेशनल सीमाओं के कारण मॉडल को प्रशिक्षित करने के लिए डेटा का एक सबसेट चुनना शामिल है। एक छोटे से, बदले में, डेटा वैज्ञानिकों को मौजूदा डेटा बिंदुओं के आधार पर अधिक डेटा उत्पन्न करने के लिए अतिरिक्त कदम उठाने की आवश्यकता हो सकती है (उस पर अधिक नीचे।)


एकत्रित डेटा की गुणवत्ता भी महत्वपूर्ण है। गलत या पक्षपाती डेटा का उपयोग एमएल आउटपुट को प्रभावित कर सकता है, जिसके महत्वपूर्ण परिणाम हो सकते हैं, विशेष रूप से वित्त, स्वास्थ्य देखभाल और आपराधिक न्याय जैसे क्षेत्रों में। ऐसी तकनीकें हैं जो डेटा को त्रुटि और पूर्वाग्रह के लिए ठीक करने की अनुमति देती हैं। हालाँकि, वे ऐसे डेटासेट पर काम नहीं कर सकते हैं जो स्वाभाविक रूप से तिरछा है। एक बार जब आप जान जाते हैं कि "अच्छा" डेटा क्या है, तो आपको यह तय करना होगा कि इसे कैसे एकत्र किया जाए और इसे कहाँ खोजा जाए। उसके लिए कई रणनीतियाँ हैं:


  • आंतरिक स्रोतों से डेटा एकत्र करना : यदि आपके पास अपने एंटरप्राइज़ डेटा वेयरहाउस में संग्रहीत जानकारी है, तो आप इसे एमएल एल्गोरिदम के प्रशिक्षण के लिए उपयोग कर सकते हैं। इस डेटा में बिक्री लेनदेन, ग्राहक बातचीत, सोशल मीडिया प्लेटफॉर्म से डेटा और अन्य स्रोत शामिल हो सकते हैं।
  • बाहरी स्रोतों से डेटा एकत्र करना : आप सार्वजनिक रूप से उपलब्ध डेटा स्रोतों, जैसे सरकारी डेटा पोर्टल्स, अकादमिक डेटा रिपॉजिटरी, और डेटा साझा करने वाले समुदायों, जैसे कागल, यूसीआई मशीन लर्निंग रिपॉजिटरी, या Google डेटासेट खोज की ओर रुख कर सकते हैं।
  • वेब स्क्रैपिंग : इस तकनीक में स्वचालित टूल का उपयोग करके वेबसाइटों से डेटा निकालना शामिल है। यह दृष्टिकोण उन स्रोतों से डेटा एकत्र करने के लिए उपयोगी हो सकता है जो उत्पाद समीक्षा, समाचार लेख और सोशल मीडिया जैसे अन्य माध्यमों से सुलभ नहीं हैं।
  • सर्वेक्षण : इस दृष्टिकोण का उपयोग विशिष्ट लक्षित दर्शकों से विशिष्ट डेटा बिंदुओं को एकत्रित करने के लिए किया जा सकता है। यह उपयोगकर्ता की प्राथमिकताओं या व्यवहार के बारे में जानकारी एकत्र करने के लिए विशेष रूप से उपयोगी है।


हालांकि कभी-कभी, इन कार्यनीतियों से पर्याप्त डेटा नहीं मिलता है। आप इन तकनीकों से डेटा बिंदुओं की कमी की भरपाई कर सकते हैं:


  • डेटा संवर्द्धन , जो मौजूदा नमूनों से उन्हें विभिन्न तरीकों से रूपांतरित करके अधिक डेटा उत्पन्न करने की अनुमति देता है, उदाहरण के लिए, घुमाना, अनुवाद करना या स्केल करना
  • सक्रिय शिक्षण , जो मानव विशेषज्ञ द्वारा लेबलिंग के लिए सबसे अधिक जानकारीपूर्ण डेटा नमूना चुनने की अनुमति देता है।
  • ट्रांसफर लर्निंग , जिसमें एक नए एमएल मॉडल को प्रशिक्षित करने के लिए एक प्रारंभिक बिंदु के रूप में संबंधित कार्य को हल करने के लिए लागू पूर्व-प्रशिक्षित एमएल एल्गोरिदम का उपयोग करना शामिल है, इसके बाद नए डेटा पर नए मॉडल को ठीक करना शामिल है।
  • सहयोगात्मक डेटा साझाकरण , जिसमें एक सामान्य लक्ष्य के लिए डेटा एकत्र करने और साझा करने के लिए अन्य शोधकर्ताओं और संगठनों के साथ काम करना शामिल है।

डेटा की सफाई

मशीन लर्निंग के लिए डेटा तैयार करने के लिए अगला कदम इसे साफ करना है। डेटा की सफाई में त्रुटियों, विसंगतियों और लापता मूल्यों को खोजना और सुधारना शामिल है। ऐसा करने के कई तरीके हैं:


  • लापता डेटा को संभालना


    मशीन लर्निंग में मिसिंग वैल्यू एक आम समस्या है। इसे अभियोग द्वारा नियंत्रित किया जा सकता है (सोचें: अनुमानित या अनुमानित डेटा के साथ लापता मूल्यों को भरना), प्रक्षेप (आसपास के डेटा बिंदुओं से लापता मूल्यों को प्राप्त करना), या विलोपन (डेटासेट से लापता मूल्यों के साथ पंक्तियों या स्तंभों को हटाना।)


  • आउटलेयर को संभालना


    आउटलेयर वे डेटा बिंदु होते हैं जो बाकी डेटासेट से महत्वपूर्ण रूप से भिन्न होते हैं। माप त्रुटियों, डेटा प्रविष्टि त्रुटियों, या केवल इसलिए कि वे असामान्य या चरम टिप्पणियों का प्रतिनिधित्व करते हैं, के कारण आउटलेयर हो सकते हैं। कर्मचारी वेतन के डेटासेट में, उदाहरण के लिए, एक बाहरी कर्मचारी वह कर्मचारी हो सकता है जो दूसरों की तुलना में अधिक या कम कमाता है। आउटलेयर को हटाकर, उनके प्रभाव को कम करने के लिए रूपांतरित करके, विनसोराइजिंग (विचार करें: चरम मानों को निकटतम मानों के साथ बदलना जो वितरण की सामान्य सीमा के भीतर हैं) को नियंत्रित किया जा सकता है, या उन्हें डेटा के एक अलग वर्ग के रूप में माना जा सकता है।


  • डुप्लीकेट हटाना


    मशीन लर्निंग के लिए डेटा तैयार करने की प्रक्रिया में एक और कदम डुप्लीकेट को हटाना है। डुप्लिकेट न केवल एमएल भविष्यवाणियों को तिरछा करते हैं, बल्कि भंडारण स्थान को भी बर्बाद करते हैं और प्रसंस्करण समय में वृद्धि करते हैं, विशेष रूप से बड़े डेटासेट में। डुप्लिकेट को हटाने के लिए, डेटा वैज्ञानिक विभिन्न प्रकार की डुप्लिकेट पहचान तकनीकों का सहारा लेते हैं (जैसे सटीक मिलान, फ़ज़ी मिलान, हैशिंग या रिकॉर्ड लिंकेज)। एक बार पहचाने जाने के बाद, उन्हें या तो गिराया या विलय किया जा सकता है। हालांकि, असंतुलित डेटासेट में, सामान्य वितरण प्राप्त करने के लिए वास्तव में डुप्लिकेट का स्वागत किया जा सकता है।


  • अप्रासंगिक डेटा को संभालना


    अप्रासंगिक डेटा उस डेटा को संदर्भित करता है जो समस्या को हल करने के लिए उपयोगी या लागू नहीं होता है। अप्रासंगिक डेटा को संभालने से शोर कम करने और भविष्यवाणी सटीकता में सुधार करने में मदद मिल सकती है। अप्रासंगिक डेटा की पहचान करने के लिए, डेटा टीमें प्रमुख घटक विश्लेषण, सहसंबंध विश्लेषण जैसी तकनीकों का सहारा लेती हैं, या केवल अपने डोमेन ज्ञान पर भरोसा करती हैं। एक बार पहचाने जाने के बाद, ऐसे डेटा बिंदुओं को डेटासेट से हटा दिया जाता है।


  • गलत डेटा को संभालना


    मशीन लर्निंग के लिए डेटा तैयार करने में गलत और गलत डेटा को हैंडल करना भी शामिल होना चाहिए। ऐसे डेटा से निपटने की सामान्य तकनीकों में डेटा ट्रांसफ़ॉर्मेशन (डेटा को बदलना, ताकि यह निर्धारित मानदंडों को पूरा करे) या गलत डेटा बिंदुओं को पूरी तरह से हटा देना शामिल है।


  • असंतुलित डेटा को संभालना


    एक असंतुलित डेटासेट एक ऐसा डेटासेट होता है जिसमें एक वर्ग में डेटा बिंदुओं की संख्या किसी अन्य वर्ग के डेटा बिंदुओं की संख्या से काफी कम होती है। इसका परिणाम एक पक्षपाती मॉडल हो सकता है जो अल्पसंख्यक वर्ग की उपेक्षा करते हुए बहुसंख्यक वर्ग को प्राथमिकता दे रहा है। समस्या से निपटने के लिए, डेटा टीमें ऐसी तकनीकों का सहारा ले सकती हैं जैसे कि रीसैंपलिंग (या तो अल्पसंख्यक वर्ग का ओवरसैंपलिंग करना या डेटा के वितरण को संतुलित करने के लिए बहुसंख्यक वर्ग को अंडरसैंपलिंग करना), सिंथेटिक डेटा जनरेशन (अल्पसंख्यक वर्ग के लिए अतिरिक्त डेटा पॉइंट बनाना), लागत -सेंसिटिव लर्निंग (प्रशिक्षण के दौरान अल्पसंख्यक वर्ग को अधिक वजन देना), एनसेम्बल लर्निंग (विभिन्न एल्गोरिदम का उपयोग करके विभिन्न डेटा सबसेट पर प्रशिक्षित कई मॉडलों का संयोजन), और अन्य।


    ये गतिविधियाँ यह सुनिश्चित करने में मदद करती हैं कि प्रशिक्षण डेटा सटीक, पूर्ण और सुसंगत है। हालांकि एक बड़ी उपलब्धि, अभी तक एक विश्वसनीय एमएल मॉडल तैयार करना पर्याप्त नहीं है। इसलिए, मशीन लर्निंग के लिए डेटा तैयार करने की यात्रा के अगले चरण में यह सुनिश्चित करना शामिल है कि प्रशिक्षण डेटा सेट में डेटा बिंदु विशिष्ट नियमों और मानकों के अनुरूप हों। और डेटा प्रबंधन प्रक्रिया में उस चरण को डेटा परिवर्तन कहा जाता है।

डेटा परिवर्तन

डेटा परिवर्तन चरण के दौरान, आप कच्चे डेटा को मशीन लर्निंग एल्गोरिदम के लिए उपयुक्त प्रारूप में परिवर्तित करते हैं। बदले में, यह उच्च एल्गोरिथम प्रदर्शन और सटीकता सुनिश्चित करता है।


मशीन लर्निंग के लिए डेटा तैयार करने में हमारे विशेषज्ञ निम्नलिखित सामान्य डेटा परिवर्तन तकनीकों का नाम देते हैं:


  • स्केलिंग


    डेटासेट में, अलग-अलग सुविधाएं माप की अलग-अलग इकाइयों का इस्तेमाल कर सकती हैं। उदाहरण के लिए, एक रियल एस्टेट डेटासेट में प्रत्येक संपत्ति में कमरों की संख्या (एक से दस तक) और कीमत ($ 50,000 से $ 1,000,000 तक) के बारे में जानकारी शामिल हो सकती है। स्केलिंग के बिना, दोनों विशेषताओं के महत्व को संतुलित करना चुनौतीपूर्ण है। एल्गोरिथ्म बड़े मूल्यों के साथ सुविधा को बहुत अधिक महत्व दे सकता है - इस मामले में, कीमत - और छोटे मूल्यों के साथ सुविधा के लिए पर्याप्त नहीं है। स्केलिंग सभी डेटा बिंदुओं को इस तरह से रूपांतरित करके इस समस्या को हल करने में मदद करता है, जिससे वे एक निर्दिष्ट सीमा में फिट होते हैं, आमतौर पर 0 और 1 के बीच। अब आप समान स्तर पर विभिन्न चर की तुलना कर सकते हैं।


  • मानकीकरण


    मशीन लर्निंग के लिए डेटा तैयार करने में उपयोग की जाने वाली एक अन्य तकनीक सामान्यीकरण है। यह स्केलिंग के समान है। हालाँकि, स्केलिंग से डेटासेट की सीमा बदल जाती है, सामान्यीकरण इसके वितरण को बदल देता है।


  • एन्कोडिंग


    श्रेणीबद्ध डेटा में सीमित संख्या में मान होते हैं, उदाहरण के लिए, रंग, कार के मॉडल या जानवरों की प्रजातियाँ। क्योंकि मशीन लर्निंग एल्गोरिदम आमतौर पर संख्यात्मक डेटा के साथ काम करते हैं, इनपुट के रूप में उपयोग करने के लिए श्रेणीबद्ध डेटा को एन्कोड किया जाना चाहिए। तो, एन्कोडिंग श्रेणीबद्ध डेटा को एक संख्यात्मक प्रारूप में परिवर्तित करने के लिए है। चुनने के लिए कई एन्कोडिंग तकनीकें हैं, जिनमें वन-हॉट एन्कोडिंग, ऑर्डिनल एन्कोडिंग और लेबल एन्कोडिंग शामिल हैं।


  • विवेक


    विवेकीकरण मशीन सीखने के लिए डेटा तैयार करने का एक दृष्टिकोण है जो निरंतर चर, जैसे समय, तापमान या वजन को असतत में बदलने की अनुमति देता है। ऐसे डेटासेट पर विचार करें जिसमें लोगों की ऊंचाई के बारे में जानकारी हो। प्रत्येक व्यक्ति की ऊंचाई को फीट या सेंटीमीटर में एक सतत चर के रूप में मापा जा सकता है। हालाँकि, कुछ एमएल एल्गोरिदम के लिए, इस डेटा को श्रेणियों में विभाजित करना आवश्यक हो सकता है, जैसे, "छोटा", "मध्यम", और "लंबा"। विवेकाधिकार ठीक यही करता है। यह प्रशिक्षण डाटासेट को सरल बनाने और समस्या की जटिलता को कम करने में मदद करता है। विवेकीकरण के लिए सामान्य दृष्टिकोण क्लस्टरिंग-आधारित और निर्णय-वृक्ष-आधारित विवेकीकरण है।


  • आयामीता में कमी


    आयामीता में कमी एक डेटासेट में सुविधाओं या चर की संख्या को सीमित करने और समस्या को हल करने के लिए प्रासंगिक जानकारी को संरक्षित करने के लिए है। ग्राहकों के खरीदारी इतिहास की जानकारी वाले डेटासेट पर विचार करें। इसमें खरीदारी की तारीख, खरीदी गई वस्तु, वस्तु की कीमत और वह स्थान जहां खरीदारी हुई थी, की जानकारी होती है। इस डेटासेट के आयाम को कम करते हुए, हम सबसे महत्वपूर्ण सुविधाओं को छोड़कर सभी को छोड़ देते हैं, कहते हैं, खरीदी गई वस्तु और उसकी कीमत। विभिन्न प्रकार की तकनीकों के साथ आयामीता में कमी की जा सकती है, उनमें से कुछ प्रमुख घटक विश्लेषण, रैखिक विभेदक विश्लेषण और टी-वितरित स्टोकेस्टिक पड़ोसी एम्बेडिंग हैं।


  • लॉग परिवर्तन


    मशीन लर्निंग के लिए डेटा तैयार करने का एक अन्य तरीका, लॉग ट्रांसफ़ॉर्मेशन, एक डेटासेट में चर के मानों के लिए एक लॉगरिदमिक फ़ंक्शन लागू करने को संदर्भित करता है। इसका उपयोग अक्सर तब किया जाता है जब प्रशिक्षण डेटा अत्यधिक तिरछा होता है या इसमें मूल्यों की एक बड़ी श्रृंखला होती है। लॉगरिदमिक फ़ंक्शन लागू करने से डेटा के वितरण को अधिक सममित बनाने में मदद मिल सकती है।


    डेटा ट्रांसफ़ॉर्मेशन की बात करें तो हमें फ़ीचर इंजीनियरिंग का भी उल्लेख करना चाहिए। जबकि यह डेटा परिवर्तन का एक रूप है, यह मशीन सीखने के लिए डेटा तैयार करने की प्रक्रिया में एक तकनीक या एक कदम से अधिक है। यह डेटासेट में सुविधाओं को चुनने, बदलने और बनाने के लिए है। फीचर इंजीनियरिंग में सांख्यिकीय, गणितीय और कम्प्यूटेशनल तकनीकों का संयोजन शामिल है, जिसमें एमएल मॉडल का उपयोग शामिल है, ताकि डेटा में सबसे अधिक प्रासंगिक जानकारी प्राप्त करने वाली विशेषताएं बनाई जा सकें।


    यह आमतौर पर एक पुनरावृत्ति प्रक्रिया है जिसमें किसी समस्या को हल करने के लिए सर्वोत्तम दृष्टिकोण के साथ आने के लिए विभिन्न तकनीकों और फीचर संयोजनों का परीक्षण और मूल्यांकन करने की आवश्यकता होती है।

डेटा विभाजन

मशीन लर्निंग के लिए डेटा तैयार करने की प्रक्रिया के अगले चरण में सभी एकत्रित डेटा को सबसेट में विभाजित करना शामिल है - प्रक्रिया को डेटा विभाजन के रूप में जाना जाता है। आमतौर पर, डेटा को प्रशिक्षण, सत्यापन और परीक्षण डेटासेट में विभाजित किया जाता है।


  • एक प्रशिक्षण डेटासेट का उपयोग वास्तव में मशीन लर्निंग मॉडल को इनपुट और लक्ष्य चर के बीच पैटर्न और संबंधों को पहचानने के लिए सिखाने के लिए किया जाता है। यह डेटासेट आम तौर पर सबसे बड़ा होता है।
  • एक सत्यापन डेटासेट डेटा का एक सबसेट है जिसका उपयोग प्रशिक्षण के दौरान मॉडल के प्रदर्शन का मूल्यांकन करने के लिए किया जाता है। यह हाइपरपरमेटर्स को समायोजित करके मॉडल को फाइन-ट्यून करने में मदद करता है (सोचें: प्रशिक्षण प्रक्रिया के पैरामीटर जो प्रशिक्षण से पहले मैन्युअल रूप से सेट किए जाते हैं, जैसे सीखने की दर, नियमितीकरण शक्ति, या छिपी हुई परतों की संख्या)। सत्यापन डेटासेट प्रशिक्षण डेटा को ओवरफिट करने से रोकने में भी मदद करता है।
  • एक परीक्षण डेटासेट डेटा का एक सबसेट है जिसका उपयोग प्रशिक्षित मॉडल के प्रदर्शन का मूल्यांकन करने के लिए किया जाता है। इसका लक्ष्य नए, अनदेखे डेटा पर मॉडल की सटीकता का आकलन करना है। परीक्षण डेटासेट का उपयोग केवल एक बार किया जाता है - मॉडल को प्रशिक्षण और सत्यापन डेटासेट पर प्रशिक्षित और ठीक करने के बाद।


डेटा को विभाजित करके, हम यह आकलन कर सकते हैं कि मशीन लर्निंग मॉडल उस डेटा पर कितना अच्छा प्रदर्शन करता है जिसे उसने पहले नहीं देखा है। बंटवारे के बिना, संभावना है कि मॉडल नए डेटा पर खराब प्रदर्शन करेगा। ऐसा इसलिए हो सकता है क्योंकि मॉडल ने पैटर्न सीखने और उन्हें नए डेटा के लिए सामान्यीकृत करने के बजाय केवल डेटा बिंदुओं को याद किया हो।


डेटा विभाजन के लिए कई दृष्टिकोण हैं, और इष्टतम का चुनाव हल की जा रही समस्या और डेटासेट के गुणों पर निर्भर करता है। मशीन लर्निंग के लिए डेटा तैयार करने वाले हमारे विशेषज्ञों का कहना है कि सबसे प्रभावी विभाजन रणनीति निर्धारित करने के लिए अक्सर डेटा टीम से कुछ प्रयोग करने की आवश्यकता होती है। निम्नलिखित सबसे आम हैं:


  • रैंडम सैंपलिंग , जहां, जैसा कि नाम से पता चलता है, डेटा को बेतरतीब ढंग से विभाजित किया जाता है। यह दृष्टिकोण अक्सर मॉडलिंग की जा रही जनसंख्या के बड़े डेटासेट प्रतिनिधि पर लागू होता है। वैकल्पिक रूप से, इसका उपयोग तब किया जाता है जब डेटा में कोई ज्ञात संबंध नहीं होता है जिसके लिए अधिक विशिष्ट दृष्टिकोण की आवश्यकता होती है।
  • स्तरीकृत नमूनाकरण , जहां डेटा को वर्ग लेबल या अन्य विशेषताओं के आधार पर उपसमुच्चय में विभाजित किया जाता है, इसके बाद इन उपसमुच्चयों का यादृच्छिक रूप से नमूनाकरण किया जाता है। यह रणनीति असंतुलित डेटासेट पर लागू होती है जिसमें एक वर्ग में मूल्यों की संख्या दूसरों में मूल्यों की संख्या से काफी अधिक होती है। उस मामले में, स्तरीकृत नमूनाकरण यह सुनिश्चित करने में मदद करता है कि प्रशिक्षण और परीक्षण डेटासेट में प्रत्येक वर्ग के मानों का समान वितरण हो।
  • समय-आधारित नमूनाकरण , जहाँ एक निश्चित समय तक एकत्र किया गया डेटा एक प्रशिक्षण डेटासेट बनाता है, जबकि निर्धारित बिंदु के बाद एकत्र किया गया डेटा एक परीक्षण डेटासेट में बनता है। इस दृष्टिकोण का उपयोग तब किया जाता है जब डेटा को लंबी अवधि में एकत्र किया गया हो, उदाहरण के लिए, वित्तीय या चिकित्सा डेटासेट में, क्योंकि यह यह सुनिश्चित करने की अनुमति देता है कि मॉडल भविष्य के डेटा पर सटीक भविष्यवाणी कर सकता है।
  • क्रॉस-वैलिडेशन , जहां डेटा को कई सबसेट या फोल्ड में विभाजित किया जाता है। कुछ तह का उपयोग मॉडल को प्रशिक्षित करने के लिए किया जाता है, जबकि शेष का उपयोग प्रदर्शन मूल्यांकन के लिए किया जाता है। प्रक्रिया को कई बार दोहराया जाता है, जिसमें प्रत्येक तह कम से कम एक बार परीक्षण डेटा के रूप में काम करती है। कई क्रॉस-वैलिडेशन तकनीकें हैं, उदाहरण के लिए, के-फोल्ड क्रॉस-वैलिडेशन और लीव-वन-आउट क्रॉस-वैलिडेशन। क्रॉस-सत्यापन आमतौर पर एकल परीक्षण डेटासेट पर मूल्यांकन की तुलना में मॉडल के प्रदर्शन का अधिक सटीक अनुमान प्रदान करता है।

अंतिम नोट पर

सटीक और विश्वसनीय मशीन लर्निंग समाधान विकसित करने के लिए मशीन लर्निंग के लिए उचित डेटा तैयार करना आवश्यक है। ITRex में, हम डेटा तैयार करने की चुनौतियों और एक सफल मशीन लर्निंग प्रक्रिया के लिए गुणवत्तापूर्ण डेटासेट होने के महत्व को समझते हैं।


यदि आप मशीन लर्निंग के माध्यम से अपने डेटा की क्षमता को अधिकतम करना चाहते हैं, तो ITRex टीम से संपर्क करें । हमारे विशेषज्ञ आपके डेटा को एकत्र करने, साफ करने और बदलने में सहायता प्रदान करेंगे।


यहाँ भी प्रकाशित हुआ।