वर्षों पहले, जब Spotify अपने अनुशंसा इंजन पर काम कर रहा था, तो उन्हें एमएल एल्गोरिदम के प्रशिक्षण के लिए उपयोग किए जाने वाले डेटा की गुणवत्ता से संबंधित चुनौतियों का सामना करना पड़ा। अगर उन्होंने डेटा तैयार करने के चरण में वापस जाने और अपने डेटा को साफ करने, सामान्य बनाने और बदलने में अतिरिक्त प्रयास करने का फैसला नहीं किया होता, तो संभावना है कि हमारा सुनने का अनुभव उतना आनंददायक नहीं होता। मशीन लर्निंग के लिए पूरी तरह से डेटा तैयार करने से स्ट्रीमिंग प्लेटफॉर्म को एक शक्तिशाली एमएल इंजन को प्रशिक्षित करने की अनुमति मिली जो उपयोगकर्ताओं की सुनने की प्राथमिकताओं की सटीक भविष्यवाणी करता है और अत्यधिक वैयक्तिकृत संगीत अनुशंसाएं प्रदान करता है। जब मशीन लर्निंग के लिए डेटा तैयार करने की बात आती है तो स्पोटिफाई कंपनियां एक महत्वपूर्ण गलती से बचती हैं - पर्याप्त प्रयास नहीं करना या मंच को छोड़ देना। कई व्यवसाय मानते हैं कि एमएल इंजन में बड़ी मात्रा में डेटा फीड करना सटीक भविष्यवाणियां करने के लिए पर्याप्त है। सच्चाई यह है कि इसके परिणामस्वरूप कई समस्याएं हो सकती हैं, उदाहरण के लिए, या सीमित मापनीयता। एल्गोरिथम पूर्वाग्रह मशीन लर्निंग की सफलता काफी हद तक डेटा पर निर्भर करती है। और दुख की बात है: सभी डेटा सेट त्रुटिपूर्ण हैं। इसीलिए मशीन लर्निंग के लिए डेटा तैयार करना महत्वपूर्ण है। यह कच्चे डेटा में निहित अशुद्धियों और पूर्वाग्रहों को दूर करने में मदद करता है, ताकि परिणामी एमएल मॉडल अधिक विश्वसनीय और सटीक भविष्यवाणियां उत्पन्न कर सके। इस ब्लॉग पोस्ट में, हम मशीन लर्निंग के लिए डेटा तैयार करने के महत्व पर प्रकाश डालते हैं और डेटा एकत्र करने, साफ करने और बदलने के लिए अपना दृष्टिकोण साझा करते हैं। इसलिए, यदि आप एमएल के लिए नए हैं और यह सुनिश्चित करना चाहते हैं कि आपकी पहल सफल हो, तो पढ़ना जारी रखें। मशीन लर्निंग के लिए डेटा कैसे तैयार करें दिशा में पहला कदम आपकी व्यावसायिक समस्या को स्पष्ट रूप से तैयार कर रहा है। यह न केवल यह सुनिश्चित करता है कि आप जो एमएल मॉडल बना रहे हैं, वह आपकी व्यावसायिक आवश्यकताओं के अनुरूप है, बल्कि यह आपको डेटा तैयार करने में समय और पैसा बचाने की भी अनुमति देता है जो प्रासंगिक नहीं हो सकता है। एमएल को सफलतापूर्वक अपनाने की इसके अतिरिक्त, एक स्पष्ट समस्या कथन (जिसका अर्थ है कि उपयोगकर्ता समझते हैं कि यह कैसे निर्णय लेता है)। यह स्वास्थ्य सेवा और वित्त जैसे क्षेत्रों में विशेष रूप से महत्वपूर्ण है, जहां मशीन लर्निंग का लोगों के जीवन पर बड़ा प्रभाव पड़ता है। एमएल मॉडल को समझाने योग्य बनाता है व्यावसायिक समस्या समाप्त होने के साथ, यह डेटा कार्य को शुरू करने का समय है। कुल मिलाकर, मशीन लर्निंग के लिए डेटा तैयार करने की प्रक्रिया को निम्न चरणों में विभाजित किया जा सकता है: डेटा संग्रहण डेटा की सफाई डेटा परिवर्तन डेटा विभाजन आइए प्रत्येक पर करीब से नज़र डालें। डेटा संग्रहण मशीन लर्निंग के लिए डेटा तैयार करना डेटा संग्रह से शुरू होता है। डेटा संग्रह चरण के दौरान, आप भविष्य के एमएल मॉडल के प्रशिक्षण और ट्यूनिंग के लिए डेटा एकत्र करते हैं। ऐसा करते हुए, ध्यान में रखें: ये कारक सर्वोत्तम डेटा तैयार करने की रणनीति निर्धारित करेंगे। डेटा के प्रकार, मात्रा और गुणवत्ता को मशीन लर्निंग तीन प्रकार के डेटा का उपयोग करता है: संरचित, और अर्ध-संरचित। असंरचित एक विशिष्ट तरीके से व्यवस्थित किया जाता है, आमतौर पर तालिका या स्प्रेडशीट प्रारूप में। संरचित डेटा के उदाहरण डेटाबेस या लेनदेन प्रणाली से एकत्र की गई जानकारी। संरचित डेटा में चित्र, वीडियो, ऑडियो रिकॉर्डिंग और अन्य जानकारी शामिल होती है जो पारंपरिक डेटा मॉडल का पालन नहीं करती है। असंरचित डेटा सारणीबद्ध डेटा मॉडल के प्रारूप का अनुसरण नहीं करता है। फिर भी, यह पूरी तरह से असंगठित नहीं है, क्योंकि इसमें कुछ संरचनात्मक तत्व शामिल हैं, जैसे टैग या मेटाडेटा जो व्याख्या करना आसान बनाता है। उदाहरणों में XML या JSON स्वरूपों में डेटा शामिल है। अर्ध-संरचित डेटा मशीन सीखने के लिए डेटा तैयार करने के लिए डेटा की संरचना इष्टतम दृष्टिकोण निर्धारित करती है। संरचित डेटा, उदाहरण के लिए, आसानी से तालिकाओं में व्यवस्थित किया जा सकता है और डुप्लीकेशन के माध्यम से साफ किया जा सकता है, लापता मूल्यों को भर सकता है, या डेटा प्रारूपों को मानकीकृत कर सकता है। इसके विपरीत, असंरचित डेटा से प्रासंगिक विशेषताओं को निकालने के लिए अधिक जटिल तकनीकों की आवश्यकता होती है, जैसे या । प्राकृतिक भाषा प्रसंस्करण कंप्यूटर दृष्टि मशीन लर्निंग के लिए डेटा तैयार करने का इष्टतम तरीका भी प्रशिक्षण डेटा की मात्रा से प्रभावित होता है। एक बड़े डेटासेट को नमूनाकरण की आवश्यकता हो सकती है, जिसमें कम्प्यूटेशनल सीमाओं के कारण मॉडल को प्रशिक्षित करने के लिए डेटा का एक सबसेट चुनना शामिल है। एक छोटे से, बदले में, मौजूदा डेटा बिंदुओं के आधार पर अधिक डेटा उत्पन्न करने के लिए अतिरिक्त कदम उठाने की आवश्यकता हो सकती है (उस पर अधिक नीचे।) डेटा वैज्ञानिकों को एकत्रित डेटा की गुणवत्ता भी महत्वपूर्ण है। गलत या पक्षपाती डेटा का उपयोग एमएल आउटपुट को प्रभावित कर सकता है, जिसके महत्वपूर्ण परिणाम हो सकते हैं, विशेष रूप से वित्त, और आपराधिक न्याय जैसे क्षेत्रों में। ऐसी तकनीकें हैं जो डेटा को त्रुटि और पूर्वाग्रह के लिए ठीक करने की अनुमति देती हैं। हालाँकि, वे ऐसे डेटासेट पर काम नहीं कर सकते हैं जो स्वाभाविक रूप से तिरछा है। एक बार जब आप जान जाते हैं कि "अच्छा" डेटा क्या है, तो आपको यह तय करना होगा कि इसे कैसे एकत्र किया जाए और इसे कहाँ खोजा जाए। उसके लिए कई रणनीतियाँ हैं: स्वास्थ्य देखभाल : यदि आपके पास अपने में संग्रहीत जानकारी है, तो आप इसे एमएल एल्गोरिदम के प्रशिक्षण के लिए उपयोग कर सकते हैं। इस डेटा में बिक्री लेनदेन, ग्राहक बातचीत, सोशल मीडिया प्लेटफॉर्म से डेटा और अन्य स्रोत शामिल हो सकते हैं। आंतरिक स्रोतों से डेटा एकत्र करना एंटरप्राइज़ डेटा वेयरहाउस : आप सार्वजनिक रूप से उपलब्ध डेटा स्रोतों, जैसे सरकारी डेटा पोर्टल्स, अकादमिक डेटा रिपॉजिटरी, और डेटा साझा करने वाले समुदायों, जैसे कागल, यूसीआई मशीन लर्निंग रिपॉजिटरी, या Google डेटासेट खोज की ओर रुख कर सकते हैं। बाहरी स्रोतों से डेटा एकत्र करना : इस तकनीक में स्वचालित टूल का उपयोग करके वेबसाइटों से डेटा निकालना शामिल है। यह दृष्टिकोण उन स्रोतों से डेटा एकत्र करने के लिए उपयोगी हो सकता है जो उत्पाद समीक्षा, समाचार लेख और सोशल मीडिया जैसे अन्य माध्यमों से सुलभ नहीं हैं। वेब स्क्रैपिंग : इस दृष्टिकोण का उपयोग विशिष्ट लक्षित दर्शकों से विशिष्ट डेटा बिंदुओं को एकत्रित करने के लिए किया जा सकता है। यह उपयोगकर्ता की प्राथमिकताओं या व्यवहार के बारे में जानकारी एकत्र करने के लिए विशेष रूप से उपयोगी है। सर्वेक्षण हालांकि कभी-कभी, इन कार्यनीतियों से पर्याप्त डेटा नहीं मिलता है। आप इन तकनीकों से डेटा बिंदुओं की कमी की भरपाई कर सकते हैं: , जो मौजूदा नमूनों से उन्हें विभिन्न तरीकों से रूपांतरित करके अधिक डेटा उत्पन्न करने की अनुमति देता है, उदाहरण के लिए, घुमाना, अनुवाद करना या स्केल करना डेटा संवर्द्धन , जो मानव विशेषज्ञ द्वारा लेबलिंग के लिए सबसे अधिक जानकारीपूर्ण डेटा नमूना चुनने की अनुमति देता है। सक्रिय शिक्षण , जिसमें एक नए एमएल मॉडल को प्रशिक्षित करने के लिए एक प्रारंभिक बिंदु के रूप में संबंधित कार्य को हल करने के लिए लागू उपयोग करना शामिल है, इसके बाद नए डेटा पर नए मॉडल को ठीक करना शामिल है। ट्रांसफर लर्निंग पूर्व-प्रशिक्षित एमएल एल्गोरिदम का , जिसमें एक सामान्य लक्ष्य के लिए डेटा एकत्र करने और साझा करने के लिए अन्य शोधकर्ताओं और संगठनों के साथ काम करना शामिल है। सहयोगात्मक डेटा साझाकरण डेटा की सफाई मशीन लर्निंग के लिए डेटा तैयार करने के लिए अगला कदम इसे साफ करना है। डेटा की सफाई में त्रुटियों, विसंगतियों और लापता मूल्यों को खोजना और सुधारना शामिल है। ऐसा करने के कई तरीके हैं: लापता डेटा को संभालना मशीन लर्निंग में मिसिंग वैल्यू एक आम समस्या है। इसे अभियोग द्वारा नियंत्रित किया जा सकता है (सोचें: अनुमानित या अनुमानित डेटा के साथ लापता मूल्यों को भरना), प्रक्षेप (आसपास के डेटा बिंदुओं से लापता मूल्यों को प्राप्त करना), या विलोपन (डेटासेट से लापता मूल्यों के साथ पंक्तियों या स्तंभों को हटाना।) आउटलेयर को संभालना आउटलेयर वे डेटा बिंदु होते हैं जो बाकी डेटासेट से महत्वपूर्ण रूप से भिन्न होते हैं। माप त्रुटियों, डेटा प्रविष्टि त्रुटियों, या केवल इसलिए कि वे असामान्य या चरम टिप्पणियों का प्रतिनिधित्व करते हैं, के कारण आउटलेयर हो सकते हैं। कर्मचारी वेतन के डेटासेट में, उदाहरण के लिए, एक बाहरी कर्मचारी वह कर्मचारी हो सकता है जो दूसरों की तुलना में अधिक या कम कमाता है। आउटलेयर को हटाकर, उनके प्रभाव को कम करने के लिए रूपांतरित करके, विनसोराइजिंग (विचार करें: चरम मानों को निकटतम मानों के साथ बदलना जो वितरण की सामान्य सीमा के भीतर हैं) को नियंत्रित किया जा सकता है, या उन्हें डेटा के एक अलग वर्ग के रूप में माना जा सकता है। डुप्लीकेट हटाना मशीन लर्निंग के लिए डेटा तैयार करने की प्रक्रिया में एक और कदम डुप्लीकेट को हटाना है। डुप्लिकेट न केवल एमएल भविष्यवाणियों को तिरछा करते हैं, बल्कि भंडारण स्थान को भी बर्बाद करते हैं और प्रसंस्करण समय में वृद्धि करते हैं, विशेष रूप से बड़े डेटासेट में। डुप्लिकेट को हटाने के लिए, डेटा वैज्ञानिक विभिन्न प्रकार की डुप्लिकेट पहचान तकनीकों का सहारा लेते हैं (जैसे सटीक मिलान, फ़ज़ी मिलान, हैशिंग या रिकॉर्ड लिंकेज)। एक बार पहचाने जाने के बाद, उन्हें या तो गिराया या विलय किया जा सकता है। हालांकि, असंतुलित डेटासेट में, सामान्य वितरण प्राप्त करने के लिए वास्तव में डुप्लिकेट का स्वागत किया जा सकता है। अप्रासंगिक डेटा को संभालना अप्रासंगिक डेटा उस डेटा को संदर्भित करता है जो समस्या को हल करने के लिए उपयोगी या लागू नहीं होता है। अप्रासंगिक डेटा को संभालने से शोर कम करने और भविष्यवाणी सटीकता में सुधार करने में मदद मिल सकती है। अप्रासंगिक डेटा की पहचान करने के लिए, डेटा टीमें प्रमुख घटक विश्लेषण, सहसंबंध विश्लेषण जैसी तकनीकों का सहारा लेती हैं, या केवल अपने डोमेन ज्ञान पर भरोसा करती हैं। एक बार पहचाने जाने के बाद, ऐसे डेटा बिंदुओं को डेटासेट से हटा दिया जाता है। गलत डेटा को संभालना मशीन लर्निंग के लिए डेटा तैयार करने में गलत और गलत डेटा को हैंडल करना भी शामिल होना चाहिए। ऐसे डेटा से निपटने की सामान्य तकनीकों में डेटा ट्रांसफ़ॉर्मेशन (डेटा को बदलना, ताकि यह निर्धारित मानदंडों को पूरा करे) या गलत डेटा बिंदुओं को पूरी तरह से हटा देना शामिल है। असंतुलित डेटा को संभालना एक असंतुलित डेटासेट एक ऐसा डेटासेट होता है जिसमें एक वर्ग में डेटा बिंदुओं की संख्या किसी अन्य वर्ग के डेटा बिंदुओं की संख्या से काफी कम होती है। इसका परिणाम एक पक्षपाती मॉडल हो सकता है जो अल्पसंख्यक वर्ग की उपेक्षा करते हुए बहुसंख्यक वर्ग को प्राथमिकता दे रहा है। समस्या से निपटने के लिए, डेटा टीमें ऐसी तकनीकों का सहारा ले सकती हैं जैसे कि रीसैंपलिंग (या तो अल्पसंख्यक वर्ग का ओवरसैंपलिंग करना या डेटा के वितरण को संतुलित करने के लिए बहुसंख्यक वर्ग को अंडरसैंपलिंग करना), सिंथेटिक डेटा जनरेशन (अल्पसंख्यक वर्ग के लिए अतिरिक्त डेटा पॉइंट बनाना), लागत -सेंसिटिव लर्निंग (प्रशिक्षण के दौरान अल्पसंख्यक वर्ग को अधिक वजन देना), एनसेम्बल लर्निंग (विभिन्न एल्गोरिदम का उपयोग करके विभिन्न डेटा सबसेट पर प्रशिक्षित कई मॉडलों का संयोजन), और अन्य। ये गतिविधियाँ यह सुनिश्चित करने में मदद करती हैं कि प्रशिक्षण डेटा सटीक, पूर्ण और सुसंगत है। हालांकि एक बड़ी उपलब्धि, अभी तक एक विश्वसनीय एमएल मॉडल तैयार करना पर्याप्त नहीं है। इसलिए, मशीन लर्निंग के लिए डेटा तैयार करने की यात्रा के अगले चरण में यह सुनिश्चित करना शामिल है कि प्रशिक्षण डेटा सेट में डेटा बिंदु विशिष्ट नियमों और मानकों के अनुरूप हों। और प्रक्रिया में उस चरण को डेटा परिवर्तन कहा जाता है। डेटा प्रबंधन डेटा परिवर्तन डेटा परिवर्तन चरण के दौरान, आप कच्चे डेटा को मशीन लर्निंग एल्गोरिदम के लिए उपयुक्त प्रारूप में परिवर्तित करते हैं। बदले में, यह उच्च एल्गोरिथम प्रदर्शन और सटीकता सुनिश्चित करता है। मशीन लर्निंग के लिए डेटा तैयार करने में हमारे विशेषज्ञ निम्नलिखित सामान्य डेटा परिवर्तन तकनीकों का नाम देते हैं: स्केलिंग डेटासेट में, अलग-अलग सुविधाएं माप की अलग-अलग इकाइयों का इस्तेमाल कर सकती हैं। उदाहरण के लिए, एक रियल एस्टेट डेटासेट में प्रत्येक संपत्ति में कमरों की संख्या (एक से दस तक) और कीमत ($ 50,000 से $ 1,000,000 तक) के बारे में जानकारी शामिल हो सकती है। स्केलिंग के बिना, दोनों विशेषताओं के महत्व को संतुलित करना चुनौतीपूर्ण है। एल्गोरिथ्म बड़े मूल्यों के साथ सुविधा को बहुत अधिक महत्व दे सकता है - इस मामले में, कीमत - और छोटे मूल्यों के साथ सुविधा के लिए पर्याप्त नहीं है। स्केलिंग सभी डेटा बिंदुओं को इस तरह से रूपांतरित करके इस समस्या को हल करने में मदद करता है, जिससे वे एक निर्दिष्ट सीमा में फिट होते हैं, आमतौर पर 0 और 1 के बीच। अब आप समान स्तर पर विभिन्न चर की तुलना कर सकते हैं। मानकीकरण मशीन लर्निंग के लिए डेटा तैयार करने में उपयोग की जाने वाली एक अन्य तकनीक सामान्यीकरण है। यह स्केलिंग के समान है। हालाँकि, स्केलिंग से डेटासेट की सीमा बदल जाती है, सामान्यीकरण इसके वितरण को बदल देता है। एन्कोडिंग श्रेणीबद्ध डेटा में सीमित संख्या में मान होते हैं, उदाहरण के लिए, रंग, कार के मॉडल या जानवरों की प्रजातियाँ। क्योंकि मशीन लर्निंग एल्गोरिदम आमतौर पर संख्यात्मक डेटा के साथ काम करते हैं, इनपुट के रूप में उपयोग करने के लिए श्रेणीबद्ध डेटा को एन्कोड किया जाना चाहिए। तो, एन्कोडिंग श्रेणीबद्ध डेटा को एक संख्यात्मक प्रारूप में परिवर्तित करने के लिए है। चुनने के लिए कई एन्कोडिंग तकनीकें हैं, जिनमें वन-हॉट एन्कोडिंग, ऑर्डिनल एन्कोडिंग और लेबल एन्कोडिंग शामिल हैं। विवेक विवेकीकरण मशीन सीखने के लिए डेटा तैयार करने का एक दृष्टिकोण है जो निरंतर चर, जैसे समय, तापमान या वजन को असतत में बदलने की अनुमति देता है। ऐसे डेटासेट पर विचार करें जिसमें लोगों की ऊंचाई के बारे में जानकारी हो। प्रत्येक व्यक्ति की ऊंचाई को फीट या सेंटीमीटर में एक सतत चर के रूप में मापा जा सकता है। हालाँकि, कुछ एमएल एल्गोरिदम के लिए, इस डेटा को श्रेणियों में विभाजित करना आवश्यक हो सकता है, जैसे, "छोटा", "मध्यम", और "लंबा"। विवेकाधिकार ठीक यही करता है। यह प्रशिक्षण डाटासेट को सरल बनाने और समस्या की जटिलता को कम करने में मदद करता है। विवेकीकरण के लिए सामान्य दृष्टिकोण क्लस्टरिंग-आधारित और निर्णय-वृक्ष-आधारित विवेकीकरण है। आयामीता में कमी आयामीता में कमी एक डेटासेट में सुविधाओं या चर की संख्या को सीमित करने और समस्या को हल करने के लिए प्रासंगिक जानकारी को संरक्षित करने के लिए है। ग्राहकों के खरीदारी इतिहास की जानकारी वाले डेटासेट पर विचार करें। इसमें खरीदारी की तारीख, खरीदी गई वस्तु, वस्तु की कीमत और वह स्थान जहां खरीदारी हुई थी, की जानकारी होती है। इस डेटासेट के आयाम को कम करते हुए, हम सबसे महत्वपूर्ण सुविधाओं को छोड़कर सभी को छोड़ देते हैं, कहते हैं, खरीदी गई वस्तु और उसकी कीमत। विभिन्न प्रकार की तकनीकों के साथ आयामीता में कमी की जा सकती है, उनमें से कुछ प्रमुख घटक विश्लेषण, रैखिक विभेदक विश्लेषण और टी-वितरित स्टोकेस्टिक पड़ोसी एम्बेडिंग हैं। लॉग परिवर्तन मशीन लर्निंग के लिए डेटा तैयार करने का एक अन्य तरीका, लॉग ट्रांसफ़ॉर्मेशन, एक डेटासेट में चर के मानों के लिए एक लॉगरिदमिक फ़ंक्शन लागू करने को संदर्भित करता है। इसका उपयोग अक्सर तब किया जाता है जब प्रशिक्षण डेटा अत्यधिक तिरछा होता है या इसमें मूल्यों की एक बड़ी श्रृंखला होती है। लॉगरिदमिक फ़ंक्शन लागू करने से डेटा के वितरण को अधिक सममित बनाने में मदद मिल सकती है। डेटा ट्रांसफ़ॉर्मेशन की बात करें तो हमें भी उल्लेख करना चाहिए। जबकि यह डेटा परिवर्तन का एक रूप है, यह मशीन सीखने के लिए डेटा तैयार करने की प्रक्रिया में एक तकनीक या एक कदम से अधिक है। यह डेटासेट में सुविधाओं को चुनने, बदलने और बनाने के लिए है। फीचर इंजीनियरिंग में सांख्यिकीय, गणितीय और कम्प्यूटेशनल तकनीकों का संयोजन शामिल है, जिसमें एमएल मॉडल का उपयोग शामिल है, ताकि डेटा में सबसे अधिक प्रासंगिक जानकारी प्राप्त करने वाली विशेषताएं बनाई जा सकें। फ़ीचर इंजीनियरिंग का यह आमतौर पर एक पुनरावृत्ति प्रक्रिया है जिसमें किसी समस्या को हल करने के लिए सर्वोत्तम दृष्टिकोण के साथ आने के लिए विभिन्न तकनीकों और फीचर संयोजनों का और मूल्यांकन करने की आवश्यकता होती है। परीक्षण डेटा विभाजन मशीन लर्निंग के लिए डेटा तैयार करने की प्रक्रिया के अगले चरण में सभी एकत्रित डेटा को सबसेट में विभाजित करना शामिल है - प्रक्रिया को डेटा विभाजन के रूप में जाना जाता है। आमतौर पर, डेटा को प्रशिक्षण, सत्यापन और परीक्षण डेटासेट में विभाजित किया जाता है। का उपयोग वास्तव में मशीन लर्निंग मॉडल को इनपुट और लक्ष्य चर के बीच पैटर्न और संबंधों को पहचानने के लिए सिखाने के लिए किया जाता है। यह डेटासेट आम तौर पर सबसे बड़ा होता है। एक प्रशिक्षण डेटासेट डेटा का एक सबसेट है जिसका उपयोग प्रशिक्षण के दौरान मॉडल के प्रदर्शन का मूल्यांकन करने के लिए किया जाता है। यह हाइपरपरमेटर्स को समायोजित करके मॉडल को फाइन-ट्यून करने में मदद करता है (सोचें: प्रशिक्षण प्रक्रिया के पैरामीटर जो प्रशिक्षण से पहले मैन्युअल रूप से सेट किए जाते हैं, जैसे सीखने की दर, नियमितीकरण शक्ति, या छिपी हुई परतों की संख्या)। सत्यापन डेटासेट प्रशिक्षण डेटा को ओवरफिट करने से रोकने में भी मदद करता है। एक सत्यापन डेटासेट डेटा का एक सबसेट है जिसका उपयोग प्रशिक्षित मॉडल के प्रदर्शन का मूल्यांकन करने के लिए किया जाता है। इसका लक्ष्य नए, अनदेखे डेटा पर मॉडल की सटीकता का आकलन करना है। परीक्षण डेटासेट का उपयोग केवल एक बार किया जाता है - मॉडल को प्रशिक्षण और सत्यापन डेटासेट पर प्रशिक्षित और ठीक करने के बाद। एक परीक्षण डेटासेट डेटा को विभाजित करके, हम यह आकलन कर सकते हैं कि मशीन लर्निंग मॉडल उस डेटा पर कितना अच्छा प्रदर्शन करता है जिसे उसने पहले नहीं देखा है। बंटवारे के बिना, संभावना है कि मॉडल नए डेटा पर खराब प्रदर्शन करेगा। ऐसा इसलिए हो सकता है क्योंकि मॉडल ने पैटर्न सीखने और उन्हें नए डेटा के लिए सामान्यीकृत करने के बजाय केवल डेटा बिंदुओं को याद किया हो। डेटा विभाजन के लिए कई दृष्टिकोण हैं, और इष्टतम का चुनाव हल की जा रही समस्या और डेटासेट के गुणों पर निर्भर करता है। मशीन लर्निंग के लिए डेटा तैयार करने वाले हमारे विशेषज्ञों का कहना है कि सबसे प्रभावी विभाजन रणनीति निर्धारित करने के लिए अक्सर डेटा टीम से कुछ प्रयोग करने की आवश्यकता होती है। निम्नलिखित सबसे आम हैं: , जहां, जैसा कि नाम से पता चलता है, डेटा को बेतरतीब ढंग से विभाजित किया जाता है। यह दृष्टिकोण अक्सर मॉडलिंग की जा रही जनसंख्या के बड़े डेटासेट प्रतिनिधि पर लागू होता है। वैकल्पिक रूप से, इसका उपयोग तब किया जाता है जब डेटा में कोई ज्ञात संबंध नहीं होता है जिसके लिए अधिक विशिष्ट दृष्टिकोण की आवश्यकता होती है। रैंडम सैंपलिंग , जहां डेटा को वर्ग लेबल या अन्य विशेषताओं के आधार पर उपसमुच्चय में विभाजित किया जाता है, इसके बाद इन उपसमुच्चयों का यादृच्छिक रूप से नमूनाकरण किया जाता है। यह रणनीति असंतुलित डेटासेट पर लागू होती है जिसमें एक वर्ग में मूल्यों की संख्या दूसरों में मूल्यों की संख्या से काफी अधिक होती है। उस मामले में, स्तरीकृत नमूनाकरण यह सुनिश्चित करने में मदद करता है कि प्रशिक्षण और परीक्षण डेटासेट में प्रत्येक वर्ग के मानों का समान वितरण हो। स्तरीकृत नमूनाकरण , जहाँ एक निश्चित समय तक एकत्र किया गया डेटा एक प्रशिक्षण डेटासेट बनाता है, जबकि निर्धारित बिंदु के बाद एकत्र किया गया डेटा एक परीक्षण डेटासेट में बनता है। इस दृष्टिकोण का उपयोग तब किया जाता है जब डेटा को लंबी अवधि में एकत्र किया गया हो, उदाहरण के लिए, वित्तीय या चिकित्सा डेटासेट में, क्योंकि यह यह सुनिश्चित करने की अनुमति देता है कि मॉडल भविष्य के डेटा पर सटीक भविष्यवाणी कर सकता है। समय-आधारित नमूनाकरण , जहां डेटा को कई सबसेट या फोल्ड में विभाजित किया जाता है। कुछ तह का उपयोग मॉडल को प्रशिक्षित करने के लिए किया जाता है, जबकि शेष का उपयोग प्रदर्शन मूल्यांकन के लिए किया जाता है। प्रक्रिया को कई बार दोहराया जाता है, जिसमें प्रत्येक तह कम से कम एक बार परीक्षण डेटा के रूप में काम करती है। कई क्रॉस-वैलिडेशन तकनीकें हैं, उदाहरण के लिए, के-फोल्ड क्रॉस-वैलिडेशन और लीव-वन-आउट क्रॉस-वैलिडेशन। क्रॉस-सत्यापन आमतौर पर एकल परीक्षण डेटासेट पर मूल्यांकन की तुलना में मॉडल के प्रदर्शन का अधिक सटीक अनुमान प्रदान करता है। क्रॉस-वैलिडेशन अंतिम नोट पर सटीक और विश्वसनीय मशीन लर्निंग समाधान विकसित करने के लिए मशीन लर्निंग के लिए उचित डेटा तैयार करना आवश्यक है। ITRex में, हम डेटा तैयार करने की चुनौतियों और एक सफल मशीन लर्निंग प्रक्रिया के लिए गुणवत्तापूर्ण डेटासेट होने के महत्व को समझते हैं। यदि आप मशीन लर्निंग के माध्यम से अपने डेटा की क्षमता को अधिकतम करना चाहते हैं, । हमारे विशेषज्ञ आपके डेटा को एकत्र करने, साफ करने और बदलने में सहायता प्रदान करेंगे। तो ITRex टीम से संपर्क करें भी प्रकाशित हुआ। यहाँ