वर्षों पहले, जब Spotify अपने अनुशंसा इंजन पर काम कर रहा था, तो उन्हें एमएल एल्गोरिदम के प्रशिक्षण के लिए उपयोग किए जाने वाले डेटा की गुणवत्ता से संबंधित चुनौतियों का सामना करना पड़ा।
अगर उन्होंने डेटा तैयार करने के चरण में वापस जाने और अपने डेटा को साफ करने, सामान्य बनाने और बदलने में अतिरिक्त प्रयास करने का फैसला नहीं किया होता, तो संभावना है कि हमारा सुनने का अनुभव उतना आनंददायक नहीं होता।
मशीन लर्निंग के लिए पूरी तरह से डेटा तैयार करने से स्ट्रीमिंग प्लेटफॉर्म को एक शक्तिशाली एमएल इंजन को प्रशिक्षित करने की अनुमति मिली जो उपयोगकर्ताओं की सुनने की प्राथमिकताओं की सटीक भविष्यवाणी करता है और अत्यधिक वैयक्तिकृत संगीत अनुशंसाएं प्रदान करता है।
जब मशीन लर्निंग के लिए डेटा तैयार करने की बात आती है तो स्पोटिफाई कंपनियां एक महत्वपूर्ण गलती से बचती हैं - पर्याप्त प्रयास नहीं करना या मंच को छोड़ देना।
कई व्यवसाय मानते हैं कि एमएल इंजन में बड़ी मात्रा में डेटा फीड करना सटीक भविष्यवाणियां करने के लिए पर्याप्त है। सच्चाई यह है कि इसके परिणामस्वरूप कई समस्याएं हो सकती हैं, उदाहरण के लिए, एल्गोरिथम पूर्वाग्रह या सीमित मापनीयता।
मशीन लर्निंग की सफलता काफी हद तक डेटा पर निर्भर करती है।
और दुख की बात है: सभी डेटा सेट त्रुटिपूर्ण हैं। इसीलिए मशीन लर्निंग के लिए डेटा तैयार करना महत्वपूर्ण है। यह कच्चे डेटा में निहित अशुद्धियों और पूर्वाग्रहों को दूर करने में मदद करता है, ताकि परिणामी एमएल मॉडल अधिक विश्वसनीय और सटीक भविष्यवाणियां उत्पन्न कर सके।
इस ब्लॉग पोस्ट में, हम मशीन लर्निंग के लिए डेटा तैयार करने के महत्व पर प्रकाश डालते हैं और डेटा एकत्र करने, साफ करने और बदलने के लिए अपना दृष्टिकोण साझा करते हैं। इसलिए, यदि आप एमएल के लिए नए हैं और यह सुनिश्चित करना चाहते हैं कि आपकी पहल सफल हो, तो पढ़ना जारी रखें।
एमएल को सफलतापूर्वक अपनाने की दिशा में पहला कदम आपकी व्यावसायिक समस्या को स्पष्ट रूप से तैयार कर रहा है। यह न केवल यह सुनिश्चित करता है कि आप जो एमएल मॉडल बना रहे हैं, वह आपकी व्यावसायिक आवश्यकताओं के अनुरूप है, बल्कि यह आपको डेटा तैयार करने में समय और पैसा बचाने की भी अनुमति देता है जो प्रासंगिक नहीं हो सकता है।
इसके अतिरिक्त, एक स्पष्ट समस्या कथन एमएल मॉडल को समझाने योग्य बनाता है (जिसका अर्थ है कि उपयोगकर्ता समझते हैं कि यह कैसे निर्णय लेता है)। यह स्वास्थ्य सेवा और वित्त जैसे क्षेत्रों में विशेष रूप से महत्वपूर्ण है, जहां मशीन लर्निंग का लोगों के जीवन पर बड़ा प्रभाव पड़ता है।
व्यावसायिक समस्या समाप्त होने के साथ, यह डेटा कार्य को शुरू करने का समय है।
कुल मिलाकर, मशीन लर्निंग के लिए डेटा तैयार करने की प्रक्रिया को निम्न चरणों में विभाजित किया जा सकता है:
आइए प्रत्येक पर करीब से नज़र डालें।
मशीन लर्निंग के लिए डेटा तैयार करना डेटा संग्रह से शुरू होता है। डेटा संग्रह चरण के दौरान, आप भविष्य के एमएल मॉडल के प्रशिक्षण और ट्यूनिंग के लिए डेटा एकत्र करते हैं। ऐसा करते हुए, डेटा के प्रकार, मात्रा और गुणवत्ता को ध्यान में रखें: ये कारक सर्वोत्तम डेटा तैयार करने की रणनीति निर्धारित करेंगे।
मशीन लर्निंग तीन प्रकार के डेटा का उपयोग करता है: संरचित, असंरचित और अर्ध-संरचित।
मशीन सीखने के लिए डेटा तैयार करने के लिए डेटा की संरचना इष्टतम दृष्टिकोण निर्धारित करती है। संरचित डेटा, उदाहरण के लिए, आसानी से तालिकाओं में व्यवस्थित किया जा सकता है और डुप्लीकेशन के माध्यम से साफ किया जा सकता है, लापता मूल्यों को भर सकता है, या डेटा प्रारूपों को मानकीकृत कर सकता है।
इसके विपरीत, असंरचित डेटा से प्रासंगिक विशेषताओं को निकालने के लिए अधिक जटिल तकनीकों की आवश्यकता होती है, जैसे प्राकृतिक भाषा प्रसंस्करण या कंप्यूटर दृष्टि ।
मशीन लर्निंग के लिए डेटा तैयार करने का इष्टतम तरीका भी प्रशिक्षण डेटा की मात्रा से प्रभावित होता है। एक बड़े डेटासेट को नमूनाकरण की आवश्यकता हो सकती है, जिसमें कम्प्यूटेशनल सीमाओं के कारण मॉडल को प्रशिक्षित करने के लिए डेटा का एक सबसेट चुनना शामिल है। एक छोटे से, बदले में, डेटा वैज्ञानिकों को मौजूदा डेटा बिंदुओं के आधार पर अधिक डेटा उत्पन्न करने के लिए अतिरिक्त कदम उठाने की आवश्यकता हो सकती है (उस पर अधिक नीचे।)
एकत्रित डेटा की गुणवत्ता भी महत्वपूर्ण है। गलत या पक्षपाती डेटा का उपयोग एमएल आउटपुट को प्रभावित कर सकता है, जिसके महत्वपूर्ण परिणाम हो सकते हैं, विशेष रूप से वित्त, स्वास्थ्य देखभाल और आपराधिक न्याय जैसे क्षेत्रों में। ऐसी तकनीकें हैं जो डेटा को त्रुटि और पूर्वाग्रह के लिए ठीक करने की अनुमति देती हैं। हालाँकि, वे ऐसे डेटासेट पर काम नहीं कर सकते हैं जो स्वाभाविक रूप से तिरछा है। एक बार जब आप जान जाते हैं कि "अच्छा" डेटा क्या है, तो आपको यह तय करना होगा कि इसे कैसे एकत्र किया जाए और इसे कहाँ खोजा जाए। उसके लिए कई रणनीतियाँ हैं:
हालांकि कभी-कभी, इन कार्यनीतियों से पर्याप्त डेटा नहीं मिलता है। आप इन तकनीकों से डेटा बिंदुओं की कमी की भरपाई कर सकते हैं:
मशीन लर्निंग के लिए डेटा तैयार करने के लिए अगला कदम इसे साफ करना है। डेटा की सफाई में त्रुटियों, विसंगतियों और लापता मूल्यों को खोजना और सुधारना शामिल है। ऐसा करने के कई तरीके हैं:
लापता डेटा को संभालना
मशीन लर्निंग में मिसिंग वैल्यू एक आम समस्या है। इसे अभियोग द्वारा नियंत्रित किया जा सकता है (सोचें: अनुमानित या अनुमानित डेटा के साथ लापता मूल्यों को भरना), प्रक्षेप (आसपास के डेटा बिंदुओं से लापता मूल्यों को प्राप्त करना), या विलोपन (डेटासेट से लापता मूल्यों के साथ पंक्तियों या स्तंभों को हटाना।)
आउटलेयर को संभालना
आउटलेयर वे डेटा बिंदु होते हैं जो बाकी डेटासेट से महत्वपूर्ण रूप से भिन्न होते हैं। माप त्रुटियों, डेटा प्रविष्टि त्रुटियों, या केवल इसलिए कि वे असामान्य या चरम टिप्पणियों का प्रतिनिधित्व करते हैं, के कारण आउटलेयर हो सकते हैं। कर्मचारी वेतन के डेटासेट में, उदाहरण के लिए, एक बाहरी कर्मचारी वह कर्मचारी हो सकता है जो दूसरों की तुलना में अधिक या कम कमाता है। आउटलेयर को हटाकर, उनके प्रभाव को कम करने के लिए रूपांतरित करके, विनसोराइजिंग (विचार करें: चरम मानों को निकटतम मानों के साथ बदलना जो वितरण की सामान्य सीमा के भीतर हैं) को नियंत्रित किया जा सकता है, या उन्हें डेटा के एक अलग वर्ग के रूप में माना जा सकता है।
डुप्लीकेट हटाना
मशीन लर्निंग के लिए डेटा तैयार करने की प्रक्रिया में एक और कदम डुप्लीकेट को हटाना है। डुप्लिकेट न केवल एमएल भविष्यवाणियों को तिरछा करते हैं, बल्कि भंडारण स्थान को भी बर्बाद करते हैं और प्रसंस्करण समय में वृद्धि करते हैं, विशेष रूप से बड़े डेटासेट में। डुप्लिकेट को हटाने के लिए, डेटा वैज्ञानिक विभिन्न प्रकार की डुप्लिकेट पहचान तकनीकों का सहारा लेते हैं (जैसे सटीक मिलान, फ़ज़ी मिलान, हैशिंग या रिकॉर्ड लिंकेज)। एक बार पहचाने जाने के बाद, उन्हें या तो गिराया या विलय किया जा सकता है। हालांकि, असंतुलित डेटासेट में, सामान्य वितरण प्राप्त करने के लिए वास्तव में डुप्लिकेट का स्वागत किया जा सकता है।
अप्रासंगिक डेटा को संभालना
अप्रासंगिक डेटा उस डेटा को संदर्भित करता है जो समस्या को हल करने के लिए उपयोगी या लागू नहीं होता है। अप्रासंगिक डेटा को संभालने से शोर कम करने और भविष्यवाणी सटीकता में सुधार करने में मदद मिल सकती है। अप्रासंगिक डेटा की पहचान करने के लिए, डेटा टीमें प्रमुख घटक विश्लेषण, सहसंबंध विश्लेषण जैसी तकनीकों का सहारा लेती हैं, या केवल अपने डोमेन ज्ञान पर भरोसा करती हैं। एक बार पहचाने जाने के बाद, ऐसे डेटा बिंदुओं को डेटासेट से हटा दिया जाता है।
गलत डेटा को संभालना
मशीन लर्निंग के लिए डेटा तैयार करने में गलत और गलत डेटा को हैंडल करना भी शामिल होना चाहिए। ऐसे डेटा से निपटने की सामान्य तकनीकों में डेटा ट्रांसफ़ॉर्मेशन (डेटा को बदलना, ताकि यह निर्धारित मानदंडों को पूरा करे) या गलत डेटा बिंदुओं को पूरी तरह से हटा देना शामिल है।
असंतुलित डेटा को संभालना
एक असंतुलित डेटासेट एक ऐसा डेटासेट होता है जिसमें एक वर्ग में डेटा बिंदुओं की संख्या किसी अन्य वर्ग के डेटा बिंदुओं की संख्या से काफी कम होती है। इसका परिणाम एक पक्षपाती मॉडल हो सकता है जो अल्पसंख्यक वर्ग की उपेक्षा करते हुए बहुसंख्यक वर्ग को प्राथमिकता दे रहा है। समस्या से निपटने के लिए, डेटा टीमें ऐसी तकनीकों का सहारा ले सकती हैं जैसे कि रीसैंपलिंग (या तो अल्पसंख्यक वर्ग का ओवरसैंपलिंग करना या डेटा के वितरण को संतुलित करने के लिए बहुसंख्यक वर्ग को अंडरसैंपलिंग करना), सिंथेटिक डेटा जनरेशन (अल्पसंख्यक वर्ग के लिए अतिरिक्त डेटा पॉइंट बनाना), लागत -सेंसिटिव लर्निंग (प्रशिक्षण के दौरान अल्पसंख्यक वर्ग को अधिक वजन देना), एनसेम्बल लर्निंग (विभिन्न एल्गोरिदम का उपयोग करके विभिन्न डेटा सबसेट पर प्रशिक्षित कई मॉडलों का संयोजन), और अन्य।
ये गतिविधियाँ यह सुनिश्चित करने में मदद करती हैं कि प्रशिक्षण डेटा सटीक, पूर्ण और सुसंगत है। हालांकि एक बड़ी उपलब्धि, अभी तक एक विश्वसनीय एमएल मॉडल तैयार करना पर्याप्त नहीं है। इसलिए, मशीन लर्निंग के लिए डेटा तैयार करने की यात्रा के अगले चरण में यह सुनिश्चित करना शामिल है कि प्रशिक्षण डेटा सेट में डेटा बिंदु विशिष्ट नियमों और मानकों के अनुरूप हों। और डेटा प्रबंधन प्रक्रिया में उस चरण को डेटा परिवर्तन कहा जाता है।
डेटा परिवर्तन चरण के दौरान, आप कच्चे डेटा को मशीन लर्निंग एल्गोरिदम के लिए उपयुक्त प्रारूप में परिवर्तित करते हैं। बदले में, यह उच्च एल्गोरिथम प्रदर्शन और सटीकता सुनिश्चित करता है।
मशीन लर्निंग के लिए डेटा तैयार करने में हमारे विशेषज्ञ निम्नलिखित सामान्य डेटा परिवर्तन तकनीकों का नाम देते हैं:
स्केलिंग
डेटासेट में, अलग-अलग सुविधाएं माप की अलग-अलग इकाइयों का इस्तेमाल कर सकती हैं। उदाहरण के लिए, एक रियल एस्टेट डेटासेट में प्रत्येक संपत्ति में कमरों की संख्या (एक से दस तक) और कीमत ($ 50,000 से $ 1,000,000 तक) के बारे में जानकारी शामिल हो सकती है। स्केलिंग के बिना, दोनों विशेषताओं के महत्व को संतुलित करना चुनौतीपूर्ण है। एल्गोरिथ्म बड़े मूल्यों के साथ सुविधा को बहुत अधिक महत्व दे सकता है - इस मामले में, कीमत - और छोटे मूल्यों के साथ सुविधा के लिए पर्याप्त नहीं है। स्केलिंग सभी डेटा बिंदुओं को इस तरह से रूपांतरित करके इस समस्या को हल करने में मदद करता है, जिससे वे एक निर्दिष्ट सीमा में फिट होते हैं, आमतौर पर 0 और 1 के बीच। अब आप समान स्तर पर विभिन्न चर की तुलना कर सकते हैं।
मानकीकरण
मशीन लर्निंग के लिए डेटा तैयार करने में उपयोग की जाने वाली एक अन्य तकनीक सामान्यीकरण है। यह स्केलिंग के समान है। हालाँकि, स्केलिंग से डेटासेट की सीमा बदल जाती है, सामान्यीकरण इसके वितरण को बदल देता है।
एन्कोडिंग
श्रेणीबद्ध डेटा में सीमित संख्या में मान होते हैं, उदाहरण के लिए, रंग, कार के मॉडल या जानवरों की प्रजातियाँ। क्योंकि मशीन लर्निंग एल्गोरिदम आमतौर पर संख्यात्मक डेटा के साथ काम करते हैं, इनपुट के रूप में उपयोग करने के लिए श्रेणीबद्ध डेटा को एन्कोड किया जाना चाहिए। तो, एन्कोडिंग श्रेणीबद्ध डेटा को एक संख्यात्मक प्रारूप में परिवर्तित करने के लिए है। चुनने के लिए कई एन्कोडिंग तकनीकें हैं, जिनमें वन-हॉट एन्कोडिंग, ऑर्डिनल एन्कोडिंग और लेबल एन्कोडिंग शामिल हैं।
विवेक
विवेकीकरण मशीन सीखने के लिए डेटा तैयार करने का एक दृष्टिकोण है जो निरंतर चर, जैसे समय, तापमान या वजन को असतत में बदलने की अनुमति देता है। ऐसे डेटासेट पर विचार करें जिसमें लोगों की ऊंचाई के बारे में जानकारी हो। प्रत्येक व्यक्ति की ऊंचाई को फीट या सेंटीमीटर में एक सतत चर के रूप में मापा जा सकता है। हालाँकि, कुछ एमएल एल्गोरिदम के लिए, इस डेटा को श्रेणियों में विभाजित करना आवश्यक हो सकता है, जैसे, "छोटा", "मध्यम", और "लंबा"। विवेकाधिकार ठीक यही करता है। यह प्रशिक्षण डाटासेट को सरल बनाने और समस्या की जटिलता को कम करने में मदद करता है। विवेकीकरण के लिए सामान्य दृष्टिकोण क्लस्टरिंग-आधारित और निर्णय-वृक्ष-आधारित विवेकीकरण है।
आयामीता में कमी
आयामीता में कमी एक डेटासेट में सुविधाओं या चर की संख्या को सीमित करने और समस्या को हल करने के लिए प्रासंगिक जानकारी को संरक्षित करने के लिए है। ग्राहकों के खरीदारी इतिहास की जानकारी वाले डेटासेट पर विचार करें। इसमें खरीदारी की तारीख, खरीदी गई वस्तु, वस्तु की कीमत और वह स्थान जहां खरीदारी हुई थी, की जानकारी होती है। इस डेटासेट के आयाम को कम करते हुए, हम सबसे महत्वपूर्ण सुविधाओं को छोड़कर सभी को छोड़ देते हैं, कहते हैं, खरीदी गई वस्तु और उसकी कीमत। विभिन्न प्रकार की तकनीकों के साथ आयामीता में कमी की जा सकती है, उनमें से कुछ प्रमुख घटक विश्लेषण, रैखिक विभेदक विश्लेषण और टी-वितरित स्टोकेस्टिक पड़ोसी एम्बेडिंग हैं।
लॉग परिवर्तन
मशीन लर्निंग के लिए डेटा तैयार करने का एक अन्य तरीका, लॉग ट्रांसफ़ॉर्मेशन, एक डेटासेट में चर के मानों के लिए एक लॉगरिदमिक फ़ंक्शन लागू करने को संदर्भित करता है। इसका उपयोग अक्सर तब किया जाता है जब प्रशिक्षण डेटा अत्यधिक तिरछा होता है या इसमें मूल्यों की एक बड़ी श्रृंखला होती है। लॉगरिदमिक फ़ंक्शन लागू करने से डेटा के वितरण को अधिक सममित बनाने में मदद मिल सकती है।
डेटा ट्रांसफ़ॉर्मेशन की बात करें तो हमें फ़ीचर इंजीनियरिंग का भी उल्लेख करना चाहिए। जबकि यह डेटा परिवर्तन का एक रूप है, यह मशीन सीखने के लिए डेटा तैयार करने की प्रक्रिया में एक तकनीक या एक कदम से अधिक है। यह डेटासेट में सुविधाओं को चुनने, बदलने और बनाने के लिए है। फीचर इंजीनियरिंग में सांख्यिकीय, गणितीय और कम्प्यूटेशनल तकनीकों का संयोजन शामिल है, जिसमें एमएल मॉडल का उपयोग शामिल है, ताकि डेटा में सबसे अधिक प्रासंगिक जानकारी प्राप्त करने वाली विशेषताएं बनाई जा सकें।
यह आमतौर पर एक पुनरावृत्ति प्रक्रिया है जिसमें किसी समस्या को हल करने के लिए सर्वोत्तम दृष्टिकोण के साथ आने के लिए विभिन्न तकनीकों और फीचर संयोजनों का परीक्षण और मूल्यांकन करने की आवश्यकता होती है।
मशीन लर्निंग के लिए डेटा तैयार करने की प्रक्रिया के अगले चरण में सभी एकत्रित डेटा को सबसेट में विभाजित करना शामिल है - प्रक्रिया को डेटा विभाजन के रूप में जाना जाता है। आमतौर पर, डेटा को प्रशिक्षण, सत्यापन और परीक्षण डेटासेट में विभाजित किया जाता है।
डेटा को विभाजित करके, हम यह आकलन कर सकते हैं कि मशीन लर्निंग मॉडल उस डेटा पर कितना अच्छा प्रदर्शन करता है जिसे उसने पहले नहीं देखा है। बंटवारे के बिना, संभावना है कि मॉडल नए डेटा पर खराब प्रदर्शन करेगा। ऐसा इसलिए हो सकता है क्योंकि मॉडल ने पैटर्न सीखने और उन्हें नए डेटा के लिए सामान्यीकृत करने के बजाय केवल डेटा बिंदुओं को याद किया हो।
डेटा विभाजन के लिए कई दृष्टिकोण हैं, और इष्टतम का चुनाव हल की जा रही समस्या और डेटासेट के गुणों पर निर्भर करता है। मशीन लर्निंग के लिए डेटा तैयार करने वाले हमारे विशेषज्ञों का कहना है कि सबसे प्रभावी विभाजन रणनीति निर्धारित करने के लिए अक्सर डेटा टीम से कुछ प्रयोग करने की आवश्यकता होती है। निम्नलिखित सबसे आम हैं:
सटीक और विश्वसनीय मशीन लर्निंग समाधान विकसित करने के लिए मशीन लर्निंग के लिए उचित डेटा तैयार करना आवश्यक है। ITRex में, हम डेटा तैयार करने की चुनौतियों और एक सफल मशीन लर्निंग प्रक्रिया के लिए गुणवत्तापूर्ण डेटासेट होने के महत्व को समझते हैं।
यदि आप मशीन लर्निंग के माध्यम से अपने डेटा की क्षमता को अधिकतम करना चाहते हैं, तो ITRex टीम से संपर्क करें । हमारे विशेषज्ञ आपके डेटा को एकत्र करने, साफ करने और बदलने में सहायता प्रदान करेंगे।
यहाँ भी प्रकाशित हुआ।