डेटा एनालिटिक्स और बिजनेस इंटेलिजेंस की दुनिया में, डेटा टीमें, जिन्हें " पर्पल टीम " भी कहा जाता है, जो व्यावसायिक उपयोगकर्ताओं (लाल) के लिए आवश्यक समाधान बनाती हैं और इंजीनियरिंग टीमों (नीला) के साथ काम करती हैं, अनिवार्य रूप से डेटा के लिए बुनियादी ढांचे का निर्माण करती हैं। .
बीआई टीमें मुख्य रूप से प्रवाह या पाइपलाइनों के निर्माण पर काम करती हैं जो व्यावसायिक उपयोगकर्ता उपभोग के लिए रिपोर्ट और आवश्यक डैशबोर्ड प्रदान करती हैं।
ऐसे कई नई पीढ़ी के उपकरण हैं जो डेटा टीमों को इन अंतिम-उपयोगकर्ता समाधानों को बनाने में मदद करते हैं, जैसे मोड , सुपरसेट , और लाइटडैश , या उद्योग के नेता जो कुछ समय के लिए "डेटा एनालिटिक्स" क्षेत्र में थे, जैसे टेबलो या पावरबीआई।
इन समाधानों का निर्माण करने वाले विश्लेषकों को अपना डेटा विविध स्रोतों से तैयार करना होगा, यह सुनिश्चित करते हुए कि डेटा पूछताछ के लिए स्वच्छ है। उपकरण या परिवर्तनों का एक सेट जिसका उद्देश्य वर्कफ़्लो में एक सफ़ाई चरण निष्पादित करना है जिसे "डेटा तैयारी" कहा जाता है।
बड़े भाषा मॉडल के आगमन के साथ, एआई पर चर्चा करना सॉफ्टवेयर इंजीनियरिंग स्टैक में एक आम प्रवृत्ति रही है। लेकिन क्या होगा अगर मैं कहूं: डेटा-केंद्रित एआई प्रथाओं का उपयोग करके, हम डेटा चरण की सफाई को स्वचालित कर सकते हैं? आपको न्यूनतम प्रयास के साथ डेटासेट का एक साफ़ संस्करण निर्यात करने में सक्षम बनाता है!
इस ब्लॉग में, हम चर्चा करेंगे कि कैसे डेटा-केंद्रित एआई का उपयोग करके, आप अपने बाद के डेटा विश्लेषण से विश्वसनीय निष्कर्ष सुनिश्चित करने के लिए बीआई टूल के लिए अपना डेटा आसानी से तैयार कर सकते हैं।
कई साल पहले, डेटा विश्लेषकों को मैन्युअल रूप से डेटा एकत्र करना, साफ करना और विश्लेषण करना पड़ता था, जो एक समय लेने वाली प्रक्रिया थी जिससे मूल्यवान अंतर्दृष्टि प्राप्त करने की उनकी क्षमता सीमित हो जाती थी।
आज, डेटा विश्लेषण परिदृश्य में डेटा तैयार करने वाले टूल जैसे कि एल्टरेक्स , टेबलौ आदि की शुरूआत के साथ एक महत्वपूर्ण परिवर्तन आया है।
इन कुशल उपकरणों ने वर्कफ़्लो को सरल बना दिया है, जिससे विश्लेषकों को कई स्रोतों से डेटा को सहजता से एकीकृत करने, डेटा सफाई कार्यों को स्वचालित करने और डेटा के दृश्यमान आकर्षक और व्यावहारिक प्रतिनिधित्व उत्पन्न करने में सक्षम बनाया गया है।
विशिष्ट व्यावसायिक प्रश्नों की पहचान के लिए टूल का उपयोग करके तैयार किए गए डेटा का बीआई टूल का उपयोग करके विश्लेषण किया जाता है।
उदाहरण के लिए, एक बैंक के भीतर ग्राहक अनुरोधों के इस डेटासेट पर विचार करें जहां ग्राहक ग्राहक सेवा पोर्टल में आने वाली समस्याओं को लॉग करते हैं, जिसे एक मानव या स्वचालित कार्य प्रबंधक लेबल करता है।
कल्पना करें कि यदि एक व्यवसाय विश्लेषक को किसी विशेष मुद्दे श्रेणी के लिए आने वाले ग्राहक अनुरोधों की संख्या निर्धारित करनी है। नीचे वह परिणाम है जो वह देख रहा होगा - beneficiary_not_allowed
श्रेणी में 111
ग्राहक समस्याएं दिखाई दे रही हैं।
इसी तरह, यदि कोई विश्लेषक यह जानना चाहता है कि ATM
शब्द से संबंधित मुद्दों के कितने उदाहरण हैं, तो एक त्वरित विश्लेषण दृश्य प्रतिनिधित्व के नीचे आएगा। change_pin
श्रेणी के लिए मुद्दों की संख्या पर ध्यान दें।
यह सरल और सीधा दिखता है, लेकिन यदि आप डेटासेट में गहराई से खोजते हैं, तो आप पाएंगे कि कुछ मामलों में ग्राहक अनुरोधों का वर्गीकरण गलत है।
उदाहरण के लिए:
मूलपाठ | लेबल (डेटासेट के अनुसार) | लेबल (आदर्श रूप से) |
---|---|---|
मेरा कार्ड लगभग समाप्त हो चुका है. मुझे कितनी जल्दी नया मिलेगा और इसकी कीमत क्या है? | apple_pay_or_google_pay | कार्ड_के बारे में_समाप्ति_होना |
अधिकांश भाग के लिए, वास्तविक दुनिया का डेटा गड़बड़ और असंरचित है, जिससे आंकड़ों के माध्यम से मूल्यों में कटौती करना कठिन हो जाता है। जैसा कि हम चाहते हैं कि मनुष्य और मशीनें डेटा द्वारा संचालित निर्णय लें, डेटा को अच्छी तरह से लेबल किया जाना, किसी भी गलत डेटा से मुक्त होना और डी-डुप्लिकेट होना महत्वपूर्ण होगा।
यह सुनिश्चित करना महत्वपूर्ण है कि विश्लेषण में उपयोग किया गया डेटा सटीक, अद्यतित और डुप्लिकेट से मुक्त है। ऐसा न करने पर गलत निर्णय और निष्कर्ष निकल सकते हैं। उदाहरण के लिए, उपयोगकर्ता प्रोफ़ाइल डेटा में एक खाली स्थान फ़ील्ड या स्थान फ़ील्ड का असंगत स्वरूपण त्रुटियों का कारण बन सकता है। इसलिए, प्रभावी डेटा एनालिटिक्स के लिए डेटा गुणवत्ता बनाए रखना महत्वपूर्ण है।
डेटा-केंद्रित एआई एक एआई सिस्टम बनाने के लिए उपयोग किए जाने वाले डेटा को व्यवस्थित रूप से इंजीनियरिंग करने का अनुशासन है। वास्तविक दुनिया में अधिकांश डेटा असंरचित है या गलत तरीके से लेबल किया गया है। लेबल किए गए प्रशिक्षण डेटा के सही सेट के साथ एक गुणवत्ता डेटासेट एक कुशल मॉडल की ओर ले जाता है, जो बेहतर परिणामों की भविष्यवाणी कर सकता है।
बेहतर परिणाम बेहतर ग्राहक अनुभव प्रदान करते हैं। अधिक जानने के लिए, आप एमआईटी से डेटा-केंद्रित एआई पाठ्यक्रम का संदर्भ ले सकते हैं।
क्लीनलैब एक ओपन-सोर्स प्रोजेक्ट है जो डेटासेट में समस्याओं का स्वचालित रूप से पता लगाकर डेटा और लेबल को साफ करने में आपकी मदद करता है। क्लीनलैब आत्मविश्वासपूर्ण शिक्षा का उपयोग करता है - एक पेपर के आधार पर जो कर्टिस नॉर्थकट ( क्लीनलैब.एआई के सह-संस्थापक भी) और अन्य द्वारा डेटासेट लेबल में अनिश्चितता का अनुमान लगाने के बारे में बात करता है।
क्लीनलैब मूल रूप से एआई को प्रेरित करके डेटा विश्लेषण वर्कफ़्लो को बढ़ाता है।
क्लीनलैब स्टूडियो एक नो-कोड टूल है जो ओपन-सोर्स पैकेज क्लीनलैब के शीर्ष पर बनाया गया है - यह विश्लेषण वर्कफ़्लो के लिए डेटा तैयार करने में मदद करता है। आप अपने डेटा वेयरहाउस जैसे डेटाब्रिक्स , स्नोफ्लेक , या क्लाउड ऑब्जेक्ट स्टोर जैसे AWS S3 से भी डेटा आयात कर सकते हैं।
क्लीनलैब स्टूडियो तक पहुंच के लिए साइन अप करें।
आपको कुछ नमूना डेटासेट और प्रोजेक्ट के साथ डैशबोर्ड पर लॉग इन किया जाएगा।
अपलोड विज़ार्ड आरंभ करने के लिए "अपलोड डेटासेट" पर क्लिक करें। आप डेटासेट को अपने कंप्यूटर, यूआरएल, एपीआई या डेटाब्रिक्स और स्नोफ्लेक जैसे डेटा वेयरहाउस से अपलोड कर सकते हैं।
क्लीनलैब स्टूडियो स्वचालित रूप से आपके डेटा स्कीमा और मोडैलिटी, यानी टेक्स्ट, छवि, आवाज या सारणी का अनुमान लगाता है।
एक बार जब आप विवरण की पुष्टि कर लेते हैं, तो आपको अपलोड किए गए डेटासेट और डेटा अपलोड करते समय सामने आई संबंधित त्रुटियों (यदि कोई हो!) के साथ एक स्क्रीन दिखाई जाएगी।
नोट: कुछ डेटासेट को अपलोड होने में कुछ मिनट लग सकते हैं। एक बार डेटासेट पूरी तरह से क्लीनलैब स्टूडियो में ईमेल द्वारा अपलोड हो जाने पर क्लीनलैब आपको सूचित करेगा।
डेटासेट के प्रकार के आधार पर, आप डेटा के साथ समस्याओं की पहचान करने के लिए एक विशिष्ट मशीन-लर्निंग कार्य का उपयोग कर सकते हैं। वर्तमान में, क्लीनलैब स्टूडियो टेक्स्ट, सारणीबद्ध और छवि डेटा से संबंधित कई एमएल वर्गीकरण कार्यों का समर्थन करता है।
वर्गीकरण के लिए विशिष्ट, यह K वर्गों में से एक या K वर्गों में से एक से N तक हो सकता है। इस डेटासेट में, प्रत्येक ग्राहक का अनुरोध एक विशिष्ट श्रेणी के अंतर्गत आता है। यह एक "मल्टी-क्लास" वर्गीकरण होगा।
क्लीनलैब स्टूडियो टेक्स्ट और लेबल कॉलम का स्वत: पता लगाएगा। जरूरत पड़ने पर आप इसे ठीक कर सकते हैं.
तेज़ मॉडल का उपयोग सर्वोत्तम परिणाम नहीं दे सकता है; समय के हित में, फास्ट चुनना एक विकल्प है।
मारो " मेरा डेटा साफ़ करें! ”
क्लीनलैब स्टूडियो डेटासेट पर मॉडलों का एक समूह चलाता है और एक समस्या अवलोकन प्रस्तुत करता है!
जैसा कि पहले बताया गया है, डेटासेट में डेटा और आउटलेर्स को गलत तरीके से वर्गीकृत किया गया था, जिसका विश्लेषण करने पर समग्र निर्णय लेने की प्रक्रिया में मूल्य नहीं जुड़ सकता है।
आप शीर्ष पर एनालिटिक्स दृश्य पर स्विच करके डेटासेट पर क्लीनलैब स्टूडियो द्वारा पहचाने गए मुद्दों के मेटा-एनालिटिक्स पर भी नज़र डाल सकते हैं।
क्लीनलैब स्टूडियो का दिलचस्प हिस्सा सिर्फ साफ किए गए डेटासेट का निर्यात करना नहीं है बल्कि आपके डेटा का एक समस्या-उन्मुख दृश्य पेश करना है। गायब डेटा तैयारी कार्यक्षेत्र जो एक डेटा विश्लेषक और बिजनेस इंटेलिजेंस उपयोगकर्ता वर्षों से चाहता था।
आप क्लीनलैब स्टूडियो में प्रदान की गई कीबोर्ड-सहायता वाली क्रियाओं द्वारा प्रत्येक समस्या को हल कर सकते हैं या नीचे दिए गए बटन पर क्लिक करके "एक्सपोर्ट क्लीनसेट" निर्यात कर सकते हैं।
आइए साफ किए गए डेटासेट के साथ उसी डेटा विश्लेषण की जांच करें।
ऐसा प्रतीत होता है कि cancel_transfer
और visa_or_mastercard
श्रेणियों के बीच संख्याओं में विसंगतियां हैं। हालांकि यह एक छोटा डेटासेट है, यह ध्यान रखना महत्वपूर्ण है कि इन डेटा सुधारों से बड़े पैमाने पर काफी भिन्न अनुमान और संभावित व्यावसायिक निर्णय हो सकते हैं।
इसी तरह, आप पा सकते हैं कि कुछ श्रेणियों के लिए ग्राहकों के अनुरोध गायब हो जाते हैं क्योंकि मुद्दों को उचित रूप से चिह्नित किया जाता है।
यदि आप डेटा विश्लेषक हैं या बिजनेस इंटेलिजेंस समुदाय का हिस्सा हैं, तो क्लीनलैब स्टूडियो आपके डेटा तैयारी वर्कफ़्लो में क्रांति ला सकता है। क्लीनलैब स्टूडियो को आज ही आज़माएं, और अधिक विश्वसनीय और सटीक डेटा विश्लेषण के लिए एआई-सहायता प्राप्त डेटा सफाई की शक्ति का अनुभव करें।
क्लीनलैब स्टूडियो एक नो-कोड डेटा तैयारी कार्यक्षेत्र है जिसका उपयोग फॉर्च्यून 500 कंपनियों के हजारों इंजीनियरों, विश्लेषकों और डेटा वैज्ञानिकों द्वारा किया जाता है। वास्तविक दुनिया, गलत डेटा का उपयोग करके अधिक विश्वसनीय और सटीक मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए एमआईटी में इस अभिनव मंच की शुरुआत की गई थी। अधिक जानकारी के लिए आप हमारे स्लैक समुदाय से जुड़ सकते हैं।