paint-brush
बिजनेस इंटेलिजेंस के लिए एआई के साथ डेटा तैयारी को बढ़ानाद्वारा@cleanlab
618 रीडिंग
618 रीडिंग

बिजनेस इंटेलिजेंस के लिए एआई के साथ डेटा तैयारी को बढ़ाना

द्वारा Cleanlab6m2023/11/07
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

लेख में चर्चा की गई है कि कैसे डेटा एनालिटिक्स और बिजनेस इंटेलिजेंस की दुनिया में डेटा टीमें ऐसे समाधान बनाती हैं जिनकी व्यावसायिक उपयोगकर्ताओं को आवश्यकता होती है और इंजीनियरिंग टीमों के साथ काम करती हैं जो डेटा के लिए बुनियादी ढांचे का निर्माण करती हैं। इन समाधानों का निर्माण करने वाले विश्लेषकों को अपना डेटा विविध स्रोतों से तैयार करना होगा, यह सुनिश्चित करते हुए कि डेटा को पूछताछ के लिए स्वच्छ किया गया है, जो डेटा तैयारी टूल के माध्यम से किया जाता है। डेटा-केंद्रित एआई प्रथाएं डेटा चरण की सफाई को स्वचालित कर सकती हैं, जिससे आप न्यूनतम प्रयास के साथ डेटासेट का एक स्वच्छ संस्करण निर्यात कर सकते हैं। लेख यह भी बताता है कि प्रभावी डेटा एनालिटिक्स के लिए डेटा गुणवत्ता बनाए रखना कैसे महत्वपूर्ण है और डेटा-केंद्रित एआई कैसे एआई सिस्टम बनाने के लिए उपयोग किए जाने वाले डेटा को व्यवस्थित रूप से इंजीनियरिंग करने का अनुशासन है।
featured image - बिजनेस इंटेलिजेंस के लिए एआई के साथ डेटा तैयारी को बढ़ाना
Cleanlab HackerNoon profile picture
0-item
1-item
2-item

डेटा एनालिटिक्स और बिजनेस इंटेलिजेंस की दुनिया में, डेटा टीमें, जिन्हें " पर्पल टीम " भी कहा जाता है, जो व्यावसायिक उपयोगकर्ताओं (लाल) के लिए आवश्यक समाधान बनाती हैं और इंजीनियरिंग टीमों (नीला) के साथ काम करती हैं, अनिवार्य रूप से डेटा के लिए बुनियादी ढांचे का निर्माण करती हैं। .


बीआई टीमें मुख्य रूप से प्रवाह या पाइपलाइनों के निर्माण पर काम करती हैं जो व्यावसायिक उपयोगकर्ता उपभोग के लिए रिपोर्ट और आवश्यक डैशबोर्ड प्रदान करती हैं।


ऐसे कई नई पीढ़ी के उपकरण हैं जो डेटा टीमों को इन अंतिम-उपयोगकर्ता समाधानों को बनाने में मदद करते हैं, जैसे मोड , सुपरसेट , और लाइटडैश , या उद्योग के नेता जो कुछ समय के लिए "डेटा एनालिटिक्स" क्षेत्र में थे, जैसे टेबलो या पावरबीआई।


इन समाधानों का निर्माण करने वाले विश्लेषकों को अपना डेटा विविध स्रोतों से तैयार करना होगा, यह सुनिश्चित करते हुए कि डेटा पूछताछ के लिए स्वच्छ है। उपकरण या परिवर्तनों का एक सेट जिसका उद्देश्य वर्कफ़्लो में एक सफ़ाई चरण निष्पादित करना है जिसे "डेटा तैयारी" कहा जाता है।



एक लोकप्रिय डेटा तैयारी उपकरण जिसका उपयोग डेटा विश्लेषकों द्वारा डेटा तैयार करने के लिए किया जाता है



बड़े भाषा मॉडल के आगमन के साथ, एआई पर चर्चा करना सॉफ्टवेयर इंजीनियरिंग स्टैक में एक आम प्रवृत्ति रही है। लेकिन क्या होगा अगर मैं कहूं: डेटा-केंद्रित एआई प्रथाओं का उपयोग करके, हम डेटा चरण की सफाई को स्वचालित कर सकते हैं? आपको न्यूनतम प्रयास के साथ डेटासेट का एक साफ़ संस्करण निर्यात करने में सक्षम बनाता है!


इस ब्लॉग में, हम चर्चा करेंगे कि कैसे डेटा-केंद्रित एआई का उपयोग करके, आप अपने बाद के डेटा विश्लेषण से विश्वसनीय निष्कर्ष सुनिश्चित करने के लिए बीआई टूल के लिए अपना डेटा आसानी से तैयार कर सकते हैं।

डेटा विश्लेषक वर्कफ़्लो

कई साल पहले, डेटा विश्लेषकों को मैन्युअल रूप से डेटा एकत्र करना, साफ करना और विश्लेषण करना पड़ता था, जो एक समय लेने वाली प्रक्रिया थी जिससे मूल्यवान अंतर्दृष्टि प्राप्त करने की उनकी क्षमता सीमित हो जाती थी।



आज, डेटा विश्लेषण परिदृश्य में डेटा तैयार करने वाले टूल जैसे कि एल्टरेक्स , टेबलौ आदि की शुरूआत के साथ एक महत्वपूर्ण परिवर्तन आया है।


इन कुशल उपकरणों ने वर्कफ़्लो को सरल बना दिया है, जिससे विश्लेषकों को कई स्रोतों से डेटा को सहजता से एकीकृत करने, डेटा सफाई कार्यों को स्वचालित करने और डेटा के दृश्यमान आकर्षक और व्यावहारिक प्रतिनिधित्व उत्पन्न करने में सक्षम बनाया गया है।



मैन्युअल डेटा तैयार करने के बाद डेटा विश्लेषण


विशिष्ट व्यावसायिक प्रश्नों की पहचान के लिए टूल का उपयोग करके तैयार किए गए डेटा का बीआई टूल का उपयोग करके विश्लेषण किया जाता है।

उदाहरण के लिए, एक बैंक के भीतर ग्राहक अनुरोधों के इस डेटासेट पर विचार करें जहां ग्राहक ग्राहक सेवा पोर्टल में आने वाली समस्याओं को लॉग करते हैं, जिसे एक मानव या स्वचालित कार्य प्रबंधक लेबल करता है।


कल्पना करें कि यदि एक व्यवसाय विश्लेषक को किसी विशेष मुद्दे श्रेणी के लिए आने वाले ग्राहक अनुरोधों की संख्या निर्धारित करनी है। नीचे वह परिणाम है जो वह देख रहा होगा - beneficiary_not_allowed श्रेणी में 111 ग्राहक समस्याएं दिखाई दे रही हैं।




इसी तरह, यदि कोई विश्लेषक यह जानना चाहता है कि ATM शब्द से संबंधित मुद्दों के कितने उदाहरण हैं, तो एक त्वरित विश्लेषण दृश्य प्रतिनिधित्व के नीचे आएगा। change_pin श्रेणी के लिए मुद्दों की संख्या पर ध्यान दें।



यह सरल और सीधा दिखता है, लेकिन यदि आप डेटासेट में गहराई से खोजते हैं, तो आप पाएंगे कि कुछ मामलों में ग्राहक अनुरोधों का वर्गीकरण गलत है।


उदाहरण के लिए:

मूलपाठ

लेबल (डेटासेट के अनुसार)

लेबल (आदर्श रूप से)

मेरा कार्ड लगभग समाप्त हो चुका है. मुझे कितनी जल्दी नया मिलेगा और इसकी कीमत क्या है?

apple_pay_or_google_pay

कार्ड_के बारे में_समाप्ति_होना


अधिकांश भाग के लिए, वास्तविक दुनिया का डेटा गड़बड़ और असंरचित है, जिससे आंकड़ों के माध्यम से मूल्यों में कटौती करना कठिन हो जाता है। जैसा कि हम चाहते हैं कि मनुष्य और मशीनें डेटा द्वारा संचालित निर्णय लें, डेटा को अच्छी तरह से लेबल किया जाना, किसी भी गलत डेटा से मुक्त होना और डी-डुप्लिकेट होना महत्वपूर्ण होगा।

डेटा-केंद्रित एआई


यह सुनिश्चित करना महत्वपूर्ण है कि विश्लेषण में उपयोग किया गया डेटा सटीक, अद्यतित और डुप्लिकेट से मुक्त है। ऐसा न करने पर गलत निर्णय और निष्कर्ष निकल सकते हैं। उदाहरण के लिए, उपयोगकर्ता प्रोफ़ाइल डेटा में एक खाली स्थान फ़ील्ड या स्थान फ़ील्ड का असंगत स्वरूपण त्रुटियों का कारण बन सकता है। इसलिए, प्रभावी डेटा एनालिटिक्स के लिए डेटा गुणवत्ता बनाए रखना महत्वपूर्ण है।


डेटा-केंद्रित एआई एक एआई सिस्टम बनाने के लिए उपयोग किए जाने वाले डेटा को व्यवस्थित रूप से इंजीनियरिंग करने का अनुशासन है। वास्तविक दुनिया में अधिकांश डेटा असंरचित है या गलत तरीके से लेबल किया गया है। लेबल किए गए प्रशिक्षण डेटा के सही सेट के साथ एक गुणवत्ता डेटासेट एक कुशल मॉडल की ओर ले जाता है, जो बेहतर परिणामों की भविष्यवाणी कर सकता है।


बेहतर परिणाम बेहतर ग्राहक अनुभव प्रदान करते हैं। अधिक जानने के लिए, आप एमआईटी से डेटा-केंद्रित एआई पाठ्यक्रम का संदर्भ ले सकते हैं।

क्लीनलैब का परिचय


क्लीनलैब एक ओपन-सोर्स प्रोजेक्ट है जो डेटासेट में समस्याओं का स्वचालित रूप से पता लगाकर डेटा और लेबल को साफ करने में आपकी मदद करता है। क्लीनलैब आत्मविश्वासपूर्ण शिक्षा का उपयोग करता है - एक पेपर के आधार पर जो कर्टिस नॉर्थकट ( क्लीनलैब.एआई के सह-संस्थापक भी) और अन्य द्वारा डेटासेट लेबल में अनिश्चितता का अनुमान लगाने के बारे में बात करता है।


क्लीनलैब मूल रूप से एआई को प्रेरित करके डेटा विश्लेषण वर्कफ़्लो को बढ़ाता है।



क्लीनलैब स्टूडियो का उपयोग करके अपने डेटा को स्वतः साफ़ करें

क्लीनलैब स्टूडियो एक नो-कोड टूल है जो ओपन-सोर्स पैकेज क्लीनलैब के शीर्ष पर बनाया गया है - यह विश्लेषण वर्कफ़्लो के लिए डेटा तैयार करने में मदद करता है। आप अपने डेटा वेयरहाउस जैसे डेटाब्रिक्स , स्नोफ्लेक , या क्लाउड ऑब्जेक्ट स्टोर जैसे AWS S3 से भी डेटा आयात कर सकते हैं।

स्टेप 1:

क्लीनलैब स्टूडियो तक पहुंच के लिए साइन अप करें।



आपको कुछ नमूना डेटासेट और प्रोजेक्ट के साथ डैशबोर्ड पर लॉग इन किया जाएगा।



चरण दो:

अपलोड विज़ार्ड आरंभ करने के लिए "अपलोड डेटासेट" पर क्लिक करें। आप डेटासेट को अपने कंप्यूटर, यूआरएल, एपीआई या डेटाब्रिक्स और स्नोफ्लेक जैसे डेटा वेयरहाउस से अपलोड कर सकते हैं।



क्लीनलैब स्टूडियो स्वचालित रूप से आपके डेटा स्कीमा और मोडैलिटी, यानी टेक्स्ट, छवि, आवाज या सारणी का अनुमान लगाता है।



एक बार जब आप विवरण की पुष्टि कर लेते हैं, तो आपको अपलोड किए गए डेटासेट और डेटा अपलोड करते समय सामने आई संबंधित त्रुटियों (यदि कोई हो!) के साथ एक स्क्रीन दिखाई जाएगी।


नोट: कुछ डेटासेट को अपलोड होने में कुछ मिनट लग सकते हैं। एक बार डेटासेट पूरी तरह से क्लीनलैब स्टूडियो में ईमेल द्वारा अपलोड हो जाने पर क्लीनलैब आपको सूचित करेगा।




चरण 3:

डेटासेट के प्रकार के आधार पर, आप डेटा के साथ समस्याओं की पहचान करने के लिए एक विशिष्ट मशीन-लर्निंग कार्य का उपयोग कर सकते हैं। वर्तमान में, क्लीनलैब स्टूडियो टेक्स्ट, सारणीबद्ध और छवि डेटा से संबंधित कई एमएल वर्गीकरण कार्यों का समर्थन करता है।


वर्गीकरण के लिए विशिष्ट, यह K वर्गों में से एक या K वर्गों में से एक से N तक हो सकता है। इस डेटासेट में, प्रत्येक ग्राहक का अनुरोध एक विशिष्ट श्रेणी के अंतर्गत आता है। यह एक "मल्टी-क्लास" वर्गीकरण होगा।




क्लीनलैब स्टूडियो टेक्स्ट और लेबल कॉलम का स्वत: पता लगाएगा। जरूरत पड़ने पर आप इसे ठीक कर सकते हैं.




तेज़ मॉडल का उपयोग सर्वोत्तम परिणाम नहीं दे सकता है; समय के हित में, फास्ट चुनना एक विकल्प है।


मारो " मेरा डेटा साफ़ करें!

चरण 4:

क्लीनलैब स्टूडियो डेटासेट पर मॉडलों का एक समूह चलाता है और एक समस्या अवलोकन प्रस्तुत करता है!

जैसा कि पहले बताया गया है, डेटासेट में डेटा और आउटलेर्स को गलत तरीके से वर्गीकृत किया गया था, जिसका विश्लेषण करने पर समग्र निर्णय लेने की प्रक्रिया में मूल्य नहीं जुड़ सकता है।




आप शीर्ष पर एनालिटिक्स दृश्य पर स्विच करके डेटासेट पर क्लीनलैब स्टूडियो द्वारा पहचाने गए मुद्दों के मेटा-एनालिटिक्स पर भी नज़र डाल सकते हैं।




चरण 5:

क्लीनलैब स्टूडियो का दिलचस्प हिस्सा सिर्फ साफ किए गए डेटासेट का निर्यात करना नहीं है बल्कि आपके डेटा का एक समस्या-उन्मुख दृश्य पेश करना है। गायब डेटा तैयारी कार्यक्षेत्र जो एक डेटा विश्लेषक और बिजनेस इंटेलिजेंस उपयोगकर्ता वर्षों से चाहता था।


आप क्लीनलैब स्टूडियो में प्रदान की गई कीबोर्ड-सहायता वाली क्रियाओं द्वारा प्रत्येक समस्या को हल कर सकते हैं या नीचे दिए गए बटन पर क्लिक करके "एक्सपोर्ट क्लीनसेट" निर्यात कर सकते हैं।





एआई-सहायता प्राप्त डेटा तैयार करने के बाद डेटा विश्लेषण


आइए साफ किए गए डेटासेट के साथ उसी डेटा विश्लेषण की जांच करें।


ऐसा प्रतीत होता है कि cancel_transfer और visa_or_mastercard श्रेणियों के बीच संख्याओं में विसंगतियां हैं। हालांकि यह एक छोटा डेटासेट है, यह ध्यान रखना महत्वपूर्ण है कि इन डेटा सुधारों से बड़े पैमाने पर काफी भिन्न अनुमान और संभावित व्यावसायिक निर्णय हो सकते हैं।




इसी तरह, आप पा सकते हैं कि कुछ श्रेणियों के लिए ग्राहकों के अनुरोध गायब हो जाते हैं क्योंकि मुद्दों को उचित रूप से चिह्नित किया जाता है।




यदि आप डेटा विश्लेषक हैं या बिजनेस इंटेलिजेंस समुदाय का हिस्सा हैं, तो क्लीनलैब स्टूडियो आपके डेटा तैयारी वर्कफ़्लो में क्रांति ला सकता है। क्लीनलैब स्टूडियो को आज ही आज़माएं, और अधिक विश्वसनीय और सटीक डेटा विश्लेषण के लिए एआई-सहायता प्राप्त डेटा सफाई की शक्ति का अनुभव करें।

निष्कर्ष

क्लीनलैब स्टूडियो एक नो-कोड डेटा तैयारी कार्यक्षेत्र है जिसका उपयोग फॉर्च्यून 500 कंपनियों के हजारों इंजीनियरों, विश्लेषकों और डेटा वैज्ञानिकों द्वारा किया जाता है। वास्तविक दुनिया, गलत डेटा का उपयोग करके अधिक विश्वसनीय और सटीक मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए एमआईटी में इस अभिनव मंच की शुरुआत की गई थी। अधिक जानकारी के लिए आप हमारे स्लैक समुदाय से जुड़ सकते हैं।