paint-brush
बिजनेस इंटेलिजेंस के लिए एआई के साथ डेटा तैयारी को बढ़ाना द्वारा@cleanlab
629 रीडिंग
629 रीडिंग

बिजनेस इंटेलिजेंस के लिए एआई के साथ डेटा तैयारी को बढ़ाना

द्वारा Cleanlab
Cleanlab HackerNoon profile picture

Cleanlab

@cleanlab

Cleanlab increases the value of your datasets via open-source AI...

6 मिनट read2023/11/07
Read on Terminal Reader
Read this story in a terminal
Print this story

बहुत लंबा; पढ़ने के लिए

लेख में चर्चा की गई है कि कैसे डेटा एनालिटिक्स और बिजनेस इंटेलिजेंस की दुनिया में डेटा टीमें ऐसे समाधान बनाती हैं जिनकी व्यावसायिक उपयोगकर्ताओं को आवश्यकता होती है और इंजीनियरिंग टीमों के साथ काम करती हैं जो डेटा के लिए बुनियादी ढांचे का निर्माण करती हैं। इन समाधानों का निर्माण करने वाले विश्लेषकों को अपना डेटा विविध स्रोतों से तैयार करना होगा, यह सुनिश्चित करते हुए कि डेटा को पूछताछ के लिए स्वच्छ किया गया है, जो डेटा तैयारी टूल के माध्यम से किया जाता है। डेटा-केंद्रित एआई प्रथाएं डेटा चरण की सफाई को स्वचालित कर सकती हैं, जिससे आप न्यूनतम प्रयास के साथ डेटासेट का एक स्वच्छ संस्करण निर्यात कर सकते हैं। लेख यह भी बताता है कि प्रभावी डेटा एनालिटिक्स के लिए डेटा गुणवत्ता बनाए रखना कैसे महत्वपूर्ण है और डेटा-केंद्रित एआई कैसे एआई सिस्टम बनाने के लिए उपयोग किए जाने वाले डेटा को व्यवस्थित रूप से इंजीनियरिंग करने का अनुशासन है।
featured image - बिजनेस इंटेलिजेंस के लिए एआई के साथ डेटा तैयारी को बढ़ाना
Cleanlab HackerNoon profile picture
Cleanlab

Cleanlab

@cleanlab

Cleanlab increases the value of your datasets via open-source AI that automatically finds and fixes data issues

0-item
1-item
2-item

STORY’S CREDIBILITY

Original Reporting

Original Reporting

This story contains new, firsthand information uncovered by the writer.

Guide

Guide

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

Vested Interest

Vested Interest

This writer has a vested interest be it monetary, business, or otherwise, with 1 or more of the products or companies mentioned within.

डेटा एनालिटिक्स और बिजनेस इंटेलिजेंस की दुनिया में, डेटा टीमें, जिन्हें " पर्पल टीम " भी कहा जाता है, जो व्यावसायिक उपयोगकर्ताओं (लाल) के लिए आवश्यक समाधान बनाती हैं और इंजीनियरिंग टीमों (नीला) के साथ काम करती हैं, अनिवार्य रूप से डेटा के लिए बुनियादी ढांचे का निर्माण करती हैं। .


बीआई टीमें मुख्य रूप से प्रवाह या पाइपलाइनों के निर्माण पर काम करती हैं जो व्यावसायिक उपयोगकर्ता उपभोग के लिए रिपोर्ट और आवश्यक डैशबोर्ड प्रदान करती हैं।


ऐसे कई नई पीढ़ी के उपकरण हैं जो डेटा टीमों को इन अंतिम-उपयोगकर्ता समाधानों को बनाने में मदद करते हैं, जैसे मोड , सुपरसेट , और लाइटडैश , या उद्योग के नेता जो कुछ समय के लिए "डेटा एनालिटिक्स" क्षेत्र में थे, जैसे टेबलो या पावरबीआई।


इन समाधानों का निर्माण करने वाले विश्लेषकों को अपना डेटा विविध स्रोतों से तैयार करना होगा, यह सुनिश्चित करते हुए कि डेटा पूछताछ के लिए स्वच्छ है। उपकरण या परिवर्तनों का एक सेट जिसका उद्देश्य वर्कफ़्लो में एक सफ़ाई चरण निष्पादित करना है जिसे "डेटा तैयारी" कहा जाता है।



एक लोकप्रिय डेटा तैयारी उपकरण जिसका उपयोग डेटा विश्लेषकों द्वारा डेटा तैयार करने के लिए किया जाता है

एक लोकप्रिय डेटा तैयारी उपकरण जिसका उपयोग डेटा विश्लेषकों द्वारा डेटा तैयार करने के लिए किया जाता है



बड़े भाषा मॉडल के आगमन के साथ, एआई पर चर्चा करना सॉफ्टवेयर इंजीनियरिंग स्टैक में एक आम प्रवृत्ति रही है। लेकिन क्या होगा अगर मैं कहूं: डेटा-केंद्रित एआई प्रथाओं का उपयोग करके, हम डेटा चरण की सफाई को स्वचालित कर सकते हैं? आपको न्यूनतम प्रयास के साथ डेटासेट का एक साफ़ संस्करण निर्यात करने में सक्षम बनाता है!


इस ब्लॉग में, हम चर्चा करेंगे कि कैसे डेटा-केंद्रित एआई का उपयोग करके, आप अपने बाद के डेटा विश्लेषण से विश्वसनीय निष्कर्ष सुनिश्चित करने के लिए बीआई टूल के लिए अपना डेटा आसानी से तैयार कर सकते हैं।

डेटा विश्लेषक वर्कफ़्लो

कई साल पहले, डेटा विश्लेषकों को मैन्युअल रूप से डेटा एकत्र करना, साफ करना और विश्लेषण करना पड़ता था, जो एक समय लेने वाली प्रक्रिया थी जिससे मूल्यवान अंतर्दृष्टि प्राप्त करने की उनकी क्षमता सीमित हो जाती थी।


image


आज, डेटा विश्लेषण परिदृश्य में डेटा तैयार करने वाले टूल जैसे कि एल्टरेक्स , टेबलौ आदि की शुरूआत के साथ एक महत्वपूर्ण परिवर्तन आया है।


इन कुशल उपकरणों ने वर्कफ़्लो को सरल बना दिया है, जिससे विश्लेषकों को कई स्रोतों से डेटा को सहजता से एकीकृत करने, डेटा सफाई कार्यों को स्वचालित करने और डेटा के दृश्यमान आकर्षक और व्यावहारिक प्रतिनिधित्व उत्पन्न करने में सक्षम बनाया गया है।


image


मैन्युअल डेटा तैयार करने के बाद डेटा विश्लेषण


विशिष्ट व्यावसायिक प्रश्नों की पहचान के लिए टूल का उपयोग करके तैयार किए गए डेटा का बीआई टूल का उपयोग करके विश्लेषण किया जाता है।

उदाहरण के लिए, एक बैंक के भीतर ग्राहक अनुरोधों के इस डेटासेट पर विचार करें जहां ग्राहक ग्राहक सेवा पोर्टल में आने वाली समस्याओं को लॉग करते हैं, जिसे एक मानव या स्वचालित कार्य प्रबंधक लेबल करता है।


कल्पना करें कि यदि एक व्यवसाय विश्लेषक को किसी विशेष मुद्दे श्रेणी के लिए आने वाले ग्राहक अनुरोधों की संख्या निर्धारित करनी है। नीचे वह परिणाम है जो वह देख रहा होगा - beneficiary_not_allowed श्रेणी में 111 ग्राहक समस्याएं दिखाई दे रही हैं।



image


इसी तरह, यदि कोई विश्लेषक यह जानना चाहता है कि ATM शब्द से संबंधित मुद्दों के कितने उदाहरण हैं, तो एक त्वरित विश्लेषण दृश्य प्रतिनिधित्व के नीचे आएगा। change_pin श्रेणी के लिए मुद्दों की संख्या पर ध्यान दें।


image


यह सरल और सीधा दिखता है, लेकिन यदि आप डेटासेट में गहराई से खोजते हैं, तो आप पाएंगे कि कुछ मामलों में ग्राहक अनुरोधों का वर्गीकरण गलत है।


उदाहरण के लिए:

मूलपाठ

लेबल (डेटासेट के अनुसार)

लेबल (आदर्श रूप से)

मेरा कार्ड लगभग समाप्त हो चुका है. मुझे कितनी जल्दी नया मिलेगा और इसकी कीमत क्या है?

apple_pay_or_google_pay

कार्ड_के बारे में_समाप्ति_होना


अधिकांश भाग के लिए, वास्तविक दुनिया का डेटा गड़बड़ और असंरचित है, जिससे आंकड़ों के माध्यम से मूल्यों में कटौती करना कठिन हो जाता है। जैसा कि हम चाहते हैं कि मनुष्य और मशीनें डेटा द्वारा संचालित निर्णय लें, डेटा को अच्छी तरह से लेबल किया जाना, किसी भी गलत डेटा से मुक्त होना और डी-डुप्लिकेट होना महत्वपूर्ण होगा।

डेटा-केंद्रित एआई


यह सुनिश्चित करना महत्वपूर्ण है कि विश्लेषण में उपयोग किया गया डेटा सटीक, अद्यतित और डुप्लिकेट से मुक्त है। ऐसा न करने पर गलत निर्णय और निष्कर्ष निकल सकते हैं। उदाहरण के लिए, उपयोगकर्ता प्रोफ़ाइल डेटा में एक खाली स्थान फ़ील्ड या स्थान फ़ील्ड का असंगत स्वरूपण त्रुटियों का कारण बन सकता है। इसलिए, प्रभावी डेटा एनालिटिक्स के लिए डेटा गुणवत्ता बनाए रखना महत्वपूर्ण है।


डेटा-केंद्रित एआई एक एआई सिस्टम बनाने के लिए उपयोग किए जाने वाले डेटा को व्यवस्थित रूप से इंजीनियरिंग करने का अनुशासन है। वास्तविक दुनिया में अधिकांश डेटा असंरचित है या गलत तरीके से लेबल किया गया है। लेबल किए गए प्रशिक्षण डेटा के सही सेट के साथ एक गुणवत्ता डेटासेट एक कुशल मॉडल की ओर ले जाता है, जो बेहतर परिणामों की भविष्यवाणी कर सकता है।


बेहतर परिणाम बेहतर ग्राहक अनुभव प्रदान करते हैं। अधिक जानने के लिए, आप एमआईटी से डेटा-केंद्रित एआई पाठ्यक्रम का संदर्भ ले सकते हैं।

क्लीनलैब का परिचय


क्लीनलैब एक ओपन-सोर्स प्रोजेक्ट है जो डेटासेट में समस्याओं का स्वचालित रूप से पता लगाकर डेटा और लेबल को साफ करने में आपकी मदद करता है। क्लीनलैब आत्मविश्वासपूर्ण शिक्षा का उपयोग करता है - एक पेपर के आधार पर जो कर्टिस नॉर्थकट ( क्लीनलैब.एआई के सह-संस्थापक भी) और अन्य द्वारा डेटासेट लेबल में अनिश्चितता का अनुमान लगाने के बारे में बात करता है।


क्लीनलैब मूल रूप से एआई को प्रेरित करके डेटा विश्लेषण वर्कफ़्लो को बढ़ाता है।


image


क्लीनलैब स्टूडियो का उपयोग करके अपने डेटा को स्वतः साफ़ करें

क्लीनलैब स्टूडियो एक नो-कोड टूल है जो ओपन-सोर्स पैकेज क्लीनलैब के शीर्ष पर बनाया गया है - यह विश्लेषण वर्कफ़्लो के लिए डेटा तैयार करने में मदद करता है। आप अपने डेटा वेयरहाउस जैसे डेटाब्रिक्स , स्नोफ्लेक , या क्लाउड ऑब्जेक्ट स्टोर जैसे AWS S3 से भी डेटा आयात कर सकते हैं।

स्टेप 1:

क्लीनलैब स्टूडियो तक पहुंच के लिए साइन अप करें।


image


आपको कुछ नमूना डेटासेट और प्रोजेक्ट के साथ डैशबोर्ड पर लॉग इन किया जाएगा।


image


चरण दो:

अपलोड विज़ार्ड आरंभ करने के लिए "अपलोड डेटासेट" पर क्लिक करें। आप डेटासेट को अपने कंप्यूटर, यूआरएल, एपीआई या डेटाब्रिक्स और स्नोफ्लेक जैसे डेटा वेयरहाउस से अपलोड कर सकते हैं।


image


क्लीनलैब स्टूडियो स्वचालित रूप से आपके डेटा स्कीमा और मोडैलिटी, यानी टेक्स्ट, छवि, आवाज या सारणी का अनुमान लगाता है।


image


एक बार जब आप विवरण की पुष्टि कर लेते हैं, तो आपको अपलोड किए गए डेटासेट और डेटा अपलोड करते समय सामने आई संबंधित त्रुटियों (यदि कोई हो!) के साथ एक स्क्रीन दिखाई जाएगी।


नोट: कुछ डेटासेट को अपलोड होने में कुछ मिनट लग सकते हैं। एक बार डेटासेट पूरी तरह से क्लीनलैब स्टूडियो में ईमेल द्वारा अपलोड हो जाने पर क्लीनलैब आपको सूचित करेगा।



image


चरण 3:

डेटासेट के प्रकार के आधार पर, आप डेटा के साथ समस्याओं की पहचान करने के लिए एक विशिष्ट मशीन-लर्निंग कार्य का उपयोग कर सकते हैं। वर्तमान में, क्लीनलैब स्टूडियो टेक्स्ट, सारणीबद्ध और छवि डेटा से संबंधित कई एमएल वर्गीकरण कार्यों का समर्थन करता है।


वर्गीकरण के लिए विशिष्ट, यह K वर्गों में से एक या K वर्गों में से एक से N तक हो सकता है। इस डेटासेट में, प्रत्येक ग्राहक का अनुरोध एक विशिष्ट श्रेणी के अंतर्गत आता है। यह एक "मल्टी-क्लास" वर्गीकरण होगा।



image


क्लीनलैब स्टूडियो टेक्स्ट और लेबल कॉलम का स्वत: पता लगाएगा। जरूरत पड़ने पर आप इसे ठीक कर सकते हैं.



image


तेज़ मॉडल का उपयोग सर्वोत्तम परिणाम नहीं दे सकता है; समय के हित में, फास्ट चुनना एक विकल्प है।


मारो " मेरा डेटा साफ़ करें!

चरण 4:

क्लीनलैब स्टूडियो डेटासेट पर मॉडलों का एक समूह चलाता है और एक समस्या अवलोकन प्रस्तुत करता है!

जैसा कि पहले बताया गया है, डेटासेट में डेटा और आउटलेर्स को गलत तरीके से वर्गीकृत किया गया था, जिसका विश्लेषण करने पर समग्र निर्णय लेने की प्रक्रिया में मूल्य नहीं जुड़ सकता है।



image


आप शीर्ष पर एनालिटिक्स दृश्य पर स्विच करके डेटासेट पर क्लीनलैब स्टूडियो द्वारा पहचाने गए मुद्दों के मेटा-एनालिटिक्स पर भी नज़र डाल सकते हैं।



image


चरण 5:

क्लीनलैब स्टूडियो का दिलचस्प हिस्सा सिर्फ साफ किए गए डेटासेट का निर्यात करना नहीं है बल्कि आपके डेटा का एक समस्या-उन्मुख दृश्य पेश करना है। गायब डेटा तैयारी कार्यक्षेत्र जो एक डेटा विश्लेषक और बिजनेस इंटेलिजेंस उपयोगकर्ता वर्षों से चाहता था।


आप क्लीनलैब स्टूडियो में प्रदान की गई कीबोर्ड-सहायता वाली क्रियाओं द्वारा प्रत्येक समस्या को हल कर सकते हैं या नीचे दिए गए बटन पर क्लिक करके "एक्सपोर्ट क्लीनसेट" निर्यात कर सकते हैं।



image



एआई-सहायता प्राप्त डेटा तैयार करने के बाद डेटा विश्लेषण


आइए साफ किए गए डेटासेट के साथ उसी डेटा विश्लेषण की जांच करें।


ऐसा प्रतीत होता है कि cancel_transfer और visa_or_mastercard श्रेणियों के बीच संख्याओं में विसंगतियां हैं। हालांकि यह एक छोटा डेटासेट है, यह ध्यान रखना महत्वपूर्ण है कि इन डेटा सुधारों से बड़े पैमाने पर काफी भिन्न अनुमान और संभावित व्यावसायिक निर्णय हो सकते हैं।



image


इसी तरह, आप पा सकते हैं कि कुछ श्रेणियों के लिए ग्राहकों के अनुरोध गायब हो जाते हैं क्योंकि मुद्दों को उचित रूप से चिह्नित किया जाता है।



image


यदि आप डेटा विश्लेषक हैं या बिजनेस इंटेलिजेंस समुदाय का हिस्सा हैं, तो क्लीनलैब स्टूडियो आपके डेटा तैयारी वर्कफ़्लो में क्रांति ला सकता है। क्लीनलैब स्टूडियो को आज ही आज़माएं, और अधिक विश्वसनीय और सटीक डेटा विश्लेषण के लिए एआई-सहायता प्राप्त डेटा सफाई की शक्ति का अनुभव करें।

निष्कर्ष

क्लीनलैब स्टूडियो एक नो-कोड डेटा तैयारी कार्यक्षेत्र है जिसका उपयोग फॉर्च्यून 500 कंपनियों के हजारों इंजीनियरों, विश्लेषकों और डेटा वैज्ञानिकों द्वारा किया जाता है। वास्तविक दुनिया, गलत डेटा का उपयोग करके अधिक विश्वसनीय और सटीक मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए एमआईटी में इस अभिनव मंच की शुरुआत की गई थी। अधिक जानकारी के लिए आप हमारे स्लैक समुदाय से जुड़ सकते हैं।

L O A D I N G
. . . comments & more!

About Author

Cleanlab HackerNoon profile picture
Cleanlab@cleanlab
Cleanlab increases the value of your datasets via open-source AI that automatically finds and fixes data issues

लेबल

इस लेख में चित्रित किया गया था...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
X REMOVE AD