paint-brush
एमएल प्रयोग के लिए एक नई आशाद्वारा@yashnayak
1,592 रीडिंग
1,592 रीडिंग

एमएल प्रयोग के लिए एक नई आशा

द्वारा Yashaswi Nayak2022/07/04
Read on Terminal Reader
Read this story w/o Javascript

बहुत लंबा; पढ़ने के लिए

डीवीसी वीएससीओडी एक्सटेंशन विजुअल स्टूडियो कोड के स्लीक एलिगेंट कोडिंग अनुभव के साथ डेटा प्रबंधन, वर्जनिंग और प्रयोग के लिए डीवीसी कमांड की शक्ति को जोड़ती है। DVC आपके प्रयोगों, मॉडलों और संबंधित कलाकृतियों को ट्रैक करने के लिए एक उत्कृष्ट उपकरण है, लेकिन यह एक CLI है - जिससे डेटा विज्ञान समुदाय के कई लोग सहज या परिचित नहीं हो सकते हैं।

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - एमएल प्रयोग के लिए एक नई आशा
Yashaswi Nayak HackerNoon profile picture


नमस्ते!


एक परिदृश्य पर विचार करें - एक अकेला डेटा वैज्ञानिक बड़ी मात्रा में डेटा के माध्यम से मिटाने की कोशिश में अपने सिस्टम पर काम करता है; सफाई, छँटाई, प्रसंस्करण, और फिर नए संसाधित डेटा पर भविष्यवाणी चलाने के लिए एक मॉडल का निर्माण। वैज्ञानिक के पास अपने निपटान में उपकरणों का एक गुच्छा है - जुपिटर नोटबुक, एयरफ्लो, एनाकोंडा, पांडा, डेटा स्टोरेज और क्लाउड वर्चुअल मशीन।


वह इसे घंटों और घंटों तक प्रशिक्षित करती है, केवल पूर्णता से कम होने के लिए - मॉडल उतना अच्छा प्रदर्शन नहीं करता जितना उसे करना चाहिए था। वह खिड़की से बाहर देखती है - रात हो चुकी है। उसने अभी तक अपने मॉडल को विभिन्न मापदंडों के साथ परीक्षण नहीं किया है और अपने प्रयोगों के विभिन्न मीट्रिक के एक सेट को ट्रैक किया है।


वह अपने सिस्टम को बंद कर देती है, उसे एक दिन बुलाती है, और अगले दिन दूसरे मॉडल के साथ कोशिश करेगी, नए डेटा और मापदंडों के एक समूह के साथ एक अलग दृष्टिकोण। यह एक लंबी प्रक्रिया है जो कई दिनों ... हफ्तों ... और महीनों तक खिंच सकती है।


एक बिंदु पर वापस कूदना मुश्किल है जब उसने प्रयोग के लिए मापदंडों के एक विशिष्ट संयोजन की कोशिश की थी, ज्ञान कभी-कभी खो जाता है, क्योंकि सभी प्रयोग और मॉडल से संबंधित हर कलाकृति को बचाया नहीं जा सकता है। एमएल मॉडल के सुधार के लिए ट्रैकिंग महत्वपूर्ण है।


मुझे लगता है कि इस अकेले रेंजर परिदृश्य से बचा जा सकता है यदि हमारे पास एक व्यापक आईडीई-शैली का वातावरण है जहां हम कई प्रयोग चला सकते हैं, डेटा प्रबंधन कर सकते हैं, और हमारे कोड, प्रयोग मेट्रिक्स, प्लॉट, मॉडल और डेटा कलाकृतियों को भी ट्रैक कर सकते हैं। यह कितना अच्छा रहेगा?

सच होने के लिए बहुत अच्छा लगता है, लेकिन डीवीसी वीएससीओडी एक्सटेंशन यही करने का प्रयास कर रहा है।


DVC आपके प्रयोगों, मॉडलों और संबंधित कलाकृतियों को ट्रैक करने के लिए एक उत्कृष्ट उपकरण है, लेकिन यह एक CLI है - जिससे डेटा विज्ञान समुदाय के कई लोग सहज या परिचित नहीं हो सकते हैं।


वे दिन गए जब आपको इस तरह के अजीब सीएलआई आदेशों का एक समूह सीखना पड़ता था:


DVC का उपयोग करना बहुत आसान और अधिक मज़ेदार हो गया है।


डीवीसी वीएससीओडी एक्सटेंशन

Iterative Team आपके लिए एक VS कोड एक्सटेंशन लेकर आई है जो विजुअल स्टूडियो कोड IDE के शानदार सुरुचिपूर्ण कोडिंग अनुभव के साथ डेटा प्रबंधन, संस्करण और प्रयोग के लिए DVC CLI कमांड की शक्ति को जोड़ती है।


अपने वर्तमान स्वरूप में विस्तार आपको निम्नलिखित सुविधाएँ प्रदान करता है:


1. कमांड पैलेट

वीएस कोड कमांड पैलेट मेनू में एकीकृत। पैलेट खोलने के लिए F1 दबाएं और अपने निपटान में DVC से संबंधित आदेशों का एक पूरा समूह देखने के लिए DVC टाइप करें।


2. प्रयोग तालिका

आपको कार्यक्षेत्र में चलाए जा रहे प्रयोगों के बारे में गहराई से जानकारी देता है। सीएलआई मोड में dvc exp show कमांड के बराबर।


3. प्लॉट / लाइव प्लॉट

आप कार्यक्षेत्र में चलाए गए प्रयोग से उत्पन्न प्लॉट देख सकते हैं। विभिन्न प्रयोगों के भूखंडों की तुलना कर सकते हैं। यहां तक कि रीयल-टाइम में अपडेट किए गए प्लॉट भी देखें।


4. स्रोत नियंत्रण प्रबंधन

आप इस सुविधा का उपयोग करके कार्यक्षेत्र की स्थिति की जांच कर सकते हैं। आप इस दृश्य से dvc checkout , dvc commit , dvc add , dvc push और dvc pull कर सकते हैं।


5. ट्रैक की गई कलाकृतियां - डेटासेट, मॉडल और टोकनाइज़र

कार्यक्षेत्र में अपने संसाधनों को ट्रैक करने के लिए एक छोटी सी खिड़की। यहां से आप फ़ाइल क्रियाएँ कर सकते हैं, विशिष्ट संसाधनों को push और pull कर सकते हैं और ट्रैक किए गए डेटासेट के भीतर डेटा का प्रबंधन कर सकते हैं।


6. डीवीसी व्यू कंटेनर / ट्रे

वीएस कोड आइकन बार में डीवीसी आइकन पर क्लिक करके व्यू कंटेनर को सक्रिय किया जा सकता है। यह कार्यक्षेत्र में प्रयोगों और संसाधनों के बारे में सामान्य जानकारी देता है।


जब आप एक्सटेंशन का उपयोग करते हैं तो अकेले सीएलआई की तुलना में यहां कुछ फायदे दिए गए हैं:

  • सीएलआई की जटिलता को छुपाता है और अनुभव से घर्षण को दूर करता है।
  • मौजूदा को बढ़ाना और अतिरिक्त विज़ुअलाइज़ेशन प्रदान करना।
  • डेटा साइंस वर्कफ़्लोज़ को बिल्ड संदर्भ में ले जाना - फ़ोकस समय में कम अनपेक्षित ब्रेक।
  • वास्तविक समय में प्रयोग प्रदर्शन देखें
  • हर कोई वीएस कोड प्यार करता है ❤️🙂


DVC एक्सटेंशन - प्रारंभ करना

DVC एक्सटेंशन के उपयोग को 4 चरणों में संक्षेपित किया जा सकता है

  1. स्थापना - (एक बार)
  2. अपना प्रोजेक्ट और डेटा सेट करना
  3. प्रयोग
  4. प्लॉटिंग ग्राफ और मॉडल मूल्यांकन


इंस्टालेशन

सुनिश्चित करें कि आपके सिस्टम पर डीवीसी स्थापित है। आप अपने टर्मिनल में निम्न आदेश चला सकते हैं:


 $ pip3 install dvc


या आप ओएस-विशिष्ट इंस्टॉलेशन के लिए यहां दिए गए गाइड का पालन कर सकते हैं।


वीएस कोड पर जाएं और एक्सटेंशन मेनू में डीवीसी खोजें। इंस्टॉल पर क्लिक करें।


https://www.youtube.com/watch?v=INjOkuanRpc


अब आपके पास DVC एक्सटेंशन जाने के लिए तैयार है। एक्सटेंशन के उपयोग से परिचित होने के लिए हम एक नमूना एमएल प्रोजेक्ट डाउनलोड करेंगे


नमूना परियोजना डाउनलोड करें

आप रेपो से नमूना परियोजना डाउनलोड कर सकते हैं। वीएस कोड में फ़ोल्डर खोलें। डीवीसी एक्सटेंशन को डीवीसी बाइनरी और पायथन पर्यावरण का पता लगाना चाहिए।


यदि आपके पास एक विशिष्ट वातावरण है तो आप F1 दबा सकते हैं और DVC: Setup The Workspace करें

कंपाइलर पथ और पायथन पर्यावरण बाइनरी पथ प्रदान करें।


डीवीसी एक्सटेंशन का उपयोग करना

आप वर्तमान कार्यक्षेत्र में DVC प्रयोगों को DVC व्यू कंटेनर टैब में देख सकते हैं।


डेटा खींचना

अपना प्रयोग शुरू करने के लिए, हमें डेटा खींचने की जरूरत है। VS कोड कमांड पैलेट खोलने के लिए F1 दबाएं और DVC: Pull


आप DVC का चयन करके आउटपुट देख सकते हैं DVC: Show DVC Output


नोट: अभी तक टीम वीएस कोड प्लगइन में डीवीसी रिमोट स्टोरेज विकल्प पर काम कर रही है, आपको कमांड लाइन या कॉन्फिग फाइल के जरिए अपना स्टोरेज रिमोट सेट करना होगा।


प्रयोग

आप params.yaml फ़ाइल में पैरामीटर बदल सकते हैं और DVC: Modify Experiment Param(s),Rest and Run


https://www.youtube.com/watch?v=buuoKsGZvvo


प्लॉट / लाइव प्लॉट

आप अपने प्रयोगों की जांच कर सकते हैं और एक्सटेंशन का उपयोग करके प्लॉट किए गए ग्राफ़ भी देख सकते हैं।

और शीर्ष पर चेरी यह है कि विस्तार आपको अपने प्रयोगों को चेरी-चुनने की अनुमति देता है। जानबूझ का मजाक!


https://www.youtube.com/watch?v=N0VdjyQCo3Q


इतना ही नहीं, आप अलग-अलग प्रयोग चला सकते हैं और विशिष्ट पैरामीटर बदल सकते हैं।

यदि आप अपने ग्राफ़ को लाइव देखना चाहते हैं, तो उन प्रयोगों के लिए जिनमें बहुत समय लगता है - एक डीएल मॉडल कहें जिसमें शायद बहुत सारे युग हों।


आप उन्हें रीयल-टाइम में भी देख सकते हैं। बस अपना प्रयोग चलाएँ और DVC ट्रे में प्लॉट्स बटन पर क्लिक करें।


https://www.youtube.com/watch?v=ov5ScDPV6Rw


जब सब कुछ ठीक हो जाता है और हो जाता है, तो आप अपने परिवर्तनों को भी प्रतिबद्ध और आगे बढ़ा सकते हैं।

Iterative टीम जल्द ही एक्सटेंशन में और अधिक रोमांचक सुविधाएँ जोड़ने जा रही है। बने रहें।


हमें अपने पास न रखने दें, आगे बढ़ें और प्रयोग शुरू करें। हैप्पी डीवीसी टाइम!



थोड़ा सा बिदाई दर्शन

एक एमएल ऑप्स प्रैक्टिशनर के रूप में, मैं विभिन्न डेटा साइंस टीमों के साथ काम करते समय विभिन्न चुनौतियों का सामना करता हूं। बाजार में कई तरह के टूल उपलब्ध हैं - पेड और ओपन सोर्स दोनों। मैं ओपन-सोर्स टूल्स की ओर झुकता हूं, क्योंकि एक ऐसे समुदाय के साथ एक रिश्तेदारी है जो सक्रिय रूप से दुनिया भर में अजनबियों को समान समस्याओं को हल करने में मदद कर रहा है।


एमएल समुदाय के लिए यह दृष्टिकोण बहुत महत्वपूर्ण है क्योंकि हम अभी भी गोद लेने के चरण में हैं जहां एक अच्छा उपकरण आपकी समस्याओं को तेजी से और अधिक आत्मविश्वास के साथ हल करने में आपकी सहायता कर सकता है। एमएल पाइपलाइन के कई चरणों के साथ एकीकृत एक केंद्रीकृत उपकरण डेटा विज्ञान टीमों की समस्याओं को हल करने में मदद करने में एक लंबा रास्ता तय करता है; वे बुनियादी ढांचे और सेटअप की तुलना में मॉडल सुधार पर अधिक ध्यान केंद्रित कर सकते हैं - यही मुझे डीवीसी उपकरण की ओर आकर्षित करता है।


भविष्य में और अधिक जादू देखने की उम्मीद में, इस अद्भुत विस्तार को बनाने के लिए इटरेटिव में टीम के लिए चिल्लाओ।