नमस्ते!
एक परिदृश्य पर विचार करें - एक अकेला डेटा वैज्ञानिक बड़ी मात्रा में डेटा के माध्यम से मिटाने की कोशिश में अपने सिस्टम पर काम करता है; सफाई, छँटाई, प्रसंस्करण, और फिर नए संसाधित डेटा पर भविष्यवाणी चलाने के लिए एक मॉडल का निर्माण। वैज्ञानिक के पास अपने निपटान में उपकरणों का एक गुच्छा है - जुपिटर नोटबुक, एयरफ्लो, एनाकोंडा, पांडा, डेटा स्टोरेज और क्लाउड वर्चुअल मशीन।
वह इसे घंटों और घंटों तक प्रशिक्षित करती है, केवल पूर्णता से कम होने के लिए - मॉडल उतना अच्छा प्रदर्शन नहीं करता जितना उसे करना चाहिए था। वह खिड़की से बाहर देखती है - रात हो चुकी है। उसने अभी तक अपने मॉडल को विभिन्न मापदंडों के साथ परीक्षण नहीं किया है और अपने प्रयोगों के विभिन्न मीट्रिक के एक सेट को ट्रैक किया है।
वह अपने सिस्टम को बंद कर देती है, उसे एक दिन बुलाती है, और अगले दिन दूसरे मॉडल के साथ कोशिश करेगी, नए डेटा और मापदंडों के एक समूह के साथ एक अलग दृष्टिकोण। यह एक लंबी प्रक्रिया है जो कई दिनों ... हफ्तों ... और महीनों तक खिंच सकती है।
एक बिंदु पर वापस कूदना मुश्किल है जब उसने प्रयोग के लिए मापदंडों के एक विशिष्ट संयोजन की कोशिश की थी, ज्ञान कभी-कभी खो जाता है, क्योंकि सभी प्रयोग और मॉडल से संबंधित हर कलाकृति को बचाया नहीं जा सकता है। एमएल मॉडल के सुधार के लिए ट्रैकिंग महत्वपूर्ण है।
मुझे लगता है कि इस अकेले रेंजर परिदृश्य से बचा जा सकता है यदि हमारे पास एक व्यापक आईडीई-शैली का वातावरण है जहां हम कई प्रयोग चला सकते हैं, डेटा प्रबंधन कर सकते हैं, और हमारे कोड, प्रयोग मेट्रिक्स, प्लॉट, मॉडल और डेटा कलाकृतियों को भी ट्रैक कर सकते हैं। यह कितना अच्छा रहेगा?
सच होने के लिए बहुत अच्छा लगता है, लेकिन डीवीसी वीएससीओडी एक्सटेंशन यही करने का प्रयास कर रहा है।
DVC आपके प्रयोगों, मॉडलों और संबंधित कलाकृतियों को ट्रैक करने के लिए एक उत्कृष्ट उपकरण है, लेकिन यह एक CLI है - जिससे डेटा विज्ञान समुदाय के कई लोग सहज या परिचित नहीं हो सकते हैं।
वे दिन गए जब आपको इस तरह के अजीब सीएलआई आदेशों का एक समूह सीखना पड़ता था:
DVC का उपयोग करना बहुत आसान और अधिक मज़ेदार हो गया है।
Iterative Team आपके लिए एक VS कोड एक्सटेंशन लेकर आई है जो विजुअल स्टूडियो कोड IDE के शानदार सुरुचिपूर्ण कोडिंग अनुभव के साथ डेटा प्रबंधन, संस्करण और प्रयोग के लिए DVC CLI कमांड की शक्ति को जोड़ती है।
अपने वर्तमान स्वरूप में विस्तार आपको निम्नलिखित सुविधाएँ प्रदान करता है:
वीएस कोड कमांड पैलेट मेनू में एकीकृत। पैलेट खोलने के लिए F1 दबाएं और अपने निपटान में DVC से संबंधित आदेशों का एक पूरा समूह देखने के लिए DVC टाइप करें।
आपको कार्यक्षेत्र में चलाए जा रहे प्रयोगों के बारे में गहराई से जानकारी देता है। सीएलआई मोड में dvc exp show
कमांड के बराबर।
आप कार्यक्षेत्र में चलाए गए प्रयोग से उत्पन्न प्लॉट देख सकते हैं। विभिन्न प्रयोगों के भूखंडों की तुलना कर सकते हैं। यहां तक कि रीयल-टाइम में अपडेट किए गए प्लॉट भी देखें।
आप इस सुविधा का उपयोग करके कार्यक्षेत्र की स्थिति की जांच कर सकते हैं। आप इस दृश्य से dvc checkout
, dvc commit
, dvc add
, dvc push
और dvc pull
कर सकते हैं।
कार्यक्षेत्र में अपने संसाधनों को ट्रैक करने के लिए एक छोटी सी खिड़की। यहां से आप फ़ाइल क्रियाएँ कर सकते हैं, विशिष्ट संसाधनों को push
और pull
कर सकते हैं और ट्रैक किए गए डेटासेट के भीतर डेटा का प्रबंधन कर सकते हैं।
वीएस कोड आइकन बार में डीवीसी आइकन पर क्लिक करके व्यू कंटेनर को सक्रिय किया जा सकता है। यह कार्यक्षेत्र में प्रयोगों और संसाधनों के बारे में सामान्य जानकारी देता है।
जब आप एक्सटेंशन का उपयोग करते हैं तो अकेले सीएलआई की तुलना में यहां कुछ फायदे दिए गए हैं:
DVC एक्सटेंशन के उपयोग को 4 चरणों में संक्षेपित किया जा सकता है
सुनिश्चित करें कि आपके सिस्टम पर डीवीसी स्थापित है। आप अपने टर्मिनल में निम्न आदेश चला सकते हैं:
$ pip3 install dvc
या आप ओएस-विशिष्ट इंस्टॉलेशन के लिए यहां दिए गए गाइड का पालन कर सकते हैं।
वीएस कोड पर जाएं और एक्सटेंशन मेनू में डीवीसी खोजें। इंस्टॉल पर क्लिक करें।
https://www.youtube.com/watch?v=INjOkuanRpc
अब आपके पास DVC एक्सटेंशन जाने के लिए तैयार है। एक्सटेंशन के उपयोग से परिचित होने के लिए हम एक नमूना एमएल प्रोजेक्ट डाउनलोड करेंगे
आप रेपो से नमूना परियोजना डाउनलोड कर सकते हैं। वीएस कोड में फ़ोल्डर खोलें। डीवीसी एक्सटेंशन को डीवीसी बाइनरी और पायथन पर्यावरण का पता लगाना चाहिए।
यदि आपके पास एक विशिष्ट वातावरण है तो आप F1 दबा सकते हैं और DVC: Setup The Workspace
करें
कंपाइलर पथ और पायथन पर्यावरण बाइनरी पथ प्रदान करें।
आप वर्तमान कार्यक्षेत्र में DVC प्रयोगों को DVC व्यू कंटेनर टैब में देख सकते हैं।
अपना प्रयोग शुरू करने के लिए, हमें डेटा खींचने की जरूरत है। VS कोड कमांड पैलेट खोलने के लिए F1 दबाएं और DVC: Pull
आप DVC का चयन करके आउटपुट देख सकते हैं DVC: Show DVC Output
नोट: अभी तक टीम वीएस कोड प्लगइन में डीवीसी रिमोट स्टोरेज विकल्प पर काम कर रही है, आपको कमांड लाइन या कॉन्फिग फाइल के जरिए अपना स्टोरेज रिमोट सेट करना होगा।
आप params.yaml
फ़ाइल में पैरामीटर बदल सकते हैं और DVC: Modify Experiment Param(s),Rest and Run
।
https://www.youtube.com/watch?v=buuoKsGZvvo
आप अपने प्रयोगों की जांच कर सकते हैं और एक्सटेंशन का उपयोग करके प्लॉट किए गए ग्राफ़ भी देख सकते हैं।
और शीर्ष पर चेरी यह है कि विस्तार आपको अपने प्रयोगों को चेरी-चुनने की अनुमति देता है। जानबूझ का मजाक!
https://www.youtube.com/watch?v=N0VdjyQCo3Q
इतना ही नहीं, आप अलग-अलग प्रयोग चला सकते हैं और विशिष्ट पैरामीटर बदल सकते हैं।
यदि आप अपने ग्राफ़ को लाइव देखना चाहते हैं, तो उन प्रयोगों के लिए जिनमें बहुत समय लगता है - एक डीएल मॉडल कहें जिसमें शायद बहुत सारे युग हों।
आप उन्हें रीयल-टाइम में भी देख सकते हैं। बस अपना प्रयोग चलाएँ और DVC ट्रे में प्लॉट्स बटन पर क्लिक करें।
https://www.youtube.com/watch?v=ov5ScDPV6Rw
जब सब कुछ ठीक हो जाता है और हो जाता है, तो आप अपने परिवर्तनों को भी प्रतिबद्ध और आगे बढ़ा सकते हैं।
Iterative टीम जल्द ही एक्सटेंशन में और अधिक रोमांचक सुविधाएँ जोड़ने जा रही है। बने रहें।
हमें अपने पास न रखने दें, आगे बढ़ें और प्रयोग शुरू करें। हैप्पी डीवीसी टाइम!
एक एमएल ऑप्स प्रैक्टिशनर के रूप में, मैं विभिन्न डेटा साइंस टीमों के साथ काम करते समय विभिन्न चुनौतियों का सामना करता हूं। बाजार में कई तरह के टूल उपलब्ध हैं - पेड और ओपन सोर्स दोनों। मैं ओपन-सोर्स टूल्स की ओर झुकता हूं, क्योंकि एक ऐसे समुदाय के साथ एक रिश्तेदारी है जो सक्रिय रूप से दुनिया भर में अजनबियों को समान समस्याओं को हल करने में मदद कर रहा है।
एमएल समुदाय के लिए यह दृष्टिकोण बहुत महत्वपूर्ण है क्योंकि हम अभी भी गोद लेने के चरण में हैं जहां एक अच्छा उपकरण आपकी समस्याओं को तेजी से और अधिक आत्मविश्वास के साथ हल करने में आपकी सहायता कर सकता है। एमएल पाइपलाइन के कई चरणों के साथ एकीकृत एक केंद्रीकृत उपकरण डेटा विज्ञान टीमों की समस्याओं को हल करने में मदद करने में एक लंबा रास्ता तय करता है; वे बुनियादी ढांचे और सेटअप की तुलना में मॉडल सुधार पर अधिक ध्यान केंद्रित कर सकते हैं - यही मुझे डीवीसी उपकरण की ओर आकर्षित करता है।
भविष्य में और अधिक जादू देखने की उम्मीद में, इस अद्भुत विस्तार को बनाने के लिए इटरेटिव में टीम के लिए चिल्लाओ।