डेटा साइंस ने (KDD) और सम्मेलनों के शुरुआती दिनों से एक लंबा सफर तय किया है। 1980-90 के दशक में डेटाबेस को संभालने वाले सॉफ्टवेयर इंजीनियर रूप में विकसित हुए। इस बीच कंप्यूटर वैज्ञानिकों की जेबें छोटे अनुसंधान प्रयोगशालाओं में पर प्रयोग करती हैं। बिग डेटा टकराए गए स्मार्ट एल्गोरिदम से मिलता है, जिससे " " बन जाता है। यह हमें एक दशक बाद, महामारी के बाद 2022 में लाता है, यह सवाल पूछता है, " " नॉलेज डिस्कवरी इन डेटाबेस वेरी लार्ज डेटा बेस (VLDB) 2000 के दशक में विशेष डेटाबेस इंजीनियरों के मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस 2010 के कैम्ब्रियन विस्फोट में डेटा साइंटिस्ट: द सेक्सिएस्ट जॉब ऑफ द 21 सेंचुरी क्या डेटा साइंटिस्ट अभी भी 21 वीं सदी का सबसे कामुक काम है? आप यह लेख क्यों लिख रहे हैं? शॉर्ट कट-अवे को क्षमा करें, लेकिन यह लेख 2022 के नूनीज़ अवार्ड के संयोजन में लिखा गया है। हैकरनून के 2002 के नूनी अवार्ड्स तकनीकी लेखकों को तकनीक की सभी चीजों में अपनी सर्वश्रेष्ठ और उज्ज्वल अंतर्दृष्टि साझा करने का जश्न मनाते हैं। एक औपचारिक परिचय: हाय, मैं लिलिंग कर रहा हूँ। दिन में, मैं अमेज़ॅन में एक अनुप्रयुक्त वैज्ञानिक हूं और काम के बाद, मैं खुले स्रोत को कोड करता हूं और प्राकृतिक भाषा प्रक्रिया पर तकनीकी लेख लिखता हूं और कभी-कभी गेमिंग पॉप-संस्कृति पर लेख लिखता हूं। (एनएलपी) श्रेणी में नामांकित होना एक खुशी और सम्मान की बात है और यदि आपने एनएलपी या मशीन अनुवाद सामग्री का आनंद लिया है जिसे मैं साझा कर रहा हूं, तो पर मदद करें: हैकरनून कंट्रीब्यूटर ऑफ द ईयर फॉर नेचुरल लैंग्वेज प्रोसेसिंग https वोट बटन को तोड़ने में //www.noonies.tech/2022/programming/2022-hackernoon-contributor-of-the-year-natural-language-processing नामांकन का जश्न मनाने के लिए, मैं इस लेख को "मुझसे कुछ भी पूछें" प्रश्न और उत्तर प्रारूप में लिख रहा हूं। एक तकनीकी लेखक के रूप में, मुझे मशीन लर्निंग में उभरती हुई तकनीकों को साझा करना पसंद है और मेरे पास भाषा और अनुवाद संबंधी तकनीकों का एक विशेष सॉफ्ट-स्पॉट है। नामांकन का जश्न मनाने के लिए, मैं इस लेख को "मुझसे कुछ भी पूछें" प्रश्न और उत्तर प्रारूप में लिख रहा हूं। “ "तकनीक उद्योग में निम्नलिखित अनुभागों में। मैं किस तरह का वैज्ञानिक हूँ” के बारे में मेरे विचारों और विचारों के बारे में और जानें? "21वीं सदी में सबसे कामुक नौकरी" पर वापस आजकल, " " के लिए नौकरी का विवरण विभिन्न रूपों में आता है और यह मोटे तौर पर इन श्रेणियों के अंतर्गत आता है: डेटा वैज्ञानिकों डेटा वैज्ञानिक अनुसंधान वैज्ञानिक अनुप्रयुक्त वैज्ञानिक डाटा इंजीनियर अनुसंधान इंजीनियर मशीन लर्निंग (एमएल) इंजीनियर यदि आप किसी से अलग-अलग नौकरी के शीर्षक की भूमिका और जिम्मेदारियों के बीच अंतर के बारे में पूछते हैं, तो आप शायद एक अस्पष्ट रेखा के साथ समाप्त हो जाएंगे जो उनमें से प्रत्येक को चित्रित करती है। यदि आप किसी से अलग-अलग नौकरी के शीर्षक की भूमिका और जिम्मेदारियों के बीच अंतर के बारे में पूछते हैं, तो आप शायद एक अस्पष्ट रेखा के साथ समाप्त हो जाएंगे जो उनमें से प्रत्येक को चित्रित करती है। वास्तव में, यह आमतौर पर काम का एक अस्पष्ट अतिव्यापी दायरा होता है जो कंपनी और टीम की भूमिका परिभाषाओं के आधार पर भिन्न होता है। मुख्य अंतर आमतौर पर "वैज्ञानिक" और "इंजीनियर" भूमिकाओं के बीच आता है, जहां वैज्ञानिक से आमतौर पर डेटा और मॉडल गुणवत्ता पक्ष पर अधिक ध्यान केंद्रित करने की अपेक्षा की जाती है, जबकि इंजीनियर मॉडल अखंडता और सेवा विश्वसनीयता पर अधिक ध्यान केंद्रित करता है। प्रश्न: क्या डेटा या मॉडल गुणवत्ता? यह आमतौर पर " " की जिम्मेदारी है। उद्योग में, यह अलग-अलग कार्य और अनुप्रयोगों के लिए विशिष्ट है जो टीम समर्थन करती है और/या विकसित करती है। यह मशीन लर्निंग मॉडल बनाने वाले अकादमिक शोधकर्ताओं के समान है, लेकिन अंतिम मॉडल प्रयोग करने योग्य है या नहीं, इसकी व्यावहारिकता आमतौर पर उद्योग में अत्याधुनिक परिणामों को मात देने की आवश्यकता को कम करती है। वैज्ञानिकों डेटा गुणवत्ता कार्यों में आमतौर पर शामिल होते हैं: मॉडल को प्रशिक्षित/सुधार करने के लिए आप किस ओपन सोर्स डेटा का उपयोग कर सकते हैं? आंतरिक डेटा स्रोतों का मालिक कौन है जिसका उपयोग आप मॉडल को प्रशिक्षित/सुधार करने के लिए कर सकते हैं? मॉडल को फिट करने के लिए डेटा को कैसे निकालें, रूपांतरित करें, स्टोर करें और लोड करें? डेटा की गुणवत्ता और आकार में सुधार कैसे करें? मॉडल गुणवत्ता कार्यों में आमतौर पर शामिल होते हैं: कार्य को हल करने के लिए उपयोग करने के लिए सही एल्गोरिदम या नेटवर्क आर्किटेक्चर ढूँढना कार्य/आवेदन का मूल्यांकन करने के लिए मूल्यांकन ढांचे के उपयोग को परिभाषित/परिष्कृत करना परिभाषित मूल्यांकन मीट्रिक/ढांचे के आधार पर मॉडल के प्रदर्शन में सुधार मॉडल को उत्पादन में प्रयोग करने योग्य बनाने के लिए एल्गोरिथम के लिए गति और प्रदर्शन ट्रेडऑफ़ का अनुकूलन प्रश्न: मॉडल अखंडता और सेवा विश्वसनीयता क्या है? यह आमतौर पर " " की जिम्मेदारी है। विश्वसनीयता आज किसी भी आधुनिक मशीन लर्निंग एप्लिकेशन के लिए महत्वपूर्ण है। यह सुनिश्चित करना महत्वपूर्ण है कि ग्राहकों/उपयोगकर्ताओं के लिए सर्वोत्तम मॉडल तैयार करने के वैज्ञानिकों के कार्बन-उत्सर्जित प्रयास उत्पादन में अपेक्षित प्रदर्शन उत्पन्न करते हैं। इंजीनियरों एक वैज्ञानिक का " " कथन उद्योग में अस्वीकार्य है और इंजीनियरों ने " " एक सपने को सच करने में मदद करता है। यह मेरे लैपटॉप पर काम करता है यह कहीं भी काम करता है मॉडल अखंडता कार्यों में आमतौर पर शामिल होते हैं: मॉडल प्रशिक्षण और परिनियोजन को स्वचालित करने के लिए ढांचे का निर्माण और रखरखाव यह सुनिश्चित करना कि प्रायोगिक परियोजनाओं में किए गए फीचर/सुधार उत्पादन मॉडल में उपलब्ध हैं वैज्ञानिकों के मॉडल को उत्पादन में लाने के लिए मैनुअल चरणों को कम/समाप्त करने के लिए प्रयोगात्मक सेटअप को स्वचालित करने के लिए वृद्धिशील सुधार। सेवा विश्वसनीयता कार्यों में आमतौर पर शामिल होते हैं: अलर्ट सेट करना और उपयोगकर्ताओं के एप्लिकेशन उपयोग की निगरानी करना और यदि / जब यह मशीन लर्निंग मॉडल विफल / टूट जाता है आंतरिक/राष्ट्रीय/क्षेत्रीय नियमों का पालन करने के लिए मॉडल तक उपयोगकर्ताओं की पहुंच को निर्दिष्ट और सीमित करना बढ़ते उपयोगकर्ताओं और लोड के लिए सेवा को सुलभ बनाना आधुनिक दिनों में, कभी-कभी इन इंजीनियरिंग जिम्मेदारियों को मशीन लर्निंग ऑपरेशंस (MLOps) के रूप में जाना जाता है, Chip Huyen के पास एक । अच्छा ब्लॉगपोस्ट है जो इच्छुक ML/Data/Research इंजीनियरों के लिए MLOps पर एक सिंहावलोकन देता है मशीन लर्निंग, डेटा, एप्लाइड, रिसर्च साइंटिस्ट/इंजीनियर क्या करते हैं, इसकी कई अन्य परिभाषाएँ हैं लेकिन उपरोक्त मेरे व्यक्तिगत उद्योग के अनुभव से है। प्रश्न: क्या मुझे साइंटिस्ट या इंजीनियर के लिए जाना चाहिए? निर्भर करता है! और जैसा कि पहले चर्चा की गई है, यह कंपनी से टीम में भिन्न होता है और नौकरी आवेदन प्रक्रिया के दौरान हर किसी को हमेशा भर्ती प्रबंधक से अपेक्षित जिम्मेदारियों के बारे में पूछना चाहिए। एक अच्छा वैज्ञानिक कुछ इंजीनियरिंग कार्य करने में सक्षम होना चाहिए। इसके विपरीत, एक अच्छा इंजीनियर कुछ मशीन लर्निंग मॉडल बनाने में सक्षम होना चाहिए। व्यक्तिगत रूप से, एक वैज्ञानिक के रूप में, ये मेरी सलाह है जो मैं महत्वाकांक्षी/नए वैज्ञानिकों को देता हूं: कुछ बैकएंड/फ्रंटएंड इंजीनियरिंग जानने से मदद मिलती है जानिए क्या संभव है, क्या आसान है, इंजीनियरों के लिए क्या कठिन है इंजीनियरों से सीखें (डॉकर, डेटाबेस, क्लाउड, ऐप्स डिज़ाइन/देव) और इंजीनियरों को सीखने दें कि आप क्या करते हैं और एक अंतिम नोट जो मैं हमेशा खुद को याद दिलाने की कोशिश करता हूं, पी/एस: एक इंजीनियर एक वैज्ञानिक से बेहतर मॉडल को प्रशिक्षित कर सकता है। प्रश्न: प्रैक्टिकल की बात करें, क्या डेटा, रिसर्च या एप्लाइड साइंटिस्ट में कोई अंतर है? भूमिकाएं और जिम्मेदारी के अनुसार, वे समान हैं लेकिन व्यावहारिक रूप से कुछ कंपनियों के पास विभिन्न वैज्ञानिकों के पदों के बीच स्पष्ट सीमांकन हो सकता है, इसलिए हमेशा मानव संसाधन (एचआर) कर्मियों या भर्ती प्रबंधक के रूप में यदि " " को साझा करना संभव है जिस पद पर आप आवेदन कर रहे हैं । भूमिका दिशानिर्देश और कंपनी और टीम में शामिल होने के बाद अपनी भूमिका की अपेक्षाओं को समझने के लिए विशेष रूप से महत्वपूर्ण है प्रश्न: हाँ, तकनीक, करियर के बारे में यह सब अच्छा और अच्छा है, मुझे डेटा, शोध या अनुप्रयुक्त वैज्ञानिक के लिए आटा (व्यावहारिक रूप से $$$ अंतर) के बारे में और बताएं! मैं ज्यादातर मामलों में व्यक्तिगत रूप से एक " " हूं, लेकिन जब "आटा" की बात आती है, तो और कंपनी के बारे में अधिक जानने के लिए कंपनियों में दोस्तों/वरिष्ठों से पूछना आपकी सबसे अच्छी शर्त है। और उनका मुआवजा। व्यावहारिक https://www.levels.fyi/ मेरी व्यक्तिगत राय: "इसे पैसे के लिए मत करो" ओवर-रेटेड है। इसे करने के प्यार के लिए करो। मुझे संख्याओं और भाषा डेटा को देखने में मज़ा आता है, इस प्रकार एनएलपी। लेकिन इसे करने के लिए पर्याप्त भुगतान प्राप्त करना याद रखें =) करियर की चर्चा से आगे, अब तकनीकी हिस्सा! मैंने मशीन लर्निंग के क्षेत्र में वैज्ञानिकों और इंजीनियरों के बीच के अंतरों पर चर्चा की है और अब मैं एक ऐसे महत्वपूर्ण प्रश्न का उत्तर देने का प्रयास करूँगा जो लगभग सभी वैज्ञानिक पूछेंगे: प्रश्न: मुझे X समस्या है, इसे हल करने के लिए कौन सा टूल/विधि Y है? यह आमतौर पर " " गाइड के अनुसार स्टैक ओवरफ्लो प्रश्नों का सबसे खराब रूप है, लेकिन मुझे लगता है कि यह ऐसा कुछ है जिसे समुदाय को जब भी हम कर सकते हैं उत्तर देने का प्रयास करना चाहिए। एक अच्छा प्रश्न कैसे पूछें मेरी व्यक्तिगत राय: इन व्यावहारिक प्रश्नों पर कोई "बुरा" प्रश्न या "अधिक ध्यान देने की आवश्यकता नहीं है"। लेकिन यह अनिवार्य रूप से कभी-कभी दुर्भावनापूर्ण उत्पाद/तकनीकी विज्ञापन को आकर्षित करता है। एक्स समस्या, वाई दृष्टिकोण, " " के रूप में उत्तर देने के लिए मेरा 10-चरणीय दृष्टिकोण यहां दिया गया है, ... वैज्ञानिक साहित्य की समीक्षा जितना अधिक आप पढ़ेंगे, आपके पास उतने ही अधिक उपकरण होंगे लेकिन खरगोश के छेद से बचने के लिए अपना समय सीमित करें, शायद " " का प्रयास करें =) पेपर-ब्लिट्जिंग और उनमें क्या है (शोर, विचित्रता, आदि) जानें कि कौन से डेटासेट उपलब्ध हैं पता लगाएं कि कौन सा मूल्यांकन मीट्रिक कार्य X है जिसका आमतौर पर मूल्यांकन किया जाता है , उस पेपर को पढ़ें कार्य के सबसे पुराने प्रासंगिक उद्धरण को ट्रैक करें , इसे अपनी आधार रेखा के रूप में उपयोग करें कार्य के लिए उच्चतम उद्धृत पेपर खोजें जब भी संभव हो, उस उच्चतम उद्धृत पेपर और नवीनतम चमकदार पेपर में डेटासेट का शिकार करें (यह कार्य के लिए मानक eval मीट्रिक नहीं हो सकता है) कार्य के लिए अपने सफलता मानदंड को औद्योगिक रूप से परिभाषित करें आधार रेखा को दोहराने या फिर से लागू करने का प्रयास करें । क्या आपका इंजीनियर इसका उत्पादन कर सकता है? इंजीनियरों को अपने मॉडल/पुस्तकालयों के बारे में बताएं व्यवसाय/परियोजना हितधारक से पूछें कि क्या यह पर्याप्त है क्या बेसलाइन सफलता के मानदंडों को पूरा करती थी? इसे बनाएं, इसका परीक्षण करें, इसे तोड़ें, दोहराएं! प्रश्न: एक मिनट रुकिए, क्या इसका मतलब यह है कि कोई "एक सच्चा एल्गोरिथ्म / टूल Y" नहीं है जिसे मैं टास्क X को हल करना सीख सकता हूं? हाँ, वहाँ नहीं है। व्यक्तिगत अनुभव से, उपकरण/मॉडल जो इसे आपके ग्राहकों के हाथ में बनाता है, आमतौर पर ऊपर वर्णित दृष्टिकोण के चरण 6 से 9 पर बहुत अधिक निर्भर करता है। प्रश्न: मशीन लर्निंग और एनएलपी में आगे क्या है (जिसके बारे में आप व्यक्तिगत रूप से उत्साहित हैं)? इस समय, मैं अपना खाली समय के बारे में सीखने में बिता रहा हूं - और न केवल पुस्तकालय के विभिन्न घटकों का उपयोग करने के बारे में, बल्कि यह समझने में कि मशीन लर्निंग कम्युनिटी में। हगिंगफेस कौन सी विशेषताएं इसे सफल बनाती हैं और एक्स-फैक्टर क्या है जिसने इसे कर्षण प्राप्त किया और अगली चीज जिसमें मैं अपना समय निवेश करूंगा वह है क्वांटम एमएल, अगर मेरे पास और भी समय है =) https://developer.nvidia.com/cuquantum-sdk https://www.nature.com/articles/s41467-022-32550-3 https://github.com/XanaduAI/pennylane https://medium.com/xanaduai/training-quantum-neural-networks-with-pennylane-pytorch-and-tensorflow-c669108118cc इतना लंबा और मछली के लिए धन्यवाद! मुझे उम्मीद है कि उपरोक्त प्रश्न और जैसा कि आपको " " के बारे में कुछ जानकारी देता हूं। और अगर और भी ज्वलंत प्रश्न हैं जो आप पूछना चाहते हैं, तो बेझिझक टिप्पणी को पोस्ट के नीचे छोड़ दें। मैं किस तरह का वैज्ञानिक हूं अंत में, मैं Noonie पुरस्कार नामांकन के लिए HackerNoon समुदाय, कर्मचारियों और प्रायोजकों को बहुत-बहुत धन्यवाद देना चाहता हूं और यदि आप इस लेख का आनंद लेते हैं, तो पर मदद करें। https://www.noonies.tech/2022/programming/2022- वोट बटन को तोड़ने में हैकरनून-योगदानकर्ता-ऑफ-द-ईयर-प्राकृतिक-भाषा-प्रसंस्करण