paint-brush
आप किस तरह के वैज्ञानिक हैं?द्वारा@alvations
1,182 रीडिंग
1,182 रीडिंग

आप किस तरह के वैज्ञानिक हैं?

द्वारा Liling Tan8m2022/08/29
Read on Terminal Reader
Read this story w/o Javascript

बहुत लंबा; पढ़ने के लिए

आप किस तरह के वैज्ञानिक हैं? एक तकनीकी लेखक के रूप में, मुझे मशीन लर्निंग में उभरती हुई तकनीकों को साझा करना पसंद है और मेरे पास भाषा और अनुवाद संबंधी तकनीकों का एक विशेष सॉफ्ट-स्पॉट है। नामांकन का जश्न मनाने के लिए, मैं इस लेख को "मुझसे कुछ भी पूछें" प्रश्न और उत्तर प्रारूप में लिख रहा हूं।
featured image - आप किस तरह के वैज्ञानिक हैं?
Liling Tan HackerNoon profile picture



डेटा साइंस ने नॉलेज डिस्कवरी इन डेटाबेस (KDD) और वेरी लार्ज डेटा बेस (VLDB) सम्मेलनों के शुरुआती दिनों से एक लंबा सफर तय किया है। 1980-90 के दशक में डेटाबेस को संभालने वाले सॉफ्टवेयर इंजीनियर 2000 के दशक में विशेष डेटाबेस इंजीनियरों के रूप में विकसित हुए। इस बीच कंप्यूटर वैज्ञानिकों की जेबें छोटे अनुसंधान प्रयोगशालाओं में मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस पर प्रयोग करती हैं। बिग डेटा 2010 के कैम्ब्रियन विस्फोट में टकराए गए स्मार्ट एल्गोरिदम से मिलता है, जिससे " डेटा साइंटिस्ट: द सेक्सिएस्ट जॉब ऑफ द 21 सेंचुरी " बन जाता है। यह हमें एक दशक बाद, महामारी के बाद 2022 में लाता है, यह सवाल पूछता है, " क्या डेटा साइंटिस्ट अभी भी 21 वीं सदी का सबसे कामुक काम है? "


आप यह लेख क्यों लिख रहे हैं?


शॉर्ट कट-अवे को क्षमा करें, लेकिन यह लेख 2022 के नूनीज़ अवार्ड के संयोजन में लिखा गया है। हैकरनून के 2002 के नूनी अवार्ड्स तकनीकी लेखकों को तकनीक की सभी चीजों में अपनी सर्वश्रेष्ठ और उज्ज्वल अंतर्दृष्टि साझा करने का जश्न मनाते हैं।


एक औपचारिक परिचय:


हाय, मैं लिलिंग कर रहा हूँ। दिन में, मैं अमेज़ॅन में एक अनुप्रयुक्त वैज्ञानिक हूं और काम के बाद, मैं खुले स्रोत को कोड करता हूं और प्राकृतिक भाषा प्रक्रिया पर तकनीकी लेख लिखता हूं और कभी-कभी गेमिंग पॉप-संस्कृति पर लेख लिखता हूं।


हैकरनून कंट्रीब्यूटर ऑफ द ईयर फॉर नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) श्रेणी में नामांकित होना एक खुशी और सम्मान की बात है और यदि आपने एनएलपी या मशीन अनुवाद सामग्री का आनंद लिया है जिसे मैं साझा कर रहा हूं, तो https पर वोट बटन को तोड़ने में मदद करें: //www.noonies.tech/2022/programming/2022-hackernoon-contributor-of-the-year-natural-language-processing



नामांकन का जश्न मनाने के लिए, मैं इस लेख को "मुझसे कुछ भी पूछें" प्रश्न और उत्तर प्रारूप में लिख रहा हूं।


एक तकनीकी लेखक के रूप में, मुझे मशीन लर्निंग में उभरती हुई तकनीकों को साझा करना पसंद है और मेरे पास भाषा और अनुवाद संबंधी तकनीकों का एक विशेष सॉफ्ट-स्पॉट है। नामांकन का जश्न मनाने के लिए, मैं इस लेख को "मुझसे कुछ भी पूछें" प्रश्न और उत्तर प्रारूप में लिख रहा हूं। “ मैं किस तरह का वैज्ञानिक हूँ” के बारे में मेरे विचारों और विचारों के बारे में और जानें? "तकनीक उद्योग में निम्नलिखित अनुभागों में।

"21वीं सदी में सबसे कामुक नौकरी" पर वापस


आजकल, " डेटा वैज्ञानिकों " के लिए नौकरी का विवरण विभिन्न रूपों में आता है और यह मोटे तौर पर इन श्रेणियों के अंतर्गत आता है:


  • डेटा वैज्ञानिक
  • अनुसंधान वैज्ञानिक
  • अनुप्रयुक्त वैज्ञानिक
  • डाटा इंजीनियर
  • अनुसंधान इंजीनियर
  • मशीन लर्निंग (एमएल) इंजीनियर


यदि आप किसी से अलग-अलग नौकरी के शीर्षक की भूमिका और जिम्मेदारियों के बीच अंतर के बारे में पूछते हैं, तो आप शायद एक अस्पष्ट रेखा के साथ समाप्त हो जाएंगे जो उनमें से प्रत्येक को चित्रित करती है।


यदि आप किसी से अलग-अलग नौकरी के शीर्षक की भूमिका और जिम्मेदारियों के बीच अंतर के बारे में पूछते हैं, तो आप शायद एक अस्पष्ट रेखा के साथ समाप्त हो जाएंगे जो उनमें से प्रत्येक को चित्रित करती है। वास्तव में, यह आमतौर पर काम का एक अस्पष्ट अतिव्यापी दायरा होता है जो कंपनी और टीम की भूमिका परिभाषाओं के आधार पर भिन्न होता है। मुख्य अंतर आमतौर पर "वैज्ञानिक" और "इंजीनियर" भूमिकाओं के बीच आता है, जहां वैज्ञानिक से आमतौर पर डेटा और मॉडल गुणवत्ता पक्ष पर अधिक ध्यान केंद्रित करने की अपेक्षा की जाती है, जबकि इंजीनियर मॉडल अखंडता और सेवा विश्वसनीयता पर अधिक ध्यान केंद्रित करता है।


प्रश्न: क्या डेटा या मॉडल गुणवत्ता?

यह आमतौर पर " वैज्ञानिकों " की जिम्मेदारी है। उद्योग में, यह अलग-अलग कार्य और अनुप्रयोगों के लिए विशिष्ट है जो टीम समर्थन करती है और/या विकसित करती है। यह मशीन लर्निंग मॉडल बनाने वाले अकादमिक शोधकर्ताओं के समान है, लेकिन अंतिम मॉडल प्रयोग करने योग्य है या नहीं, इसकी व्यावहारिकता आमतौर पर उद्योग में अत्याधुनिक परिणामों को मात देने की आवश्यकता को कम करती है।


(अनस्प्लैश से मीका बॉमिस्टर द्वारा छवि)


  • डेटा गुणवत्ता कार्यों में आमतौर पर शामिल होते हैं:
    • मॉडल को प्रशिक्षित/सुधार करने के लिए आप किस ओपन सोर्स डेटा का उपयोग कर सकते हैं?
    • आंतरिक डेटा स्रोतों का मालिक कौन है जिसका उपयोग आप मॉडल को प्रशिक्षित/सुधार करने के लिए कर सकते हैं?
    • मॉडल को फिट करने के लिए डेटा को कैसे निकालें, रूपांतरित करें, स्टोर करें और लोड करें?
    • डेटा की गुणवत्ता और आकार में सुधार कैसे करें?


  • मॉडल गुणवत्ता कार्यों में आमतौर पर शामिल होते हैं:
    • कार्य को हल करने के लिए उपयोग करने के लिए सही एल्गोरिदम या नेटवर्क आर्किटेक्चर ढूँढना
    • कार्य/आवेदन का मूल्यांकन करने के लिए मूल्यांकन ढांचे के उपयोग को परिभाषित/परिष्कृत करना
    • परिभाषित मूल्यांकन मीट्रिक/ढांचे के आधार पर मॉडल के प्रदर्शन में सुधार
    • मॉडल को उत्पादन में प्रयोग करने योग्य बनाने के लिए एल्गोरिथम के लिए गति और प्रदर्शन ट्रेडऑफ़ का अनुकूलन


प्रश्न: मॉडल अखंडता और सेवा विश्वसनीयता क्या है?

यह आमतौर पर " इंजीनियरों " की जिम्मेदारी है। विश्वसनीयता आज किसी भी आधुनिक मशीन लर्निंग एप्लिकेशन के लिए महत्वपूर्ण है। यह सुनिश्चित करना महत्वपूर्ण है कि ग्राहकों/उपयोगकर्ताओं के लिए सर्वोत्तम मॉडल तैयार करने के वैज्ञानिकों के कार्बन-उत्सर्जित प्रयास उत्पादन में अपेक्षित प्रदर्शन उत्पन्न करते हैं।


एक वैज्ञानिक का " यह मेरे लैपटॉप पर काम करता है " कथन उद्योग में अस्वीकार्य है और इंजीनियरों ने " यह कहीं भी काम करता है " एक सपने को सच करने में मदद करता है।



(अनस्प्लैश से इल्या पावलोव द्वारा छवि)


  • मॉडल अखंडता कार्यों में आमतौर पर शामिल होते हैं:
    • मॉडल प्रशिक्षण और परिनियोजन को स्वचालित करने के लिए ढांचे का निर्माण और रखरखाव

    • यह सुनिश्चित करना कि प्रायोगिक परियोजनाओं में किए गए फीचर/सुधार उत्पादन मॉडल में उपलब्ध हैं

    • वैज्ञानिकों के मॉडल को उत्पादन में लाने के लिए मैनुअल चरणों को कम/समाप्त करने के लिए प्रयोगात्मक सेटअप को स्वचालित करने के लिए वृद्धिशील सुधार।


  • सेवा विश्वसनीयता कार्यों में आमतौर पर शामिल होते हैं:
    • अलर्ट सेट करना और उपयोगकर्ताओं के एप्लिकेशन उपयोग की निगरानी करना और यदि / जब यह मशीन लर्निंग मॉडल विफल / टूट जाता है
    • आंतरिक/राष्ट्रीय/क्षेत्रीय नियमों का पालन करने के लिए मॉडल तक उपयोगकर्ताओं की पहुंच को निर्दिष्ट और सीमित करना
    • बढ़ते उपयोगकर्ताओं और लोड के लिए सेवा को सुलभ बनाना


आधुनिक दिनों में, कभी-कभी इन इंजीनियरिंग जिम्मेदारियों को मशीन लर्निंग ऑपरेशंस (MLOps) के रूप में जाना जाता है, Chip Huyen के पास एक अच्छा ब्लॉगपोस्ट है जो इच्छुक ML/Data/Research इंजीनियरों के लिए MLOps पर एक सिंहावलोकन देता है


मशीन लर्निंग, डेटा, एप्लाइड, रिसर्च साइंटिस्ट/इंजीनियर क्या करते हैं, इसकी कई अन्य परिभाषाएँ हैं लेकिन उपरोक्त मेरे व्यक्तिगत उद्योग के अनुभव से है।

प्रश्न: क्या मुझे साइंटिस्ट या इंजीनियर के लिए जाना चाहिए?

निर्भर करता है! और जैसा कि पहले चर्चा की गई है, यह कंपनी से टीम में भिन्न होता है और नौकरी आवेदन प्रक्रिया के दौरान हर किसी को हमेशा भर्ती प्रबंधक से अपेक्षित जिम्मेदारियों के बारे में पूछना चाहिए।


एक अच्छा वैज्ञानिक कुछ इंजीनियरिंग कार्य करने में सक्षम होना चाहिए। इसके विपरीत, एक अच्छा इंजीनियर कुछ मशीन लर्निंग मॉडल बनाने में सक्षम होना चाहिए।


व्यक्तिगत रूप से, एक वैज्ञानिक के रूप में, ये मेरी सलाह है जो मैं महत्वाकांक्षी/नए वैज्ञानिकों को देता हूं:

  • कुछ बैकएंड/फ्रंटएंड इंजीनियरिंग जानने से मदद मिलती है
  • जानिए क्या संभव है, क्या आसान है, इंजीनियरों के लिए क्या कठिन है
  • इंजीनियरों से सीखें (डॉकर, डेटाबेस, क्लाउड, ऐप्स डिज़ाइन/देव)
  • और इंजीनियरों को सीखने दें कि आप क्या करते हैं


और एक अंतिम नोट जो मैं हमेशा खुद को याद दिलाने की कोशिश करता हूं,


पी/एस: एक इंजीनियर एक वैज्ञानिक से बेहतर मॉडल को प्रशिक्षित कर सकता है।



प्रश्न: प्रैक्टिकल की बात करें, क्या डेटा, रिसर्च या एप्लाइड साइंटिस्ट में कोई अंतर है?


भूमिकाएं और जिम्मेदारी के अनुसार, वे समान हैं लेकिन व्यावहारिक रूप से कुछ कंपनियों के पास विभिन्न वैज्ञानिकों के पदों के बीच स्पष्ट सीमांकन हो सकता है, इसलिए हमेशा मानव संसाधन (एचआर) कर्मियों या भर्ती प्रबंधक के रूप में यदि " भूमिका दिशानिर्देश " को साझा करना संभव है जिस पद पर आप आवेदन कर रहे हैं और कंपनी और टीम में शामिल होने के बाद अपनी भूमिका की अपेक्षाओं को समझने के लिए विशेष रूप से महत्वपूर्ण है


प्रश्न: हाँ, तकनीक, करियर के बारे में यह सब अच्छा और अच्छा है, मुझे डेटा, शोध या अनुप्रयुक्त वैज्ञानिक के लिए आटा (व्यावहारिक रूप से $$$ अंतर) के बारे में और बताएं!


मैं ज्यादातर मामलों में व्यक्तिगत रूप से एक " व्यावहारिक " हूं, लेकिन जब "आटा" की बात आती है, तो https://www.levels.fyi/ और कंपनी के बारे में अधिक जानने के लिए कंपनियों में दोस्तों/वरिष्ठों से पूछना आपकी सबसे अच्छी शर्त है। और उनका मुआवजा।


मेरी व्यक्तिगत राय:


"इसे पैसे के लिए मत करो" ओवर-रेटेड है। इसे करने के प्यार के लिए करो। मुझे संख्याओं और भाषा डेटा को देखने में मज़ा आता है, इस प्रकार एनएलपी। लेकिन इसे करने के लिए पर्याप्त भुगतान प्राप्त करना याद रखें =)



करियर की चर्चा से आगे, अब तकनीकी हिस्सा!

मैंने मशीन लर्निंग के क्षेत्र में वैज्ञानिकों और इंजीनियरों के बीच के अंतरों पर चर्चा की है और अब मैं एक ऐसे महत्वपूर्ण प्रश्न का उत्तर देने का प्रयास करूँगा जो लगभग सभी वैज्ञानिक पूछेंगे:


प्रश्न: मुझे X समस्या है, इसे हल करने के लिए कौन सा टूल/विधि Y है?


यह आमतौर पर " एक अच्छा प्रश्न कैसे पूछें " गाइड के अनुसार स्टैक ओवरफ्लो प्रश्नों का सबसे खराब रूप है, लेकिन मुझे लगता है कि यह ऐसा कुछ है जिसे समुदाय को जब भी हम कर सकते हैं उत्तर देने का प्रयास करना चाहिए।


मेरी व्यक्तिगत राय:


इन व्यावहारिक प्रश्नों पर कोई "बुरा" प्रश्न या "अधिक ध्यान देने की आवश्यकता नहीं है"। लेकिन यह अनिवार्य रूप से कभी-कभी दुर्भावनापूर्ण उत्पाद/तकनीकी विज्ञापन को आकर्षित करता है।



एक्स समस्या, वाई दृष्टिकोण, " वैज्ञानिक " के रूप में उत्तर देने के लिए मेरा 10-चरणीय दृष्टिकोण यहां दिया गया है, ...


(अनस्प्लैश पर जुकन तातीसी द्वारा छवि)


  1. साहित्य की समीक्षा

    1. जितना अधिक आप पढ़ेंगे, आपके पास उतने ही अधिक उपकरण होंगे
    2. लेकिन खरगोश के छेद से बचने के लिए अपना समय सीमित करें, शायद " पेपर-ब्लिट्जिंग " का प्रयास करें =)
  2. जानें कि कौन से डेटासेट उपलब्ध हैं और उनमें क्या है (शोर, विचित्रता, आदि)

  3. पता लगाएं कि कौन सा मूल्यांकन मीट्रिक कार्य X है जिसका आमतौर पर मूल्यांकन किया जाता है

  4. कार्य के सबसे पुराने प्रासंगिक उद्धरण को ट्रैक करें , उस पेपर को पढ़ें

  5. कार्य के लिए उच्चतम उद्धृत पेपर खोजें , इसे अपनी आधार रेखा के रूप में उपयोग करें

    1. जब भी संभव हो, उस उच्चतम उद्धृत पेपर और नवीनतम चमकदार पेपर में डेटासेट का शिकार करें
  6. कार्य के लिए अपने सफलता मानदंड को औद्योगिक रूप से परिभाषित करें (यह कार्य के लिए मानक eval मीट्रिक नहीं हो सकता है)

  7. आधार रेखा को दोहराने या फिर से लागू करने का प्रयास करें

  8. इंजीनियरों को अपने मॉडल/पुस्तकालयों के बारे में बताएं । क्या आपका इंजीनियर इसका उत्पादन कर सकता है?

  9. क्या बेसलाइन सफलता के मानदंडों को पूरा करती थी? व्यवसाय/परियोजना हितधारक से पूछें कि क्या यह पर्याप्त है

  10. इसे बनाएं, इसका परीक्षण करें, इसे तोड़ें, दोहराएं!



प्रश्न: एक मिनट रुकिए, क्या इसका मतलब यह है कि कोई "एक सच्चा एल्गोरिथ्म / टूल Y" नहीं है जिसे मैं टास्क X को हल करना सीख सकता हूं?

हाँ, वहाँ नहीं है।

व्यक्तिगत अनुभव से, उपकरण/मॉडल जो इसे आपके ग्राहकों के हाथ में बनाता है, आमतौर पर ऊपर वर्णित दृष्टिकोण के चरण 6 से 9 पर बहुत अधिक निर्भर करता है।


प्रश्न: मशीन लर्निंग और एनएलपी में आगे क्या है (जिसके बारे में आप व्यक्तिगत रूप से उत्साहित हैं)?


(हगिंगफेस पर उपलब्ध मॉडल)


इस समय, मैं अपना खाली समय हगिंगफेस के बारे में सीखने में बिता रहा हूं - और न केवल पुस्तकालय के विभिन्न घटकों का उपयोग करने के बारे में, बल्कि यह समझने में कि कौन सी विशेषताएं इसे सफल बनाती हैं और एक्स-फैक्टर क्या है जिसने इसे कर्षण प्राप्त किया मशीन लर्निंग कम्युनिटी में।



और अगली चीज जिसमें मैं अपना समय निवेश करूंगा वह है क्वांटम एमएल, अगर मेरे पास और भी समय है =)



इतना लंबा और मछली के लिए धन्यवाद!


मुझे उम्मीद है कि उपरोक्त प्रश्न और जैसा कि आपको " मैं किस तरह का वैज्ञानिक हूं " के बारे में कुछ जानकारी देता हूं। और अगर और भी ज्वलंत प्रश्न हैं जो आप पूछना चाहते हैं, तो बेझिझक टिप्पणी को पोस्ट के नीचे छोड़ दें।


अंत में, मैं Noonie पुरस्कार नामांकन के लिए HackerNoon समुदाय, कर्मचारियों और प्रायोजकों को बहुत-बहुत धन्यवाद देना चाहता हूं और यदि आप इस लेख का आनंद लेते हैं, तो https://www.noonies.tech/2022/programming/2022- पर वोट बटन को तोड़ने में मदद करें। हैकरनून-योगदानकर्ता-ऑफ-द-ईयर-प्राकृतिक-भाषा-प्रसंस्करण