जैसा कि तेजी से उन्नत प्रौद्योगिकियों के साथ आमतौर पर होता है, एआई ने बड़े पैमाने पर प्रेरित किया है , और कुछ लोग इसके लायक हैं, - लेकिन उद्योग ध्यान दे रहा है. छिपे हुए हार्डवेयर स्टार्टअप से फिनटेक विशालों से सार्वजनिक संस्थानों तक, टीमें अपने एआई रणनीति पर बुखार से काम कर रही हैं. यह सब एक महत्वपूर्ण, उच्च स्टॉक सवाल पर आता है: फोकस फूड फ़ीड्स उनमें से कुछ नहीं "हम जो करते हैं उसमें बेहतर होने के लिए एआई और मशीन सीखने का उपयोग कैसे करते हैं? "हम जो करते हैं उसमें बेहतर होने के लिए एआई और मशीन सीखने का उपयोग कैसे करते हैं? अक्सर नहीं, कंपनियां हो सकता है कि वे उनके लिए तैयारी कर रहे हों। कम से कम सितारों के परिणाम, या शायद लेकिन सबसे आम परिदृश्य यह है कि वे अभी तक सबसे बुनियादी ढांचे को लागू करने (और लाभ उठाने) के लिए बुनियादी ढांचे का निर्माण नहीं कर चुके हैं एल्गोरिथ्म और ऑपरेशन, बहुत कम . not पहला डेटा वैज्ञानिक डेटा दक्षता डेटा विज्ञान मशीन सीखना एक डेटा विज्ञान / एआई सलाहकार के रूप में, मुझे इस संदेश को अनगिनत बार वितरित करना पड़ा, खासकर पिछले दो वर्षों में। अपने स्वयं के क्षेत्र के आसपास के सभी उत्साह के बीच एक गीला कंबल होना मुश्किल है, खासकर यदि आप उस उत्साह को साझा करते हैं. और आप कंपनियों को कैसे बताते हैं कि वे एआई के लिए तैयार नहीं हैं बिना कि वे एलिटिस्ट (या होने के लिए) लगते हैं - एक स्वयं नियुक्त गेटवे गार्ड? सहमत यहां एक स्पष्टीकरण है जो सबसे अधिक प्रतिक्रिया देता है: Think of AI as the top of a आवश्यकताओं की पिरामिड . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). आवश्यकताओं की पिरामिड बुनियादी जरूरतें: क्या आप गिन सकते हैं? पिरामिड के नीचे हम . आपको किन डेटा की आवश्यकता है, और क्या उपलब्ध है? यदि यह एक उपयोगकर्ता अनुकूलित उत्पाद है, तो आप सभी प्रासंगिक उपयोगकर्ता बातचीत को लॉग कर रहे हैं? यदि यह एक सेंसर है, तो किन डेटा के माध्यम से आता है और कैसे? एक बातचीत को लॉग करना कितना आसान है जो अभी तक इंस्ट्रूमेंट नहीं किया गया है? यह मशीन सीखने में हाल के प्रगति को संभव बनाता है। data collection डेटा इसके बाद, यह कैसे सिस्टम के माध्यम से? क्या आपके पास विश्वसनीय प्रवाह हैं / ETL ? आप इसे कहां संग्रहीत करते हैं, और यह पहुंचना और विश्लेषण करना कितना आसान है? हमने (लगभग एक दशक तक) कहा है कि डेटा के साथ कुछ भी करने के लिए विश्वसनीय डेटा प्रवाह महत्वपूर्ण है। data flow जेई क्रेप्स [साइड: मैं एक सटीक उद्धरण की तलाश कर रहा था और इसे अपने में पाया ' मुझे लॉगिंग पसंद है ’ चमत्कार. मैंने फिर देखा कि, एक पैराग्राफ पर, वह इस सटीक मास्लो की जरूरतों की तुलना कर रहा है, एक "यह स्पष्ट रूप से ध्यान देने योग्य है" वहां अच्छे उपाय के लिए फेंक दिया गया है (जैय धन्यवाद!). संबंधित काम के बारे में बात करते हुए, मैंने बाद में भी हिलेरी मेसन और क्रिस विगजिन्स के उत्कृष्ट में भाग लिया है (एच / टी डैनियल टनकेलेग) पोस्ट एक डेटा वैज्ञानिक क्या करता है. दिनों पहले, शेन टेलर अज्ञात अपने स्वयं के डेटा विज्ञान आवश्यकताओं की पिरामिड (इरोनिक्स रूप से डेटा विज्ञान के अनजान त्रिकोण के रूप में नामित) जो, निश्चित रूप से, पूरी तरह से अलग है. शायद हमें एक tumblr शुरू करना चाहिए.] मुझे लॉगिंग पसंद है पोस्ट अज्ञात केवल जब डेटा उपलब्ध है, तो आप यह डेटा साफ करना, डेटा विज्ञान का एक कम रेटेड पक्ष शामिल है जो एक और पोस्ट का विषय होगा. यह तब होता है जब आप पाते हैं कि आप डेटा का एक टुकड़ा याद कर रहे हैं, आपके सेंसर अविश्वसनीय हैं, एक संस्करण परिवर्तन का मतलब है कि आपकी घटनाएं गिर गई हैं, आप एक झंडे को गलत ढंग से समझा रहे हैं - और आप पिरामिड के आधार को सुनिश्चित करने के लिए वापस जाते हैं। explore and transform जब आप डेटा को विश्वसनीय रूप से खोजने और साफ करने में सक्षम हों, तो आप उस चीज़ का निर्माण शुरू कर सकते हैं जो पारंपरिक रूप से BI या BI के रूप में माना जाता है। : ट्रैक करने के लिए मीट्रिक्स को परिभाषित करें, उनके मौसमीता और विभिन्न कारकों के प्रति संवेदनशीलता। शायद कुछ कठोर उपयोगकर्ता विभाजन करें और देखें कि क्या कुछ बाहर निकलता है। इस चरण में, आप यह भी जानते हैं कि आप क्या भविष्यवाणी करना चाहते हैं या सीखना चाहते हैं, और आप अपना काम तैयार करना शुरू कर सकते हैं। लेबल उत्पन्न करके, या तो स्वचालित रूप से (कौन से ग्राहकों ने चिपकाया? analytics features training data यह भी है जब आप अपने सबसे रोमांचक और आकर्षक पाते हैं - लेकिन यह भी एक और मध्यम पोस्ट का विषय है। data stories ठीक है, मैं गिन सकता हूं. अब क्या? हमारे पास प्रशिक्षण डेटा है - निश्चित रूप से, अब हम मशीन लर्निंग कर सकते हैं? शायद, यदि आप आंतरिक रूप से churn की भविष्यवाणी करने की कोशिश कर रहे हैं; नहीं, यदि परिणाम ग्राहक-आधारित होगा। इस तरह हम आपदाओं से बचने के लिए धीरे-धीरे तैनात कर सकते हैं और उन सभी को प्रभावित करने से पहले परिवर्तनों के प्रभावों का एक कच्चा अनुमान प्राप्त कर सकते हैं। जगह पर (संस्करणों के लिए, यह उदाहरण के लिए "सबसे लोकप्रिय" होगा, फिर "आपके उपयोगकर्ता वर्ग के लिए सबसे लोकप्रिय" - बहुत ही परेशान लेकिन प्रभावी "व्यक्तिगतकरण से पहले स्टेरॉयड")। experimentation simple baseline सरल heuristics को हराना आश्चर्यजनक रूप से मुश्किल है, और वे आपको मध्य में hypertuned हाइपरपैरामीटर के साथ रहस्यमय एमएल ब्लैक बॉक्स के बिना सिस्टम को अंत से अंत तक डिबग करने की अनुमति देंगे. यही कारण है कि मेरा पसंदीदा डेटा विज्ञान एल्गोरिदम विभाजन है. इस बिंदु पर, आप एक बहुत ही सरल एमएल एल्गोरिथ्म (जैसे लोजिस्टिक पुनरावृत्ति या, हाँ, विभाजन) लागू कर सकते हैं, फिर नए सिग्नल और सुविधाओं के बारे में सोच सकते हैं जो आपके परिणामों को प्रभावित कर सकते हैं मौसम और जनगणना डेटा मेरे गॉड-टॉस हैं। AI पर लाओ! आप इसे बना रहे हैं. आप उपकरण हैं. आपका ईटीएल घूम रहा है. आपका डेटा संगठित और साफ किया गया है. आपके पास डैशबोर्ड, लेबल और अच्छी सुविधाएं हैं. आप सही चीजों को माप रहे हैं. आप हर दिन प्रयोग कर सकते हैं. आपके पास एक बुनियादी एल्गोरिथ्म है जो अंत से अंत तक डिबग किया जाता है और उत्पादन में चल रहा है - और आपने इसे दर्जनों बार बदल दिया है. आप तैयार हैं. आगे बढ़ो और वहां सभी नवीनतम और सबसे महान का प्रयास करें - अपनी खुद की रोल से मशीन सीखने में विशेषज्ञता रखने वाली कंपनियों का उपयोग करने के लिए। आप उत्पादन में कुछ बड़े सुधार प्राप्त कर सकते हैं, या आप नहीं कर सकते हैं। सबसे खराब मामले में, आप नए तरीकों को सीखते हैं, उनके साथ राय विकसित इंतजार करें, एमवीपी, एजेल, लीन और सब कुछ के बारे में क्या? जैसा कि आप एक पारंपरिक एमवीपी (कम से कम संभव उत्पाद) का निर्माण करते हैं, आप अपने उत्पाद के एक छोटे से, ऊर्ध्वाधर अनुभाग से शुरू करते हैं और इसे अंत से अंत तक अच्छी तरह से काम करते हैं. आप इसकी पिरामिड का निर्माण कर सकते हैं, फिर इसे क्षैतिज रूप से बढ़ा सकते हैं. उदाहरण के लिए, जॉब्न में, हमने नींद डेटा के साथ शुरू किया और इसकी पिरामिड का निर्माण किया: उपकरण, ईटीएल, सफाई और संगठन, लेबल कैप्चर और परिभाषाएं, मीट्रिक्स (लोगों के हर रात नींद के औसत # क्या है? और मशीन सीखने-चालित डेटा उत्पादों (ऑटोमेटिक नींद का पता लगाने)। यह कदमों के लिए, फिर भोजन, मौसम, कसरत, सामाजिक नेटवर्क और संचार - एक-एक में। The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. डेटा कहानियां विस्तारित सही प्रश्न पूछें और सही उत्पादों का निर्माण करें यह सिर्फ आपके बारे में है कि आप कैसे नहीं है कि आप (वैज्ञानिक या नैतिक कारणों से) could should मशीन सीखने के उपकरणों का वादा ‘ ’ इंतजार करें, उस अमेज़ॅन एपीआई या TensorFlow या उस अन्य ओपन सोर्स लाइब्रेरी के बारे में क्या? यह सब अद्भुत और बहुत उपयोगी है. (कुछ कंपनियां अपने पूरे पिरामिड को कस्टम-बिल्डिंग करते हैं ताकि वे अपना काम प्रदर्शित कर सकें. वे नायक हैं.) हालांकि, वर्तमान एआई हाइप के मजबूत प्रभाव के तहत, लोग डेटा जो गंदे और छेदों से भरा है, जो वर्षों तक फैलता है, जबकि प्रारूप और अर्थ में बदलाव करता है, यह अभी तक समझ नहीं आता है, यह ऐसे तरीकों से संरचित है जो अर्थ नहीं करते हैं, और उन उपकरणों को जादू से संभालने की उम्मीद करते हैं।