Tulad ng karaniwang kaso sa mga mabilis na-advancing teknolohiya, ang AI ay nag-inspirate ng massive na ang at ang Ang isang bagay na ito ay merito, Mula sa stealth hardware startups sa fintech giants sa mga publikong institusyon, ang mga team ay nagtrabaho sa kanilang AI strategy. ang fomo ang fucking ang feeds Ang ilang mga ito ay hindi Paano gumagamit namin ang AI at machine learning upang maging mas mahusay sa kung ano natin gawin? Paano gumagamit namin ang AI at machine learning upang maging mas mahusay sa kung ano natin gawin? Sa karamihan ng mga ito, ang mga kumpanya ay Ikaw ay may mga tao. may mga tao ay may mga tao Sa mga mas mababang posisyon ay may mga species ng Eurobond fauna, at ang mga altitude ng bundok ay dumarami sa pagtaas ng altitude. Hindi lamang ang katotohanan, ngunit ito ay, bilang isang gulay, ay lamang ang pinaka-cool na bagay na manufactured sa pamamagitan ng Ina Earth. mga algorithms at mga operasyon, higit pa sa . not Ang unang data scientist Mga Data Literacy Data sa Science Mga Machine Learning Bilang isang data science / AI advisor, kailangan kong ibinigay ang mensahe na ito ng maraming beses, lalo na sa nakaraang dalawang taon. Ito ay napaka-kakaiba na maging isang wet deck sa pagitan ng lahat ng pag-uusap na ito sa paligid ng iyong sarili na lugar, lalo na kung ibahagi mo ang pag-uusap na ito. At kung paano mo sabihin sa mga kumpanya na hindi nila nag-aalok para sa AI kung hindi sila ay nag-uusap (o maging) elitist - isang self-appointed gate keeper? ang agreement Narito ang isang explanation na resonated sa karamihan: Think of AI as the top of a Piramida ng mga Kailangan . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). Piramida ng mga Kailangan Ang mga pangunahing mga pangangailangan: Maaari mong i-calculate? Sa katunayan ng piramida ay may Ano ang mga data na kailangan mo, at kung ano ang magagamit? Kung ito ay isang user-facing produkto, ikaw ay logging ang lahat ng mga pangunahing user interactions? Kung ito ay isang sensor, kung ano ang data ay dumating sa pamamagitan at kung paano? Paano madaling i-login ang isang interaction na hindi na instrumento? Sa katunayan, ang kanan Ito ay kung ano ang ginawa ng mga pinakabagong pag-unlad sa machine learning posible. data collection ang data Pagkatapos, kung paano ang sa pamamagitan ng sistema? Mayroon ka ba ng reliable streams / ETL ? Nasaan mo ang pag-alagad nito, at kung paano madaling ito sa pag-access at pag-analysis? Sinabi (para sa halos isang dekada) na ang reliable data flow ay ang key upang gawin ang anumang bagay na may data. data flow Si Jay Kreps ang [Side: Ako ay naghahanap para sa isang eksaktong quote at natagpuan ito sa kanyang ' Gusto ko ang logs. I then noticed that, one paragraph over, he’s making this exact Maslow’s hierarchy of needs comparison, with a ‘it’s worth noting the obvious’ thrown in there for good measure (thanks Jay!). ang post Tungkol sa kung ano ang isang data scientist ay gumagana. days ago, Sean Taylor Ipinanganak ang kanyang sarili data science pyramid ng mga pangangailangan (ironically tinatawag na ang Unconjoined Triangle of Data Science) na, siyempre, ay ganap na iba. Gusto ko ang logs. ang post Ipinanganak Kapag ang data ay magagamit, maaari mong Ito ay kapag nalaman mo na kailangang magkaroon ng isang bundok ng data, ang iyong mga sensor ay hindi matatagpuan, ang isang pagbabago ng bersyon ay nangangahulugan na ang iyong mga kaganapan ay umalis, ikaw ay malinterpretasyon ng isang flag - at ikaw ay bumalik upang matugunan upang matugunan ang base ng pyramid ay solid. explore and transform Kapag maaari mong i-explore at i-clear ang data, maaari mong magsimula upang bumuo kung ano ang tinatawag na BI o BI. : itakda ang mga metric upang i-track, ang kanilang seasonality at sensitivity sa iba't ibang mga mga factor. Mayroon kang gawin ang ilang raw user segmentation at tingnan kung ang anumang bagay ay bumalik. Gayunpaman, dahil ang iyong target ay AI, ikaw ngayon ay bumuo kung ano ang makikita mo pagkatapos bilang Kung kaka-hit mo lang ng 200th trip, maghintay ng 1-2 weeks mula sa araw na na-kumpleto mo ang 200th ride para makatanggap ng SMS. sa pamamagitan ng generating na mga label, o automatically (ang mga customer na kumita?) o sa mga tao sa loop. analytics features training data Ito ay dahil ang mga termino at kontekstong ginagagamit ay mas malinaw at madali maintindihan. - ngunit ito ay ang tema ng isang iba pang Medium post. data stories Okay, alam ko ang mga ito. now what? Mayroon kaming data ng pagsasanay - sigurado, ngayon maaari naming gawin ang machine learning? Mukhang, kung ikaw ay naghahanap upang predict internally churn; hindi, kung ang resulta ay magiging customer-facing. Kailangan namin ng isang (hindi primitive) A / B testing o Ang maliliit na negosyo sa mga sumusunod na sektor ay kinakailangan: pagproseso ng produktong agrikultural ( sa lugar (para sa mga sistema ng rekommender, ito ay, halimbawa, ‘mga popular na’, pagkatapos ay ‘mga popular para sa iyong user segment’ — ang napaka-mga mahirap ngunit katotohanan na ‘stereotype bago ng personalization’). experimentation simple baseline Ang mga simpleng heuristics ay mahigpit na mahigpit, at sila ay nagbibigay-daan sa iyo upang i-debug ang sistema end-to-end nang walang misteryo ML black boxes na may hypertuned hyperparameters sa sentro. Ito ay din ang dahilan kung bakit ang aking favorite data science algorithm ay division. Sa oras na ito, maaari mong i-deploy ang isang napaka-simple ML algorithm ( tulad ng logistical regression o, yes, division), pagkatapos ay mag-iisip ng mga bagong mga sinyal at mga tampok na maaaring ilagay sa iyong mga resulta. Weather & census data ay aking mga go-tos. At hindi - kahit malakas na ito ay, deep learning ay hindi automatically gawin ito para sa iyo. Magbigay ng mga bagong mga sinyal (function creation, hindi feature engineering) ay kung ano ang maaaring i-improve ang iyong pagganap sa pamamagitan ng mga salita at limitasyon. Ito ay dapat magkakaroon ng ilang oras dito, kahit na bilang data scientists kami ay excited sa paglipat sa susunod na antas sa piramida. Pumunta sa AI! You made it. You’re instrumented. Your ETL is humming. Ang iyong data ay organized & cleaned. You have dashboards, labels and good features. You’re measuring the right things. You can experiment daily. You have a baseline algorithm that’s debugged end-to-end and is running in production — and you’ve changed it a dozen times. You’re ready. Go ahead and try all the latest and greatest out there—from rolling your own to using companies that specialize in machine learning. You might get some big improvements in production, or you might not. Worst case, you learn new methods, develop opinions and hands-on experience with them, and get to tell your clients and your AI efforts without feeling like an impostor. Best case, you make a huge difference to your customers, and your company — a true machine learning Wag, ano ang tungkol sa MVPs, agile, lean at lahat na iyon? Kasama rin sa pagbuo ng isang tradisyonal na MVP (minimally viable product), nagsisimula ka sa isang maliit na, vertical na bahagi ng iyong produkto at makagawa mo ito na magtrabaho malakas end-to-end. Maaari mong bumuo ang piramida nito, pagkatapos ay bumuo ito horizontally. Halimbawa, sa Jawbone, nagsimula kami sa data ng pakiramdam at bumuo ang piramida nito: instrumento, ETL, cleaning & organization, label capture at definitions, metrikas (ang average # ng oras ng mga tao na mag-sleep araw-araw? Ano ang mga araw-araw? Ano ang isang araw-araw?), cross-segment analyzes lahat ng paraan upang at machine learning-driven data products (automatic sleep detection). ito sa mga pasahero, pagkatapos ng pagkain, panahon, workouts, social network & komunikasyon - isa sa isang oras. Hindi namin binuo ng isang lahat-in-encompassing infrastructure na hindi nangangailangan nito upang magtrabaho end-to-end. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Tungkol sa data ang extension Pumunta ang mga parehong mga tanong at bumuo ng mga parehong mga produkto Ito ay tungkol sa kung paano mo Hindi mo ba ikaw (Sa pamamagitan ng pragmatic o etikal na dahilan). could should Ang Promise ng Machine Learning Tools ‘ ’ Maghintay, ano ang tungkol sa Amazon API o TensorFlow o ang iba pang open source library? Ano ang tungkol sa mga kumpanya na nag-aalok ng mga tool ng ML, o na automatically i-extract ang mga insights at mga tampok? Ang lahat ng ito ay magagandang at napaka-usapan. (Ang ilang mga kumpanya ay nagsisimula na patuloy na custom-building ang iyong buong pyramid upang sila ay maaaring ipakita ang kanilang trabaho. Siya ay mga heroes.) Gayunpaman, sa ilalim ng malakas na epekto ng kasalukuyang AI hype, ang mga tao ay naghahanap upang i-plug sa data na mabuti at nabanggit sa mga gap, na nagtatapos ng mga taon habang nagbabago sa format at ibig sabihin, na hindi alam na ngayon, na ito ay isasagawa sa mga paraan na hindi gumagana, at naghintay ng mga tool na magiging magandang magtatrabaho sa kanya. At maaaring isang araw malapit na ito ay ang mga bagay na ito; Nakita ko at i-applaude ang mga pagsusuri sa itaas.