Așa cum se întâmplă de obicei cu tehnologiile în curs de dezvoltare rapidă, AI a inspirat , şi Unele dintre ele merită, De la start-up-uri hardware ascunse la giganți fintech la instituții publice, echipele lucrează cu febră la strategia lor AI. FOMO Fud feudă Unele dintre ele nu ‘How do we use AI and machine learning to get better at what we do?’ „Cum folosim AI și învățarea automată pentru a fi mai buni în ceea ce facem?” De cele mai multe ori, companiile sunt Pregătit pentru AI. Poate că au angajat-o la rezultatele mai puțin-din-star, sau poate Dar scenariul cel mai frecvent este că ei nu au construit încă infrastructura pentru a implementa (și a culege beneficiile) cele mai de bază algoritmi și operațiuni, mult mai puțin . not Primul om de știință Datele de alfabetizare Știința datelor Învățarea mașinii Ca consilier în știința datelor / AI, a trebuit să transmit acest mesaj de nenumărate ori, mai ales în ultimii doi ani. Este greu să fii o pătură umedă printre toate aceste emoții din jurul propriului tău domeniu, mai ales dacă împărtășești acea emoție. Sunt de acord Iată o explicație care a rezonat cel mai mult: Think of AI as the top of a Piramida nevoilor . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). Piramida nevoilor Nevoile de bază: poți să numeri? În partea de jos a piramidei avem Ce date aveți nevoie și ce este disponibil? Dacă este un produs orientat către utilizator, înregistrați toate interacțiunile relevante ale utilizatorului? Dacă este un senzor, ce date trec și cum? Cât de ușor este să înregistrați o interacțiune care nu este încă instrumentată? Este ceea ce a făcut posibile progresele recente în învățarea automată. data collection Dată În continuare, cum se face prin intermediul sistemului? Aveți fluxuri de încredere / ETL ? Unde le stocați și cât de ușor este să accesați și să analizați? S-a spus (de aproximativ un deceniu) că fluxul de date fiabil este cheia pentru a face orice cu datele. data flow Jay Kreps [În afară: am căutat o citată exactă și am găsit-o în el’ Îmi plac logourile Apoi am observat că, un paragraf mai sus, el face această comparație exactă a ierarhiei nevoilor lui Maslow, cu un „merită remarcat evidentul” aruncat acolo pentru o măsură bună (mulțumesc Jay!). Vorbind despre lucrările conexe, am alergat și mai târziu (h / t Daniel Tunkelang) în excelentele lui Hilary Mason și Chris Wiggins Postă Despre ce face un om de știință de date. - Sean Taylor dezvăluită propria sa piramidă a nevoilor de știință a datelor (denumită în mod ironic Triunghiul neconjunct al științei datelor), care, desigur, este complet diferit. Îmi plac logourile Postă dezvăluită Numai atunci când datele sunt accesibile, puteți Aceasta include faimoasa „curățare a datelor”, o parte subevaluată a științei datelor care va fi subiectul unui alt post.Acesta este momentul în care descoperi că pierzi o grămadă de date, senzorii tăi sunt nesiguri, o schimbare de versiune a însemnat că evenimentele tale sunt abandonate, interpretezi greșit un steag - și te întorci pentru a te asigura că baza piramidei este solidă. explore and transform Când puteți explora și curăța în mod fiabil datele, puteți începe să construiți ceea ce este considerat în mod tradițional ca BI sau BI. : definiți metricile pentru a urmări, sezonalitatea și sensibilitatea lor la diferiți factori. Poate faceți o segmentare brută a utilizatorilor și vedeți dacă ceva iese. În acest stadiu, știți, de asemenea, ce doriți să preziceți sau să învățați și puteți începe să vă pregătiți prin generarea de etichete, fie automat (ce clienți s-au încurcat?) sau cu oameni în buclă. analytics features training data Acest lucru este, de asemenea, atunci când vă găsiți cel mai interesant și convingător Dar asta e și subiectul unui alt post. data stories Pot să număr, acum ce? Avem date de instruire – cu siguranță, acum putem face învățarea automată? Poate, dacă încercați să preziceți în mod intern churn; nu, dacă rezultatul va fi orientat către client. Framework-ul este în vigoare, astfel încât să putem implementa progresiv pentru a evita dezastrele și pentru a obține o estimare brută a efectelor schimbărilor înainte de a afecta pe toată lumea. în loc (pentru sistemele de recomandare, acest lucru ar fi, de exemplu, „cel mai popular”, apoi „cel mai popular pentru segmentul dvs. de utilizator” – foarte enervant, dar eficient „stereotipul înainte de personalizare”). experimentation simple baseline Heuristicile simple sunt surprinzător de greu de depășit și vă vor permite să debugați sistemul de la capăt la capăt fără cutii negre ML misterioase cu hiperparametri hipertunecați în mijloc. În acest moment, puteți implementa un algoritm ML foarte simplu (cum ar fi regresia logistică sau, da, diviziunea), apoi gândiți-vă la noi semnale și caracteristici care ar putea afecta rezultatele. Datele meteorologice și de recensământ sunt go-to-urile mele. Și nu - la fel de puternic cum este, învățarea profundă nu face automat acest lucru pentru dvs. Introducerea de noi semnale (crearea de caracteristici, nu ingineria caracteristicilor) este ceea ce vă poate îmbunătăți performanța prin salturi și limite. Merită să petreceți ceva timp aici, chiar dacă ca oameni de știință de date suntem încântați să trecem la nivelul următor din piramidă. Luați pe AI! Ai făcut-o. Sunteți instrumentat. ETL-ul dvs. este umblând. Datele dvs. sunt organizate și curățate. Aveți tablouri de bord, etichete și caracteristici bune. Măsurați lucrurile potrivite. Puteți experimenta zilnic. Aveți un algoritm de bază care este depășit de la capăt la capăt și rulează în producție - și ați schimbat-o de zeci de ori. Sunteți gata. Mergeți mai departe și încercați toate cele mai noi și cele mai bune acolo - de la rularea propriilor dvs. la utilizarea companiilor care se specializează în învățarea mașinilor. Puteți obține unele îmbunătățiri majore în producție, sau nu. În cel mai rău caz, învățați noi metode, dezvoltați op Ce se întâmplă cu MVP-urile, agile, lean și toate astea? La fel ca atunci când construiți un MVP tradițional (produs minim viabil), începeți cu o mică secțiune verticală a produsului dvs. și îl faceți să funcționeze bine de la capăt la capăt. Puteți construi piramida sa, apoi o creșteți orizontal. De exemplu, la Jawbone, am început cu datele de somn și am construit piramida sa: instrumentare, ETL, curățare & organizare, captarea etichetelor și definiții, metrici (ce este media # a orelor de somn ale oamenilor în fiecare noapte? și produse de date bazate pe învățarea automată (detectarea automată a somnului). Apoi mâncarea, vremea, antrenamentele, rețelele sociale și comunicarea – unul la un moment dat.Nu am construit o infrastructură cuprinzătoare fără să o punem niciodată la capăt. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Povestiri de date extinsă Puneți întrebările potrivite și construiți produsele potrivite Este vorba doar despre modul în care Nu dacă tu (Din motive etice sau pragmatice) could should Promisiunea instrumentelor de învățare automată ‘ ’ Ce se întâmplă cu Amazon API sau TensorFlow sau cu o altă bibliotecă open source? Toate acestea sunt uimitoare și foarte utile. (Unele companii sfârșesc prin a-ți personaliza întreaga piramidă, astfel încât să-și poată arăta munca. Sunt eroi.) Cu toate acestea, sub influența puternică a hype-ului AI actual, oamenii încearcă să conecteze date care sunt murdare și pline de lacune, care se întind de ani de zile în timp ce se schimbă în format și semnificație, ceea ce nu este încă înțeles, care este structurat în moduri care nu au sens și se așteaptă ca acele instrumente să se ocupe în mod magic.