Soos gewoonlik met vinnig ontwikkelende tegnologieë, het AI massiewe die en Sommige van hulle is verdien, Van stealth-hardware-startups tot fintech-gigante tot openbare instellings, teams werk koorsigtig op hul AI-strategie. Die FOMO Die FUD Vrees Sommige daarvan is nie “Hoe gebruik ons AI en masjienlering om beter te wees in wat ons doen?” “Hoe gebruik ons AI en masjienlering om beter te wees in wat ons doen?” Meer dikwels as nie, is die maatskappye gereed vir AI. Miskien het hulle hulle tot minder-as-sterre resultate, of miskien Maar die mees algemene scenario is dat hulle nog nie die infrastruktuur gebou het om die mees basiese beginsels te implementeer (en die voordele daarvan te oes) nie. algoritmes en operasies, baie minder . not Eerste data wetenskaplikes Data geletterdheid Data wetenskap Masjien leer As 'n data wetenskap / AI-adviseur het ek hierdie boodskap ontelbaar keer gelewer, veral in die afgelope twee jaar. Dit is moeilik om 'n nat deksel te wees onder al hierdie opwinding rondom jou eie veld, veral as jy daardie opwinding deel. Ooreenstem Hier is 'n verduideliking wat die meeste resoneer: Think of AI as the top of a Die piramide van behoeftes . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). Die piramide van behoeftes Basiese behoeftes: Kan jy tel? Aan die onderkant van die piramide het ons Watter data benodig jy, en wat is beskikbaar? As dit 'n gebruikersoriënteerde produk is, log jy al die relevante gebruikersinteraksies? As dit 'n sensor is, watter data kom deur en hoe? Hoe maklik is dit om 'n interaksie te log wat nog nie geïnstrumenteer word nie? Dit is wat die onlangse vooruitgang in masjienlering moontlik gemaak het. data collection Die data Volgende, hoe maak die deur die stelsel? Het jy betroubare strome / ETL? Waar stoor jy dit, en hoe maklik is dit om toegang te kry en te analiseer? het gesê (vir ongeveer 'n dekade) dat betroubare data vloei die sleutel is om alles met data te doen. data flow Jay Kreps se [Besef: Ek was op soek na 'n presiese quote en het dit gevind in sy ' Ek hou van logs ’ meesterstuk. ek het toe opgemerk dat, een paragraaf oor, hy hierdie presiese Maslow se hiërargie van behoeftes vergelyk, met 'n 'it is worth noting the obvious' gegooi daar vir goeie maat (dank Jay!). die post oor wat 'n data wetenskaplike doen. dae gelede, Sean Taylor Onthul sy eie data wetenskap piramide van behoeftes (ironies die Unconjoined Triangle of Data Science genoem) wat, natuurlik, is heeltemal anders. Ek hou van logs die post Onthul Slegs wanneer data toeganklik is, kan jy Dit sluit in die berugte "data skoonmaak", 'n ondergewaardeerde kant van data wetenskap wat die onderwerp van 'n ander pos sal wees.Dit is wanneer jy ontdek dat jy 'n klomp data mis, jou sensors onbetroubaar is, 'n weergaweverandering beteken dat jou gebeure val, jy verkeerd 'n vlag interpreteer - en jy gaan terug om seker te maak dat die basis van die piramide stewig is. explore and transform Wanneer jy die data betroubaar kan verken en skoonmaak, kan jy begin bou wat tradisioneel as BI of : definieer metrikes om op te spoor, hul seisoenaliteit en sensitiwiteit vir verskillende faktore. Miskien doen 'n paar ruwe gebruikerssegmentasie en kyk of iets uitkom. In hierdie stadium weet jy ook wat jy wil voorspel of leer, en jy kan begin om jou deur etikette te genereer, óf outomaties (watter kliënte het gekry?) of met mense in die loop. analytics features training data Dit is ook wanneer jy jou mees opwindende en oortuigende vind Maar dit is ook die onderwerp van 'n ander medium. data stories Ek kan tel, nou wat? Ons het opleiding data – seker, nou kan ons masjien leer? Miskien, as jy probeer om intern te voorspel churn; nie, as die resultaat sal wees kliënt-facing. die raamwerk in plek, sodat ons geleidelik kan ontplooi om rampe te vermy en 'n ruwe raming van die effekte van die veranderinge te kry voordat hulle almal beïnvloed. in plek (vir aanbevelingstelsels, dit sou byvoorbeeld 'die gewildste' wees, dan 'die gewildste vir jou gebruikerssegment' - die baie vervelende maar effektiewe 'stereotipe voor personalisering'). experimentation simple baseline Eenvoudige heuristieke is verrassend moeilik om te verslaan, en hulle sal jou toelaat om die stelsel van einde tot einde te debug sonder die geheimsinnige ML swart bokse met hipertuned hiperparameters in die middel. Op hierdie punt kan jy 'n baie eenvoudige ML-algoritme implementeer (soos logistiese regressie of, ja, divisie), en dan dink aan nuwe signale en funksies wat jou resultate kan beïnvloed. Weer & census data is my go-tos. En nie - so kragtig as dit is, diepe leer doen dit nie outomaties vir jou nie. Die bring van nuwe signale (feature creation, nie feature engineering) is wat jou prestasie kan verbeter deur spronge en grense. Dit is die moeite werd om 'n bietjie tyd hier te spandeer, selfs as data wetenskaplikes ons opgewonde is oor die volgende vlak in die piramide. Bring op die AI! Jy het dit gedoen. Jy is geïnstrumenteer. Jou ETL is humeurig. Jou data is georganiseer en skoon. Jy het dashboards, etikette en goeie funksies. Jy meet die regte dinge. Jy kan daagliks eksperimenteer. Jy het 'n basiese algoritme wat eind-tot-einde gedebuggeer word en in produksie loop - en jy het dit 'n dosyn keer verander. Jy is gereed. Gaan vooruit en probeer al die nuutste en grootste daar buite - van die rolling van jou eie tot die gebruik van maatskappye wat spesialiseer in masjienlering. Jy kan 'n paar groot verbeterings in produksie kry, of jy mag nie. Slegs, jy leer nuwe metodes, ontwikkel menings en hands-on ervaring met hulle, en kry om jou kliënte en jou AI-oef Waak, wat van MVPs, agile, lean en al hierdie dinge? Net soos wanneer jy 'n tradisionele MVP (minimum lewensvatbare produk) bou, begin jy met 'n klein, vertikale deel van jou produk en maak jy dit goed werk end-to-end. Jy kan sy piramide bou, dan groei dit horisontaal. Byvoorbeeld, by Jawbone het ons met slaapdata begin en sy piramide gebou: instrumentasie, ETL, skoonmaak & organisasie, etikettering en definisies, metrikes (wat is die gemiddelde # van ure wat mense elke nag slaap? en masjienleergerigte data-produkte (outomatiese slaapdeteksie). Dit na stappe, dan kos, weer, oefensessie, sosiale netwerke en kommunikasie - een op 'n tyd. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Data stories Uitbreiding Vra die regte vrae en bou die regte produkte Dit gaan net oor hoe jy Maar nie as jy (Om pragmatiese of etiese redes) could should Die belofte van masjien leer gereedskap ‘ ’ Waak, wat van die Amazon API of TensorFlow of daardie ander open source biblioteek? Al hierdie dinge is wonderlik en baie nuttig. (Sommige maatskappye eindig hardwerkend met die bou van jou hele piramide sodat hulle hul werk kan wys. Hulle is helde.) Maar onder die sterk invloed van die huidige AI-hype probeer mense data in te sluit wat vuil en vol gapings is, wat jare spandeer terwyl dit in formaat en betekenis verander, wat nog nie verstaan word nie, wat op maniere gestruktureer is wat nie sin maak nie, en verwag dat daardie gereedskap magies dit sal hanteer.