Som det plejer at være tilfældet med hurtigt udviklende teknologier, har AI inspireret massive , der og Nogle af dem er fortjent. Fra stealth hardware-startups til fintech-giganter til offentlige institutioner arbejder teams feberøst på deres AI-strategi. FOMO Fud Feuderne Nogle af dem er ikke “Hvordan bruger vi AI og maskinlæring til at blive bedre til det, vi gør?” “Hvordan bruger vi AI og maskinlæring til at blive bedre til det, vi gør?” Oftere end ikke er virksomhederne er klar til AI. Måske de har ansat deres til mindre end-stjernede resultater, eller måske Men det mest almindelige scenarie er, at de endnu ikke har bygget infrastrukturen til at implementere (og høste fordelene ved) de mest grundlæggende algoritmer og operationer, meget mindre . not Første data videnskabsmand Datalitteratur Data videnskab Maskinindlæring Som data videnskab / AI rådgiver, måtte jeg levere dette budskab utallige gange, især i løbet af de sidste to år. Det er svært at være et vådt tæppe blandt al denne spænding omkring dit eget felt, især hvis du deler den spænding.Og hvordan fortæller du virksomheder, at de ikke er klar til AI uden at lyde (eller være) elitist - en selvudnævnt gate keeper? Enig Her er en forklaring, der resonerede mest: Think of AI as the top of a Pyramiden af behov . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). Pyramiden af behov Grundlæggende behov: Kan du tælle? På bunden af pyramiden har vi Hvilke data har du brug for, og hvad er tilgængeligt? Hvis det er et brugervenligt produkt, logger du alle relevante brugerinteraktioner? Hvis det er en sensor, hvilke data kommer igennem og hvordan? Hvor nemt er det at logge en interaktion, der ikke er instrumenteret endnu? Det er det, der har gjort de seneste fremskridt inden for maskinlæring muligt. data collection Datasæt Dernæst hvordan gør den via systemet? Har du pålidelige streams / ETL ? Hvor gemmer du det, og hvor nemt er det at få adgang til og analysere? har sagt (i omkring et årti), at pålidelig datastrøm er nøglen til at gøre noget med data. data flow af Jay Kreps [Side: Jeg var på udkig efter et præcist citat og fandt det i hans ' Jeg elsker logs ’ mesterværk. jeg bemærkede derefter, at, et afsnit over, han laver denne nøjagtige Maslow hierarki af behov sammenligning, med en 'det er værd at bemærke det indlysende' kastet derind for god målestok (tak Jay!). Posten Om hvad en data videnskabsmand gør. dage siden, Sean Taylor afslørede hans egen data science pyramide af behov (ironisk kaldet den Unconjoined Triangle of Data Science), som selvfølgelig er helt anderledes. Jeg elsker logs Posten afslørede Kun når dataene er tilgængelige, kan du Dette inkluderer den berygtede "data rengøring", en undervurderet side af data videnskab, der vil være emnet for et andet indlæg.Dette er, når du opdager, at du mangler en masse data, dine sensorer er upålidelige, en version ændring betød dine begivenheder er faldet, du fejlagtigt fortolker et flag - og du går tilbage for at sikre, at basen af pyramiden er solid. explore and transform Når du er i stand til pålideligt at udforske og rense dataene, kan du begynde at opbygge, hvad der traditionelt betragtes som BI eller : definere målinger at spore, deres årstid og følsomhed over for forskellige faktorer. Måske gøre nogle grove brugersegmentering og se, om noget hopper ud. På dette stadium ved du også, hvad du gerne vil forudsige eller lære, og du kan begynde at forberede din ved at generere etiketter, enten automatisk (hvilke kunder græd?) eller med mennesker i sløjfen. analytics features training data Dette er også, når du finder din mest spændende og overbevisende - Men det er også emnet for en anden Medium-post. data stories Okay, jeg kan tælle. nu hvad? Vi har træningsdata – sikkert, nu kan vi gøre maskinindlæring? måske, hvis du forsøger at forudsige churn internt; nej, hvis resultatet vil være kundeorienteret. rammer på plads, så vi kan implementere gradvist for at undgå katastrofer og få en grov estimat af virkningerne af ændringerne, før de påvirker alle. på plads (for anbefalingssystemer ville dette f.eks. være ‘mest populære’, så ‘mest populære for dit brugersegment’ – den meget irriterende men effektive ‘stereotype før personalisering’). experimentation simple baseline Simple heuristikker er overraskende vanskelige at slå, og de vil give dig mulighed for at debugge systemet end-to-end uden mystiske ML sorte bokse med hypertuned hyperparametre i midten. På dette tidspunkt kan du implementere en meget enkel ML-algoritme (såsom logistisk regression eller ja, division), så tænk på nye signaler og funktioner, der kan påvirke dine resultater. Vejr & folketællingsdata er mine go-tos. Og nej - så kraftfuld som det er, gør dyb læring ikke automatisk dette for dig. Bringe nye signaler (funktionskabelse, ikke funktionsteknologi) er det, der kan forbedre din ydeevne med spring og grænser. Bring den på AI! Du har gjort det. Du er instrumenteret. Din ETL er humming. Dine data er organiseret og ryddet. Du har dashboards, etiketter og gode funktioner. Du måler de rigtige ting. Du kan eksperimentere dagligt. Du har en baseline-algoritme, der er debugget end-to-end og kører i produktion - og du har ændret det et dusin gange. Du er klar. Gå videre og prøv alle de nyeste og største derude - fra at rulle dine egne til at bruge virksomheder, der specialiserer sig i maskinlæring. Du kan få nogle store forbedringer i produktion, eller du kan ikke. I værste fald lærer du nye metoder, udvikler meninger og hands-on erfaring med dem, og får at fortælle dine kunder og dine AI-indsatser uden at føle sig som en svindler. I bedste Hvad med MVPs, agile, lean og alt det der? Ligesom når du bygger en traditionel MVP (minimalt levedygtig produkt), starter du med en lille, lodret sektion af dit produkt, og du får det til at fungere godt end-to-end. Du kan opbygge pyramiden, så vokse den vandret. For eksempel begyndte vi hos Jawbone med søvndata og byggede pyramiden: instrumentering, ETL, rengøring & organisation, tagfangst og definitioner, målinger (hvad er gennemsnittet # af timer folk sover hver nat? og maskinlæringsdrevne dataprodukter (automatisk søvndetektion). Dette til skridt, så mad, vejr, træning, sociale netværk og kommunikation – en ad gangen. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Datahistorier Udvidet At stille de rigtige spørgsmål og skabe de rigtige produkter Det handler om, hvordan du Ikke hvis du (af etiske og pragmatiske grunde) could should Løftet om maskinlæringsværktøjer ‘ ’ Hvad med Amazon API eller TensorFlow eller et andet open source-bibliotek? Alt det er fantastisk og meget nyttigt. (Nogle virksomheder ender med at skræddersy hele din pyramide, så de kan vise deres arbejde. de er helte.) Men under den stærke indflydelse af den nuværende AI-hype forsøger folk at tilslutte data, der er beskidte og fulde af huller, som spænder over år, mens de ændrer format og betydning, det er endnu ikke forstået, det er struktureret på måder, der ikke giver mening, og forventer, at disse værktøjer magisk håndterer det.