Zoals meestal het geval is met snel vooruitstrevende technologieën, heeft AI massale - het en Sommigen van hen verdienen het, Van stealth hardware startups tot fintech reuzen tot publieke instellingen, teams werken koud aan hun AI-strategie. Fomo FUD Feesten Sommige van deze niet ‘Hoe gebruiken we AI en machine learning om beter te worden in wat we doen?’ ‘Hoe gebruiken we AI en machine learning om beter te worden in wat we doen?’ Meestal zijn er bedrijven die voorbereid op AI. Misschien huurden ze hun tot minder dan sterrenresultaten, of misschien Maar het meest voorkomende scenario is dat ze nog niet de infrastructuur hebben gebouwd om (en de voordelen van) de meest fundamentele algoritmen en operaties, veel minder . not Eerste data wetenschapper Data Literatuur Data wetenschap Machine leren Als data science/AI-adviseur moest ik deze boodschap talloze keren doorgeven, vooral in de afgelopen twee jaar. Het is moeilijk om een natte deken te zijn onder al deze opwinding rond je eigen veld, vooral als je die opwinding deelt.En hoe vertel je bedrijven dat ze niet klaar zijn voor AI zonder elitistisch te klinken (of te zijn) - een zelf aangestelde poorthouder? akkoord Hier is een verklaring die het meest resoneerde: Think of AI as the top of a De piramide van behoeften . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). De piramide van behoeften Basisbehoeften: kun je tellen? Aan de onderkant van de piramide hebben we Welke gegevens heb je nodig en wat is er beschikbaar?Als het een gebruikersgericht product is, loggen jullie alle relevante gebruikersinteracties?Als het een sensor is, welke gegevens komen er doorheen en hoe?Hoe gemakkelijk is het om een interactie te loggen die nog niet is geïnstalleerd? Dit is wat de recente vooruitgang in machine learning mogelijk heeft gemaakt. data collection Dataset Vervolgens hoe doet de via het systeem? Heeft u betrouwbare streams / ETL ? Waar slaat u het op, en hoe gemakkelijk is het om toegang te krijgen en te analyseren? Al meer dan een decennium wordt gezegd dat betrouwbare gegevensstroom de sleutel is om alles met gegevens te doen. data flow met Jay Kreps [Aan de andere kant: ik was op zoek naar een exacte quote en vond het in zijn ' Ik hou van logs Ik merkte toen op dat hij, een paragraaf boven, deze exacte hiërarchie van behoeften vergelijking van Maslow maakt, met een 'het is de moeite waard om het voor de hand liggende op te merken' daar voor een goede maat (dank Jay!). De post over wat een data scientist doet. dagen geleden, Sean Taylor Onthuld zijn eigen data science piramide van behoeften (ironisch aangeduid als de Unconjoined Triangle of Data Science) die natuurlijk heel anders is. Ik hou van logs De post Onthuld Alleen als de gegevens beschikbaar zijn, kunt u Dit omvat de beruchte 'gegevensreiniging', een ondergewaardeerde kant van gegevenswetenschap die het onderwerp zal zijn van een ander bericht.Dit is wanneer je ontdekt dat je een hoop gegevens mist, je sensoren onbetrouwbaar zijn, een versiewijziging betekende dat je gebeurtenissen worden weggehaald, je een vlag verkeerd interpreteert - en je gaat terug om ervoor te zorgen dat de basis van de piramide solide is. explore and transform Wanneer u de gegevens betrouwbaar kunt verkennen en schoonmaken, kunt u beginnen met het bouwen van wat traditioneel als BI of BI wordt beschouwd. : definieer metricen om te volgen, hun seizoensgebondenheid en gevoeligheid voor verschillende factoren. misschien wat ruwe gebruikerssegmentatie doen en zien of er iets uitkomt. In dit stadium weet u ook wat u wilt voorspellen of leren, en u kunt beginnen met het voorbereiden van uw door labels te genereren, ofwel automatisch (welke klanten zijn gekruist?) of met mensen in de loop. analytics features training data Dit is ook wanneer je je meest opwindend en overtuigend vindt Maar dat is ook het onderwerp van een ander medium. data stories Oké, ik kan tellen, wat nu? We hebben trainingsgegevens – zeker, nu kunnen we machine learning doen? Misschien, als je intern probeert te voorspellen hoe het gaat; nee, als het resultaat klantgericht zal zijn. het kader ter plaatse, zodat we geleidelijk kunnen inzetten om rampen te voorkomen en een ruwe schatting te krijgen van de effecten van de veranderingen voordat ze iedereen beïnvloeden. In plaats daarvan (voor aanbevelingssystemen zou dit bijvoorbeeld ‘meest populaire’ zijn, dan ‘meest populaire voor uw gebruikerssegment’ – de zeer vervelende maar effectieve ‘stereotype voor personalisatie’). experimentation simple baseline Eenvoudige heuristieken zijn verrassend moeilijk te verslaan, en ze zullen u toelaten om het systeem end-to-end te debuggen zonder mysterieuze ML zwarte dozen met hypertuned hyperparameters in het midden. Op dit punt kun je een heel eenvoudig ML-algoritme implementeren (zoals logistieke regressie of ja, divisie), dan denk je aan nieuwe signalen en functies die je resultaten kunnen beïnvloeden. Weer- en censusgegevens zijn mijn go-tos. En nee – hoe krachtig het ook is, diep leren doet dit niet automatisch voor je. Het invoeren van nieuwe signalen (feature creation, niet feature engineering) is wat je prestaties met sprongen en grenzen kan verbeteren. Doe mee met de AI! Je hebt het gemaakt. Je bent geïnstalleerd. Je ETL is aan het knallen. Je gegevens zijn georganiseerd en schoongemaakt. Je hebt dashboards, labels en goede functies. Je meet de juiste dingen. Je kunt dagelijks experimenteren. Je hebt een baseline-algoritme dat eind-tot-einde wordt gedebuggeerd en in productie loopt - en je hebt het tientallen keren gewijzigd. Je bent klaar. Ga vooruit en probeer al het nieuwste en grootste daar - van het rollen van je eigen naar het gebruik van bedrijven die gespecialiseerd zijn in machine learning. Je kunt een aantal grote verbeteringen in de productie krijgen, of je kunt niet. In het ergste geval, je leert nieuwe methoden, ontwikkelt meningen en hands-on ervaring met hen, en je krijgt om je klanten en je AI-inspanningen te vert Wacht, hoe zit het met MVPs, agile, lean en al dat? Net als bij het bouwen van een traditioneel MVP (minimaal levensvatbaar product), start je met een klein, verticaal gedeelte van je product en je maakt het eind-tot-einde goed.Je kunt zijn piramide bouwen en vervolgens horizontaal groeien.Bij Jawbone begonnen we bijvoorbeeld met slaapgegevens en bouwden we zijn piramide: instrumentatie, ETL, schoonmaken & organisatie, etiketten vastleggen en definities, metricen (wat is de gemiddelde # van uren die mensen elke nacht slapen? en machine learning-gedreven gegevensproducten (automatische slaapdetectie). Dit in stappen, dan voedsel, weer, trainingen, sociale netwerken en communicatie – één voor één. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Data verhalen Uitgebreid De juiste vragen stellen en de juiste producten bouwen Het gaat er alleen om hoe jij Niet of u (Om pragmatische of ethische redenen) could should De belofte van machine learning tools ‘ ’ Wacht, hoe zit het met die Amazon API of TensorFlow of die andere open source bibliotheek? Dit alles is geweldig en zeer nuttig. (Sommige bedrijven eindigen er hard aan om je hele piramide op maat te bouwen, zodat ze hun werk kunnen tonen. ze zijn helden.) Maar onder de sterke invloed van de huidige AI-hype proberen mensen gegevens aan te sluiten die vuil en vol gaten zijn, die jaren duren terwijl ze in formaat en betekenis veranderen, dat is nog niet begrepen, dat is gestructureerd op manieren die geen zin hebben, en verwachten dat die hulpmiddelen er magisch mee omgaan.