Wie in der Regel bei schnell fortschreitenden Technologien hat die KI massive , der und Einige davon sind es verdient, Von Stealth-Hardware-Startups bis hin zu Fintech-Giganten bis hin zu öffentlichen Institutionen arbeiten Teams fiebersüchtig an ihrer KI-Strategie. FOMO Fuß Feuer Einige davon nicht „Wie nutzen wir KI und maschinelles Lernen, um besser zu werden in dem, was wir tun?“ „Wie nutzen wir KI und maschinelles Lernen, um besser zu werden in dem, was wir tun?“ Häufiger als nicht, sind Unternehmen bereit für AI. Vielleicht haben sie ihre zu weniger als Sternenergebnissen, oder vielleicht aber das häufigste Szenario ist, dass sie noch nicht die Infrastruktur aufgebaut haben, um die grundlegendsten Algorithmen und Operationen, viel weniger . not Erster Datenwissenschaftler Datenliteratur Datenwissenschaft maschinelles Lernen Als Data Science / AI-Berater musste ich diese Botschaft unzählige Male liefern, besonders in den letzten zwei Jahren. Es ist schwierig, ein nasses Deckel unter all dieser Aufregung um Ihr eigenes Feld zu sein, besonders wenn Sie diese Aufregung teilen.Und wie sagen Sie Unternehmen, dass sie nicht bereit für KI sind, ohne elitär zu klingen (oder zu sein) - ein selbst benannter Torhüter? zustimmen Hier eine Erklärung, die am meisten resonierte: Think of AI as the top of a Die Pyramide der Bedürfnisse . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). Die Pyramide der Bedürfnisse Grundbedürfnisse: Können Sie zählen? Am Ende der Pyramide haben wir Welche Daten benötigen Sie und was ist verfügbar? Wenn es sich um ein benutzerorientiertes Produkt handelt, protokollieren Sie alle relevanten Benutzerinteraktionen? Wenn es sich um einen Sensor handelt, welche Daten kommen durch und wie? Wie einfach ist es, eine Interaktion zu protokollieren, die noch nicht instrumentiert ist? Das ist es, was die jüngsten Fortschritte im maschinellen Lernen möglich gemacht hat. data collection Datensatz Als nächstes, wie wird die über das System? Haben Sie zuverlässige Streams / ETL ? Wo speichern Sie es und wie einfach ist es, auf sie zuzugreifen und zu analysieren? seit etwa einem Jahrzehnt sagt, dass zuverlässiger Datenfluss der Schlüssel ist, um alles mit Daten zu tun. data flow von Jay Kreps [Außerhalb: Ich war auf der Suche nach einem genauen Zitat und fand es in seiner ' Ich liebe Logs Ich bemerkte dann, dass er in einem Absatz genau diese Maslow-Hierarchie der Bedürfnisse vergleicht, mit einem "es lohnt sich, das Offensichtliche zu bemerken", das dort für eine gute Maßnahme geworfen wurde (danke Jay!). Post zu über das, was ein Datenwissenschaftler tut. Tage zuvor, Sean Taylor enthüllt seine eigene Datenwissenschaftspyramide der Bedürfnisse (ironisch genannt Unconjoined Triangle of Data Science), die natürlich völlig anders ist. Ich liebe Logs Post zu enthüllt Nur wenn die Daten verfügbar sind, können Sie Dies beinhaltet die berüchtigte "Datenreinigung", eine unterbewertete Seite der Datenwissenschaft, die Gegenstand eines anderen Beitrags sein wird.Dies ist, wenn Sie feststellen, dass Sie eine Reihe von Daten verpassen, Ihre Sensoren unzuverlässig sind, eine Versionänderung bedeutete, dass Ihre Ereignisse fallen, Sie interpretieren eine Flagge falsch - und Sie gehen zurück, um sicherzustellen, dass die Basis der Pyramide solid ist. explore and transform Wenn Sie in der Lage sind, die Daten zuverlässig zu erforschen und zu reinigen, können Sie mit dem Aufbau beginnen, was traditionell als BI oder : definieren Metriken zu verfolgen, ihre Saisonalität und Empfindlichkeit gegenüber verschiedenen Faktoren. Vielleicht tun einige grobe Benutzer-Segmentierung und sehen, wenn etwas springt aus. In dieser Phase wissen Sie auch, was Sie vorhersagen oder lernen möchten, und Sie können beginnen, Ihre durch das Erzeugen von Etiketten, entweder automatisch (welche Kunden schlugen?) oder mit Menschen in der Schleife. analytics features training data Dies ist auch, wenn Sie Ihre aufregendste und überzeugendste Aber das ist auch das Thema eines anderen Medium-Posts. data stories Okay, ich kann zählen. jetzt was? Wir haben Trainingsdaten – sicher, jetzt können wir maschinelles Lernen machen? Vielleicht, wenn Sie intern versuchen, Churn vorherzusagen; nein, wenn das Ergebnis kundenspezifisch sein wird. Rahmenbedingungen vorhanden, so dass wir schrittweise einsetzen können, um Katastrophen zu vermeiden und eine grobe Schätzung der Auswirkungen der Veränderungen zu erhalten, bevor sie alle betreffen. (Für Empfehlungssysteme wäre dies z.B. „die beliebteste“ und dann „die beliebteste für Ihr Benutzersegment“ – das sehr lästige, aber wirksame „Stereotyp vor der Personalisierung“). experimentation simple baseline Einfache Heuristiken sind überraschend schwer zu schlagen, und sie ermöglichen es Ihnen, das System end-to-end zu debuggen, ohne mysteriöse ML-Schwarze Kästchen mit hypertuned Hyperparametern in der Mitte. An diesem Punkt können Sie einen sehr einfachen ML-Algorithmus einsetzen (wie logistische Regression oder ja, Teilung), dann über neue Signale und Funktionen nachdenken, die sich auf Ihre Ergebnisse auswirken könnten. Wetter & Volkszählungsdaten sind meine Go-Tos. Und nein – so mächtig es auch ist, tiefes Lernen tut dies nicht automatisch für Sie. Neue Signale einbringen (Feature-Erstellung, nicht Feature-Engineering) ist das, was Ihre Leistung durch Sprünge und Grenzen verbessern kann. Bringen Sie auf die AI! Du hast es gemacht. Du bist instrumentalisiert. Dein ETL humpelt. Deine Daten sind organisiert und gereinigt. Du hast Dashboards, Etiketten und gute Funktionen. Du messerst die richtigen Dinge. Du kannst täglich experimentieren. Du hast einen Baseline-Algorithmus, der end-to-end debugged wird und in der Produktion läuft - und du hast es ein Dutzend Mal geändert. Du bist bereit. Gehen Sie voran und versuchen Sie alle neuesten und größten Dinge da draußen - von der Rolling-eigenen zu Unternehmen, die sich auf maschinelles Lernen spezialisieren. Sie können einige große Verbesserungen in der Produktion bekommen, oder Sie könnten nicht. Im schlimmsten Fall, lernen Sie neue Methoden, entwickeln Meinungen und praktische Erfahrungen mit ihnen, und bekommen, um Ihre Kunden und Warten, was ist mit MVPs, Agile, Lean und all das? Genau wie beim Aufbau eines traditionellen MVP (mindestens lebensfähiges Produkt) fangen Sie mit einem kleinen, vertikalen Abschnitt Ihres Produkts an und Sie lassen es end-to-end gut funktionieren. Sie können seine Pyramide aufbauen und dann horizontal wachsen. Zum Beispiel haben wir bei Jawbone mit Schlafdaten begonnen und seine Pyramide aufgebaut: Instrumentation, ETL, Reinigung & Organisation, Etikettierung und Definitionen, Metriken (was ist der Durchschnitt # der Stunden, die Menschen jede Nacht schlafen? und maschinelles Lernen angetriebenen Datenprodukten (automatische Schlaferkennung). Danach Essen, Wetter, Training, soziales Netzwerk und Kommunikation – eins nach dem anderen.Wir haben keine allumfassende Infrastruktur aufgebaut, ohne sie end-to-end zu bedienen. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Datengeschichten Verlängerung Die richtigen Fragen stellen und die richtigen Produkte erstellen Es geht nur darum, wie Sie Nicht, ob du (aus pragmatischen oder ethischen Gründen) could should Das Versprechen von Machine Learning Tools ‘ ’ Was ist mit der Amazon API oder TensorFlow oder einer anderen Open-Source-Bibliothek? All das ist großartig und sehr nützlich. (Einige Unternehmen bauen Ihre gesamte Pyramide hartnäckig auf, damit sie ihre Arbeit zeigen können. sie sind Helden.) Jedoch versuchen die Menschen unter dem starken Einfluss des aktuellen AI-Hypes, Daten einzufügen, die schmutzig und voller Lücken sind, die Jahre dauern, während sie in Format und Bedeutung ändern, das ist noch nicht verstanden, das ist in einer Weise strukturiert, die keinen Sinn macht, und erwarten, dass diese Tools es magisch bewältigen.