Jak to zwykle bywa w przypadku szybko rozwijających się technologii, AI zainspirowało masowe , i Część z nich jest na to zasłużona, — ale przemysł zwraca uwagę.Od startupów ukrytych sprzętów do gigantów fintech do instytucji publicznych, zespoły pracują gorączkowo nad swoją strategią AI. FOMO FUD feudów Niektóre z nich nie „Jak wykorzystujemy sztuczną inteligencję i uczenie maszynowe, aby być lepszymi w tym, co robimy?” „Jak wykorzystujemy sztuczną inteligencję i uczenie maszynowe, aby być lepszymi w tym, co robimy?” W większości przypadków firmy są Być może są gotowe do wynajęcia. do mniej niż gwiezdnych wyników, lub może Ale najczęstszym scenariuszem jest to, że nie zbudowali jeszcze infrastruktury, aby wdrożyć (i czerpać korzyści z) najbardziej podstawowych algorytmy i operacje, znacznie mniej . not Pierwszy naukowiec danych Dane literackie Data nauka Uczenie maszynowe Jako doradca ds. nauki danych / sztucznej inteligencji musiałem przekazywać tę wiadomość niezliczoną liczbę razy, szczególnie w ciągu ostatnich dwóch lat. Trudno być mokrą pokrywą wśród całego tego podniecenia wokół własnego obszaru, zwłaszcza jeśli podzielasz to podniecenie.A jak możesz powiedzieć firmom, że nie są gotowe na sztuczną inteligencję bez brzmienia (lub bycia) elitarnym - samodzielnie wyznaczonym bramkarzem? Zgadzam się Oto wyjaśnienie, które najbardziej rezonuje: Think of AI as the top of a Piramida potrzeb . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). Piramida potrzeb Potrzeby podstawowe: czy potrafisz liczyć? Na dnie piramidy mamy Jakie dane potrzebujesz i co jest dostępne? jeśli jest to produkt zorientowany na użytkownika, czy rejestrujesz wszystkie odpowiednie interakcje użytkownika? jeśli jest to czujnik, jakie dane przechodzą i jak? jak łatwo jest rejestrować interakcję, która nie jest jeszcze instrumentalizowana? To właśnie ostatnie osiągnięcia w dziedzinie uczenia maszynowego stały się możliwe. data collection danych Następnie, jak to się dzieje Czy masz niezawodne strumienie / ETL ? Gdzie go przechowujesz i jak łatwo jest uzyskać dostęp i przeanalizować? Powiedział (przez około dekadę), że niezawodny przepływ danych jest kluczem do robienia wszystkiego z danymi. data flow Jay Kreps [Poza tym: szukałem dokładnego cytatu i znalazłem go w jego ' Kocham logotypy Następnie zauważyłem, że, jeden akapit powyżej, robi to dokładne porównanie hierarchii potrzeb Maslowa, z „warto zauważyć oczywiste” rzucane tam na dobrą miarę (dziękuję Jay!). Posty O tym, co robi naukowiec danych. – Sean Taylor Odkrywany Jego własna piramida potrzeb w dziedzinie nauki danych (z ironii nazywana Unconjoined Triangle of Data Science), która jest oczywiście zupełnie inna. Kocham logotypy Posty Odkrywany Tylko wtedy, gdy dane są dostępne, można Obejmuje to słynne „czyszczenie danych”, niedocenioną stronę nauki o danych, która będzie tematem innego postu.To jest, gdy odkryjesz, że brakuje ci dużej ilości danych, twoje czujniki są niezawodne, zmiana wersji oznaczała, że twoje wydarzenia są opuszczone, źle interpretujesz flagę - i wracasz, aby upewnić się, że podstawa piramidy jest solidna. explore and transform Kiedy będziesz w stanie niezawodnie zbadać i wyczyścić dane, możesz zacząć budować to, co tradycyjnie uważa się za BI lub BI. : zdefiniuj metryki do śledzenia, ich sezonowość i wrażliwość na różne czynniki. Może zrobić trochę surowej segmentacji użytkowników i zobaczyć, czy coś wyskoczy. Na tym etapie wiesz również, co chcesz przewidzieć lub nauczyć się, i możesz zacząć przygotowywać swoje poprzez generowanie etykiet, albo automatycznie (które klienci wpadli?) lub z ludźmi w pętli. analytics features training data Jest to również wtedy, gdy znajdziesz swój najbardziej ekscytujący i przekonujący Ale to też jest tematem kolejnego postu. data stories Mogę to policzyć, a teraz co? Mamy dane szkoleniowe – na pewno, teraz możemy zrobić uczenie maszynowe? Może, jeśli próbujesz przewidzieć wewnętrznie churn; nie, jeśli wynik będzie klient-facing. Ramy są na miejscu, więc możemy wdrażać stopniowo, aby uniknąć klęsk żywiołowych i uzyskać szacunkową ocenę skutków zmian, zanim wpłyną na wszystkich. w miejscu (dla systemów rekomendujących, byłoby to np. „najpopularniejsze”, a następnie „najpopularniejsze dla Twojego segmentu użytkowników” – bardzo irytujące, ale skuteczne „stereotyp przed personalizacją”). experimentation simple baseline Proste heurystyki są zaskakująco trudne do pokonania, a one pozwolą na debugowanie systemu od końca do końca bez tajemniczych czarnych skrzynek ML z hiperparametrycznymi hiperparametry w środku. W tym momencie możesz wdrożyć bardzo prosty algorytm ML (tak jak regresja logistyczna lub, tak, podział), a następnie pomyśleć o nowych sygnałach i funkcjach, które mogą wpłynąć na twoje wyniki. Dane pogody i spisu są moimi go-to. A nie – tak potężne, jak to jest, głębokie uczenie się nie robi tego automatycznie dla ciebie. Wprowadzanie nowych sygnałów (tworzenie funkcji, a nie inżynieria funkcji) jest tym, co może poprawić twoją wydajność przez skoki i granice. Zapraszam na AI! Zrobiłeś to. Masz narzędzia. Twój ETL pęka. Twoje dane są zorganizowane i czyszczone. Masz tabliczki kontrolne, etykiety i dobre funkcje. Mierzysz właściwe rzeczy. Możesz eksperymentować codziennie. Masz algorytm bazowy, który jest debugowany od końca do końca i działa w produkcji - i zmieniłeś go kilkadziesiąt razy. Jesteś gotowy. Idź do przodu i wypróbuj wszystkie najnowsze i największe tam - od rolowania własnych do korzystania z firm specjalizujących się w uczeniu maszynowym. Możesz uzyskać kilka dużych ulepszeń w produkcji, lub nie możesz. W najgorszym przypadku, uczysz się nowych metod, rozwijasz opinie i praktyczne doświadczenie z nimi i opowiadasz swoim klientom i swoim wysi Czym są MVP, agile, lean i tak dalej? Podobnie jak podczas budowy tradycyjnego MVP (minimalnie opłacalnego produktu), zaczynasz od małej, pionowej sekcji swojego produktu i sprawiasz, że działa dobrze od końca do końca. Możesz zbudować jego piramidę, a następnie rozwijać ją poziomo. Na przykład w Jawbone zaczęliśmy od danych dotyczących snu i zbudowaliśmy jego piramidę: instrumenty, ETL, czyszczenie i organizacja, rejestracja etykiet i definicje, metryki (co to jest średnia # godzin snu każdego wieczoru? i produktów danych opartych o uczenie maszynowe (automatyczne wykrywanie snu). Następnie jedzenie, pogoda, ćwiczenia, sieci społecznościowe i komunikacja – jeden po drugim.Nie zbudowaliśmy wszechstronnej infrastruktury, nie wprowadzając jej do pracy od końca do końca. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Historia danych Rozszerzony Zadawanie właściwych pytań i tworzenie właściwych produktów Chodzi tylko o to, jak Ty Nie czy Ty (z powodów etycznych i praktycznych) could should Promocja narzędzi uczenia maszynowego ‘ ’ A co z tym Amazon API lub TensorFlow lub inną biblioteką open source? Wszystko to jest niesamowite i bardzo przydatne. (Niektóre firmy kończą się ciężko dostosowując całą piramidę, aby mogły zaprezentować swoją pracę. Są bohaterami.) Jednak pod silnym wpływem obecnego hype AI, ludzie próbują podłączyć dane, które są brudne i pełne luk, które rozciągają się przez lata, zmieniając format i znaczenie, co jeszcze nie jest zrozumiałe, to jest ustrukturyzowane w sposób, który nie ma sensu, i spodziewają się, że te narzędzia magicznie sobie z tym poradzą.