Както обикновено се случва с бързо развиващите се технологии, AI е вдъхновил масивни , и Някои от тях са заслужени, От стартъпи на скрит хардуер до финтех гиганти до публични институции, екипите работят с треска върху стратегията си за ИИ. Фомо Фуд феите Някои от тях не ‘How do we use AI and machine learning to get better at what we do?’ „Как използваме AI и машинното обучение, за да станем по-добри в това, което правим?“ По-често отколкото не, компаниите са Готови за AI. Може би те са наели своите за по-малко звездни резултати, или може би Но най-често срещаният сценарий е, че те все още не са изградили инфраструктурата, за да внедрят (и да се възползват от) най-основните алгоритми и операции, много по-малко . not Първият учен на данните Литература на данните Данни Наука Машинно обучение Като консултант по данни / AI, трябваше да предавам това послание безброй пъти, особено през последните две години. Трудно е да бъдеш мокро одеяло сред цялото това вълнение около собствената си област, особено ако споделяш това вълнение.И как казваш на компаниите, че не са готови за AI, без да звучат (или да са) елитни - самоназначаващ се вратар? Съгласен Ето едно обяснение, което най-много резонира: Think of AI as the top of a Пирамидата на нуждите . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). Пирамидата на нуждите Основни нужди: Можете ли да броите? На дъното на пирамидата има Какви данни ви трябват и какво е на разположение? Ако това е продукт, насочен към потребителя, записвате ли всички съответни потребителски взаимодействия? Ако това е сензор, какви данни идват през него и как? Колко лесно е да се регистрира взаимодействие, което все още не е инструментирано? Това е, което направи неотдавнашното развитие на машинното обучение възможно. data collection Данни След това, как се прави чрез системата? Имате ли надеждни потоци / ETL ? Къде го съхранявате и колко лесно е да получите достъп и да анализирате? В продължение на десетилетия се твърди, че надеждният поток от данни е ключът към всичко, което правим с данните. data flow Джей Крепс [Отделно: Търсех точен цитат и го намерих в неговия ' Обичам дневниците След това забелязах, че в един параграф той прави това точно сравнение на йерархията на нуждите на Маслоу, с "трябва да се отбележи очевидното", хвърлено там за добра мярка (благодаря на Джей!). Постът За това какво прави един учен в областта на данните. преди дни, Шон Тейлър Открит собствената си пирамида на нуждите на науката за данните (иронично наречена Unconjoined Triangle of Data Science), която, разбира се, е напълно различна. Обичам дневниците Постът Открит Само когато данните са достъпни, можете да Това включва прочутото "чистване на данни", подценена страна на науката за данните, която ще бъде предмет на друг пост.Това е, когато откриете, че сте пропуснали куп данни, вашите сензори са ненадеждни, промяната на версията означава, че вашите събития са паднали, неправилно тълкувате знамето - и се връщате, за да се уверите, че основата на пирамидата е солидна. explore and transform Когато можете надеждно да проучите и почистите данните, можете да започнете да изграждате това, което традиционно се смята за BI или BI. : дефиниране на показатели за проследяване, тяхната сезонност и чувствителност към различни фактори. Може би правите някаква груба потребителска сегментация и вижте дали нещо излиза. На този етап вие също знаете какво бихте искали да предскажете или да научите и можете да започнете да подготвяте чрез генериране на етикети, или автоматично (кои клиенти се втурнаха?) или с хора в цикъла. analytics features training data Това е също така, когато откриете най-вълнуващото и убедително — но това също е тема на друг Medium пост. data stories Мога ли да броя, сега какво? Имаме данни за обучението – разбира се, сега можем да направим машинно обучение? Може би, ако се опитвате да предскажете вътрешно, не, ако резултатът ще бъде ориентиран към клиента. рамка на място, така че можем да разгърнем постепенно, за да избегнем бедствия и да получим груба оценка на ефектите от промените, преди те да засегнат всички. на място (за системите за препоръчване това би било например „най-популярният“, след това „най-популярният за потребителския ви сегмент“ – много досаден, но ефективен „стереотип преди персонализация“). experimentation simple baseline Простите евристики са изненадващо трудни за преодоляване и те ще ви позволят да дебютирате системата от край до край без мистериозни черни кутии ML с хипертонирани хиперпараметри в средата. В този момент можете да разгърнете много прост ML алгоритъм (като логистична регресия или, да, разделение), след това да помислите за нови сигнали и функции, които могат да повлияят на резултатите ви. Данните за времето и преброяването са моите готове. И не - колкото и мощно да е, дълбокото обучение не прави това автоматично за вас.Въвеждането на нови сигнали (създаване на функции, а не инженерство на функции) е това, което може да подобри производителността ви с скокове и граници.Струва си да прекарате известно време тук, дори ако като учени по данни сме развълнувани да преминем към следващото ниво в пирамидата. Влезте в AI! Вие сте го направили. Вие сте инструментирани. Вашият ETL е бум. Вашите данни са организирани и почистени. Имате табла, етикети и добри функции. Измервате правилните неща. Можете да експериментирате ежедневно. Имате алгоритъм на базата, който е дебугиран от край до край и се изпълнява в производството - и сте го променили десетки пъти. Готови сте. Отидете напред и опитайте всички най-новите и най-добри неща там - от рулирането на собствените си до използването на компании, които се специализират в машинното обучение. Може да получите някои големи подобрения в производството, или може да не сте. В най-лошия случай, научавате се на нови методи, развивате мнения и практически опит с тях и получавате да казвате на вашите клиенти и вашите усилия Какво ще кажете за MVPs, Agile, Lean и всичко това? Точно както при изграждането на традиционен MVP (минимално жизнеспособен продукт), вие започвате с малка, вертикална част от вашия продукт и го правите да работи добре от край до край. Можете да изградите пирамидата си, след това да я отгледате хоризонтално. Например, в Jawbone започнахме с данните за съня и изградихме пирамидата му: инструментация, ETL, почистване и организация, улавяне на етикети и определения, показатели (какъв е средният номер на часовете, през които хората спят всяка нощ? и продукти за данни, базирани на машинно обучение (автоматично откриване на сън). Това е стъпка по стъпка, след това храната, времето, тренировките, социалните мрежи и комуникацията – един по един. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Истории за данни разширени Задаване на правилните въпроси и изграждане на правилните продукти Става дума само за това как Не, ако не сте (по прагматични или етични причини) could should Обещанието на инструментите за машинно обучение ‘ ’ Какво ще кажете за този Amazon API или TensorFlow или тази друга библиотека с отворен код? Всичко това е страхотно и много полезно. (Някои компании в крайна сметка усърдно персонализират цялата ви пирамида, за да могат да покажат работата си. Те са герои.) Въпреки това, под силното влияние на сегашния хип на AI, хората се опитват да свържат данни, които са мръсни и пълни с пропуски, които се простират в продължение на години, докато променят формата и смисъла, което все още не е разбрано, че е структурирано по начини, които не имат смисъл, и очакват тези инструменти да се справят с него магически.