Як це зазвичай відбувається з швидко розвиваючимися технологіями, AI надихає величезні , та Деякі з них заслуговують, — але промисловість звертає увагу.Від стартапів прихованого апаратного забезпечення до гігантів фінансових технологій до державних установ, команди з лихоманкою працюють над своєю стратегією AI. Фомо ФУД феодальні Деякі з них не ‘How do we use AI and machine learning to get better at what we do?’ «Як ми використовуємо штучний інтелект і машинне навчання, щоб стати кращими у тому, що ми робимо?» Частіше, ніж будь-які інші компанії Можливо, вони підготували їх. до невеликих зіркових результатів, або Але найпоширеніший сценарій полягає в тому, що вони ще не побудували інфраструктуру для реалізації (і отримання переваг) найосновніших технологій. алгоритмів і операцій, набагато менше . not Перший науковець даних Література даних Дані науки Машинне навчання Як консультант з науки про дані / штучного інтелекту, мені довелося доставляти це повідомлення безліч разів, особливо протягом останніх двох років. Важко бути мокрим покриттям серед усього цього хвилювання навколо вашої власної галузі, особливо якщо ви поділяєте це хвилювання.І як ви говорите компаніям, що вони не готові до AI, не звучаючи (або не буваючи) елітистом - самопризначеним воротарям? погоджуються Ось пояснення, які найбільше резонували: Think of AI as the top of a Піраміда потреб . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). Піраміда потреб Основні потреби: чи можете ви рахувати? На дну піраміди ми маємо Які дані вам потрібні, і що є доступним? Якщо це продукт, орієнтований на користувача, ви реєструєте всі відповідні взаємодії користувача? Якщо це датчик, які дані надходять і як? Наскільки легко реєструвати взаємодію, яка ще не інструментована? Це те, що зробило можливим останні досягнення в галузі машинного навчання. data collection Дата Далі, як це відбувається через систему? У вас є надійні потоки / ETL ? Де ви зберігаєте його, і наскільки легко отримати доступ і проаналізувати? Він говорив (близько десятиліття) про те, що надійний потік даних є ключем до того, щоб робити все з даними. data flow Джей Крепс [Поруч: я шукав точну цитату і знайшов її в його « Люблю логотипи Потім я помітив, що, в одному параграфі, він робить це точне порівняння ієрархії потреб Маслоу, з «це варто відзначити очевидне» кинуто там за хорошу міру (дякую Джей!). Пост Про те, що робить вчений з даних.Дні тому, Шон Тейлор Невідомі його власна піраміда потреб в науці даних (іронічно названа Unconjoined Triangle of Data Science), яка, звичайно, зовсім інша. Люблю логотипи Пост Невідомі Тільки коли дані доступні, ви можете Це включає в себе знамениту «чистку даних», недооцінену сторону науки про дані, яка буде предметом іншого повідомлення. це коли ви виявляєте, що ви пропускаєте масу даних, ваші датчики ненадійні, зміна версії означає, що ваші події падають, ви неправильно інтерпретуєте прапор - і ви повертаєтеся, щоб переконатися, що основа піраміди є міцною. explore and transform Коли ви зможете надійно досліджувати і очищати дані, ви можете почати будувати те, що традиційно вважається BI або BI. : визначити метрики, щоб відслідковувати, їх сезонність і чутливість до різних факторів. Можливо, роблячи деяку грубу сегментацію користувачів і подивитися, якщо щось вискочить. На цьому етапі ви також знаєте, що ви хотіли б передбачити або навчитися, і ви можете почати готувати свій генеруючи етикетки, або автоматично (які клієнти зацікавилися?) або з людьми в ланцюзі. analytics features training data Це також, коли ви знайдете свій найбільш захоплюючий і переконливий — Але це також тема іншого Медіум-посту. data stories Тепер я можу рахувати, а що? У нас є дані про навчання — звичайно, тепер ми можемо робити машинне навчання? Можливо, якщо ви намагаєтеся внутрішньо передбачити, що буде відбуватися; ні, якщо результат буде клієнтським. рамки на місці, так що ми можемо розгортати поступово, щоб уникнути катастроф і отримати грубу оцінку наслідків змін, перш ніж вони вплинуть на всіх. на місці (для систем-рекомендаторів це було б, наприклад, «найпопулярніший», потім «найпопулярніший для вашого сегменту користувачів» — дуже дратівливий, але ефективний «стереотип перед персоналізацією»). experimentation simple baseline Прості евристики дивно важко перемогти, і вони дозволять вам дебютувати систему від кінця до кінця без таємничих чорних ящиків ML з гіперпараметрами в середині. На цьому етапі ви можете розгорнути дуже простий алгоритм ML (наприклад, логістичну регресію або, так, поділ), а потім подумати про нові сигнали та функції, які можуть вплинути на ваші результати. Погода та дані перепису є моїми готами. І ні - наскільки це потужне, глибоке навчання не автоматично робить це для вас. Введення нових сигналів (створення функцій, а не функціональна інженерія) - це те, що може поліпшити вашу продуктивність стрибками і межами. Приєднуйтесь до AI! Ви зробили це. Ви інструментовані. Ваш ETL гуляє. Ваші дані організовані та очищені. У вас є панелі приладів, етикетки та хороші функції. Ви вимірюєте правильні речі. Ви можете експериментувати щодня. У вас є базовий алгоритм, який дебютується від кінця до кінця і працює у виробництві - і ви змінили його десяток разів. Ви готові. Ідіть вперед і спробуйте все останнє і найбільше там - від прокачування вашого власного до використання компаній, які спеціалізуються на машинному навчанні. Ви можете отримати деякі великі поліпшення у виробництві, або ви не можете. У гіршому випадку, ви дізнаєтеся нові методи, розвиваєте думки та практичний досвід з ними, і Чекайте, а як щодо MVPs, Agile, Lean і все це? Так само, як і при побудові традиційного MVP (мінімально життєздатного продукту), ви починаєте з невеликої вертикальної частини вашого продукту, і ви змушуєте його добре працювати від кінця до кінця. Ви можете побудувати його піраміду, а потім виростити її горизонтально. Наприклад, в Jawbone ми почали з даних про сон і побудували його піраміду: інструментація, ETL, очищення та організація, захоплення етикетки та визначення, метрики (що таке середній номер годин, коли люди сплять щоночі? і продуктів, що керуються машинним навчанням (автоматичне виявлення сну). Потім їжа, погода, тренування, соціальні мережі та спілкування – один за одним.Ми не будували всеохоплюючу інфраструктуру, не ставлячи її до роботи з кінця на кінець. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Дані історії розширюється Задавати правильні питання і створювати правильні продукти Це тільки про те, як ви Не тому, що ви (з прагматичних або етичних причин) could should Обіцянки інструментів машинного навчання ‘ ’ Чекайте, а що з цим Amazon API або TensorFlow або іншою бібліотекою з відкритим вихідним кодом? Все це чудово і дуже корисно. (Деякі компанії в кінцевому підсумку ретельно налаштують всю вашу піраміду, щоб вони могли показати свою роботу. Вони є героями.) Однак, під сильним впливом поточного вибуху AI, люди намагаються підключити дані, які брудні і повні прогалин, які простягаються роками, змінюючи формат і сенс, це ще не зрозуміло, це структуровано способами, які не мають сенсу, і очікують, що ці інструменти магічно справляться з цим.