Как это обычно бывает с быстро развивающимися технологиями, ИИ вдохновил массивные , и Некоторые из них заслуживают, — но отрасль уделяет внимание.От стартапов скрытого оборудования до финтех-гигантов до государственных учреждений, команды с трепетом работают над своей стратегией ИИ. Фомо Фуд феодалов Некоторые из них не «Как мы используем ИИ и машинное обучение, чтобы стать лучше в том, что мы делаем?» «Как мы используем ИИ и машинное обучение, чтобы стать лучше в том, что мы делаем?» Чаще, чем раньше, компании Готовы к AI. Может быть, они наняли их к менее звездным результатам, или, может быть, Но наиболее распространенный сценарий заключается в том, что они еще не построили инфраструктуру для внедрения (и получения преимуществ) самых базовых технологий. алгоритмов и операций, гораздо меньше . not Первый ученый данных Литература данных Наука данных Машинное обучение Как консультант по науке о данных / искусственному интеллекту, мне пришлось передавать это сообщение бесчисленное количество раз, особенно за последние два года. Трудно быть влажным одеялом среди всего этого волнения вокруг вашей собственной области, особенно если вы разделяете это волнение.И как вы говорите компаниям, что они не готовы к ИИ, не звучав (или не являясь) элитным — самоназначенным держателем ворот? согласен Вот объяснение, которое резонировало больше всего: Think of AI as the top of a Пирамида потребностей . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). Пирамида потребностей Основные потребности: можете ли вы считать? На дне пирамиды мы имеем Какие данные вам нужны, и что доступно? Если это продукт, ориентированный на пользователя, вы записываете все соответствующие пользовательские взаимодействия? Если это датчик, какие данные поступают и как? Насколько легко записывать взаимодействие, которое еще не инструментировано? Это то, что сделало возможным недавний прогресс в машинном обучении. data collection Данные Далее, как это делает через систему? У вас есть надежные потоки / ETL ? Где вы храните его, и насколько легко получить доступ и проанализировать? Мы говорим (около десятилетия) о том, что надежный поток данных является ключом к тому, чтобы делать что угодно с данными. data flow Джей Крепс [Помимо этого: я искал точную цитату и нашел ее в его « Люблю локоны Я тогда заметил, что, в одном абзаце выше, он делает это точное сравнение иерархии потребностей Маслоу, с «стоит отметить очевидное», брошенное там за хорошую меру (спасибо Джей!). Пост О том, что делает ученый в области данных.Дни назад, Шон Тейлор Откровенный его собственная пирамида потребностей в науке о данных (иронически названная несовместимым треугольником науки о данных), которая, конечно, совершенно отличается. Люблю локоны Пост Откровенный Только когда данные доступны, вы можете Это включает в себя знаменитую «чистку данных», недооцененную сторону науки о данных, которая будет предметом другого сообщения.Это когда вы обнаруживаете, что у вас отсутствует куча данных, ваши датчики ненадежны, изменение версии означало, что ваши события падают, вы неправильно интерпретируете флаг - и вы возвращаетесь, чтобы убедиться, что основа пирамиды твердая. explore and transform Когда вы сможете надежно исследовать и очистить данные, вы можете начать создавать то, что традиционно считается BI или BI. : определить метрики для отслеживания, их сезонность и чувствительность к различным факторам. Может быть, делая некоторую грубую сегментацию пользователей и посмотрите, если что-то выскочит. На этом этапе вы также знаете, что вы хотели бы предсказать или узнать, и вы можете начать подготовку генерируя этикетки, либо автоматически (которые клиенты забивали?) или с людьми в цепи. analytics features training data Это также когда вы найдете свой самый захватывающий и убедительный — но это также тема другого среднего поста. data stories Я могу подсчитать, а теперь что? У нас есть данные о тренировках — конечно, теперь мы можем делать машинное обучение? Может быть, если вы пытаетесь внутренне предсказать, как это будет; нет, если результат будет ориентирован на клиента. мы можем развертывать постепенно, чтобы избежать бедствий и получить грубую оценку последствий изменений, прежде чем они повлияют на всех. на месте (для систем рекомендующих это было бы, например, «самый популярный», затем «самый популярный для вашего пользовательского сегмента» — очень раздражающий, но эффективный «стереотип перед персонализацией»). experimentation simple baseline Простые эвристики удивительно трудно победить, и они позволят вам дебютировать систему от конца до конца без таинственных черных ящиков ML с гиперпараметрами в середине. На этом этапе вы можете развернуть очень простой алгоритм ML (например, логистическую регрессию или, да, разделение), а затем подумать о новых сигналах и функциях, которые могут повлиять на ваши результаты. Погода и данные переписи — это мои готы. И нет — как мощный, глубокое обучение не автоматически делает это для вас. Возьмите на AI! Вы сделали это. Вы инструментированы. Ваш ETL гумирует. Ваши данные организованы и очищены. У вас есть панели приборов, этикетки и хорошие функции. Вы измеряете правильные вещи. Вы можете экспериментировать ежедневно. У вас есть алгоритм базовой линии, который дебютируется с конца на конец и работает в производстве — и вы изменили его десятки раз. Вы готовы. Идите вперед и попробуйте все новейшее и величайшее там — от прокрутки вашего собственного до использования компаний, которые специализируются на машинном обучении. Вы можете получить некоторые большие улучшения в производстве, или вы не можете. В худшем случае, вы узнаете новые методы, разработаете мнения и практический опыт с ними, и получите, чтобы рассказать своим клиентам и вашим усилиям А что насчет MVPs, Agile, Lean и всего этого? Точно так же, как при создании традиционного MVP (минимально жизнеспособного продукта), вы начинаете с небольшого, вертикального участка вашего продукта и делаете его хорошо работающим с конца на конец. Вы можете построить его пирамиду, а затем вырастить ее горизонтально. Например, в Jawbone мы начали с данных о сне и построили его пирамиду: инструментация, ETL, уборка и организация, захват этикеток и определения, метрики (что такое среднее число часов, когда люди спят каждую ночь? и продукты данных, основанные на машинном обучении (автоматическое обнаружение сна). Это шаг за шагом, затем еда, погода, тренировки, социальные сети и коммуникация — один за другим. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Истории данных Расширенный Задавать правильные вопросы и создавать правильные продукты Речь идет только о том, как вы Не то, что вы (по прагматическим или этическим причинам) could should Обещание инструментов машинного обучения ‘ ’ Что насчет этого Amazon API или TensorFlow или другой библиотеки с открытым исходным кодом? Все это потрясающе и очень полезно. (Некоторые компании в конечном итоге усердно настраивают всю вашу пирамиду, чтобы они могли продемонстрировать свою работу. они являются героями.) Однако, под сильным влиянием нынешнего хипа ИИ, люди пытаются подключить данные, которые грязные и полны пробелов, которые охватывают годы, меняя формат и смысл, что еще не понятно, что структурировано способами, которые не имеют смысла, и ожидают, что эти инструменты магически справятся с этим. И, возможно, вскоре это будет так; я вижу и аплодирую усилия в этом направлении.