Como suele suceder con las tecnologías que avanzan rápidamente, la IA ha inspirado enormes , de y Algunas de ellas se merecen, — pero la industria está prestando atención.De las startups de hardware oculto a los gigantes de fintech a las instituciones públicas, los equipos están trabajando febrilmente en su estrategia de IA. Todo se reduce a una cuestión crucial, de alta apuesta: FOMO Fuego Feudales Algunas de ellas no “¿Cómo usamos la IA y el aprendizaje automático para mejorar lo que hacemos?” “¿Cómo usamos la IA y el aprendizaje automático para mejorar lo que hacemos?” Más que nunca, las empresas preparado para el AI. Puede que hayan contratado sus para los resultados menos estelares, o quizás Pero el escenario más común es que aún no han construido la infraestructura para implementar (y cosechar los beneficios de) la más básica algoritmos y operaciones, mucho menos . not Primer científico de datos Datos de alfabetización Ciencia de datos Aprendizaje de máquina Como asesor de ciencia de datos / IA, tuve que entregar este mensaje innumerables veces, especialmente en los últimos dos años. Es difícil ser una manta húmeda entre toda esta emoción alrededor de tu propio campo, especialmente si comparte esa emoción.Y ¿cómo dices a las empresas que no están listas para la IA sin sonar (o ser) elitista - un guardián de la puerta autoproclamado? Acuerdo Aquí hay una explicación que resonó más: Think of AI as the top of a La pirámide de las necesidades . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). La pirámide de las necesidades Necesidades básicas: ¿Puedes contar? En el fondo de la pirámide tenemos ¿Qué datos necesitas, y qué está disponible? Si es un producto orientado al usuario, ¿estás registrando todas las interacciones de usuario relevantes? Si es un sensor, qué datos se están transmitiendo y cómo? ¿Qué tan fácil es registrar una interacción que aún no se ha instrumentado? es lo que ha hecho que los recientes avances en el aprendizaje automático sean posibles. data collection Datos A continuación, cómo se hace el a través del sistema? ¿Tienes flujos confiables / ETL ? ¿Dónde lo almacena, y qué tan fácil es acceder y analizar? Ha estado diciendo (por aproximadamente una década) que el flujo de datos confiable es la clave para hacer cualquier cosa con los datos. data flow Jay Kreps [Aparte: Estaba buscando una cita exacta y la encontré en su ' Me encantan los logos Entonces noté que, en un párrafo, está haciendo esta comparación exacta de la jerarquía de necesidades de Maslow, con un "merece la pena señalar lo obvio" lanzado allí por buena medida (gracias a Jay!). hablando de trabajo relacionado, también he corrido más tarde (h / t Daniel Tunkelang) en el excelente de Hilary Mason y Chris Wiggins El post Qué hace un científico de datos hace días, Sean Taylor Desconocido su propia pirámide de datos de la ciencia de las necesidades (ironicamente llamado el Triángulo desconjunto de la ciencia de los datos) que, por supuesto, es completamente diferente. Me encantan los logos El post Desconocido Sólo cuando los datos son accesibles, puede Esto incluye la infame “limpieza de datos”, un lado subestimado de la ciencia de los datos que será el tema de otro post.Esto es cuando descubres que estás perdiendo un montón de datos, tus sensores son poco fiables, un cambio de versión significó que tus eventos se han caído, estás malinterpretando una bandera - y vuelves a asegurarte de que la base de la pirámide sea sólida. explore and transform Cuando puedas explorar y limpiar los datos de manera fiable, puedes empezar a construir lo que tradicionalmente se piensa como BI o BI. : definir métricas para rastrear, su estacionalidad y sensibilidad a varios factores. Tal vez haciendo alguna segmentación de usuarios y ver si algo salta. sin embargo, dado que su objetivo es la IA, ahora está construyendo lo que más tarde pensará como En esta etapa, también sabe lo que desea predecir o aprender, y puede comenzar a preparar su generando etiquetas, ya sea automáticamente (¿cuáles son los clientes?) o con humanos en el ciclo. analytics features training data Esto es también cuando usted encuentra su más emocionante y convincente Pero eso es también el tema de otro post. data stories Puedo contar, ¿y ahora qué? Tenemos datos de capacitación – seguramente, ahora podemos hacer el aprendizaje automático? Tal vez, si estás tratando de predecir internamente cuándo; no, si el resultado va a ser orientado al cliente. Necesitamos tener una prueba A/B (aunque primitiva) o marco en lugar, para que podamos desplegar incrementalmente para evitar desastres y obtener una estimación bruta de los efectos de los cambios antes de que afecten a todos. en su lugar (para los sistemas de recomendación, esto sería, por ejemplo, ‘más popular’, luego ‘más popular para su segmento de usuarios’ – el muy molesto pero eficaz ‘estereotipo antes de la personalización’). experimentation simple baseline Las heurísticas simples son sorprendentemente difíciles de derrotar, y te permitirán borrar el sistema de extremo a extremo sin misteriosas cajas negras ML con hiperparámetros hipertonizados en el medio. En este punto, puede implementar un algoritmo ML muy simple (como la regresión logística o, sí, la división), luego pensar en nuevas señales y características que podrían afectar a sus resultados. Datos meteorológicos y de censo son mis go-tos. Y no - por más poderoso que sea, el aprendizaje profundo no lo hace automáticamente para usted. Traer nuevas señales (crear características, no ingeniería de características) es lo que puede mejorar su rendimiento por saltos y límites. Vale la pena pasar algún tiempo aquí, incluso si como científicos de datos estamos entusiasmados por avanzar al siguiente nivel en la pirámide. ¡Añade el AI! Usted lo hizo. Usted está instrumentado. Su ETL está hummando. Sus datos están organizados y limpiados. Usted tiene dashboards, etiquetas y buenas características. Usted está midiendo las cosas correctas. Usted puede experimentar diariamente. Usted tiene un algoritmo de base que está debugado de extremo a extremo y está en producción - y usted lo ha cambiado una docena de veces. Usted está listo. Vaya adelante e intenta todas las últimas y mejores cosas allí - desde rodar su propia a usar empresas que se especializan en aprendizaje automático. Usted puede obtener algunas grandes mejoras en la producción, o usted puede no. En el peor de los casos, usted aprende nuevos métodos, desarrolla opiniones y experiencia práctica con ellos, y se puede contar a sus clientes y sus esfuerzos de IA sin sentirse como un impostor. ¿Qué hay de MVPs, agiles, lean y todo eso? Al igual que cuando construyes un MVP tradicional (productos mínimamente viables), empiezas con una pequeña sección vertical de tu producto y lo haces funcionar bien de fin a fin. Puedes construir su pirámide, luego crecerla horizontalmente. Por ejemplo, en Jawbone comenzamos con los datos del sueño y construimos su pirámide: instrumentación, ETL, limpieza y organización, captura de etiquetas y definiciones, métricas (cuál es el promedio # de las horas de sueño de las personas cada noche? ¿Qué pasa con las horas de sueño? ¿Qué es un sueño?), análisis de segmento cruzado todo el camino a y productos de datos impulsados por el aprendizaje automático (detección automática del sueño). Esto a pasos, luego la comida, el clima, los entrenamientos, las redes sociales y la comunicación – uno a la vez.No construimos una infraestructura abarcante sin ponerla en funcionamiento de fin a fin. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Historias de datos extendido Hacer las preguntas correctas y crear los productos correctos Se trata de cómo tú Pero no si tú (por razones éticas y pragmáticas) could should La promesa de las herramientas de aprendizaje automático ‘ ’ ¿Qué pasa con esa API de Amazon o TensorFlow u otra biblioteca de código abierto? ¿Qué pasa con las empresas que venden herramientas de ML, o que extraen información y características automáticamente? Todo eso es increíble y muy útil. (Algunas compañías terminan trabajando duro para personalizar toda tu pirámide para que puedan mostrar su trabajo. Son héroes.) Sin embargo, bajo la fuerte influencia del hype de la IA actual, la gente intenta conectar datos que son sucios y llenos de lagunas, que se extienden durante años mientras cambian de formato y significado, que aún no se entiende, que está estructurado de maneras que no tienen sentido, y espera que esas herramientas lo manejen mágicamente.