Como suele ser el caso con las tecnologías de rápido avance, la IA ha inspirado , y masivas. Parte de esto es merecido, , pero la industria está prestando atención. Desde nuevas empresas de hardware sigiloso hasta gigantes fintech e instituciones públicas, los equipos están trabajando febrilmente en su estrategia de IA. Todo se reduce a una pregunta crucial y de alto riesgo: FOMO FUD disputas parte no "¿Cómo usamos la IA y el aprendizaje automático para mejorar en lo que hacemos?" La mayoría de las veces, las empresas están preparadas para la IA. Tal vez contrataron a su con resultados menos que estelares, o tal vez no es fundamental para su cultura. Pero el escenario más común es que aún no han construido la infraestructura para implementar (y cosechar los beneficios de) los algoritmos y operaciones más básicos, y mucho menos . no primer científico de datos la alfabetización de datos de ciencia de datos el aprendizaje automático Como asesor de ciencia de datos/IA, tuve que transmitir este mensaje innumerables veces, especialmente en los últimos dos años. Otros están de . Es difícil ser una manta mojada entre toda esta emoción en tu propio campo, especialmente si compartes esa emoción. ¿Y cómo les dice a las empresas que no están listas para la IA sin sonar (o ser) elitista, un guardián autoproclamado? acuerdo Aquí hay una explicación que resonó más: Piense en la IA como la parte superior de una pirámide de necesidades . Sí, la autorrealización (IA) es excelente, pero primero necesita alimentos, agua y refugio (alfabetización de datos, recopilación e infraestructura). Necesidades básicas: ¿Sabes contar? En la base de la pirámide tenemos . ¿Qué datos necesita y qué hay disponible? Si es un producto orientado al usuario, ¿está registrando todas las interacciones relevantes del usuario? Si es un sensor, ¿qué datos están llegando y cómo? ¿Qué tan fácil es registrar una interacción que aún no está instrumentada? Después de todo, el conjunto de correcto es lo que hizo posibles los avances recientes en el aprendizaje automático. la recopilación de datos datos A continuación, ¿cómo través del sistema? ¿Tiene flujos confiables / ETL? ¿Dónde lo almacena y qué tan fácil es acceder a él y analizarlo? ha estado diciendo (durante aproximadamente una década) que el flujo de datos confiable es clave para hacer cualquier cosa con los datos. ' '. de Hilary Mason y Chris Wiggins fluyen los datos a Jay Kreps [Aparte: estaba buscando una cita exacta y la encontré en su obra maestra I love logs Luego me di cuenta de que, un párrafo más adelante, está haciendo esta comparación exacta de la jerarquía de necesidades de Maslow, con un 'vale la pena señalar lo obvio' incluido allí por si acaso (¡gracias Jay!). Hablando de trabajos relacionados, más tarde también encontré (h/t Daniel Tunkelang) la excelente publicación sobre lo que hace un científico de datos. Hace unos días, Sean Taylor reveló su propia pirámide de necesidades de ciencia de datos (irónicamente denominada el Triángulo no unido de ciencia de datos) que, por supuesto, es completamente diferente. Tal vez deberíamos empezar un tumblr.] Solo cuando los datos son accesibles, puede . Esto incluye la infame 'limpieza de datos', un lado subestimado de la ciencia de datos que será el tema de otra publicación. Aquí es cuando descubre que le faltan muchos datos, sus sensores no son confiables, un cambio de versión significó que sus eventos se eliminaron, está malinterpretando una bandera y vuelve a asegurarse de que la base de la pirámide sea sólida. explorarlos y transformarlos Cuando pueda explorar y limpiar los datos de manera confiable, puede comenzar a crear lo que tradicionalmente se considera BI o : defina métricas para rastrear, su estacionalidad y sensibilidad a varios factores. Tal vez hacer una segmentación aproximada de usuarios y ver si algo salta a la vista. Sin embargo, dado que su objetivo es la IA, ahora está creando lo que luego considerará como para incorporar en su modelo de aprendizaje automático. En esta etapa, también sabe lo que le gustaría predecir o aprender, y puede comenzar a preparar sus generando etiquetas, ya sea automáticamente (¿qué clientes abandonaron?) o con humanos en el circuito. análisis funciones datos de capacitación Aquí también es cuando encuentra sus más emocionantes y convincentes, pero ese también es el tema de otra publicación de Medium. historias de datos Está bien, puedo contar. ¿Ahora que? Tenemos datos de entrenamiento, seguramente, ¿ahora podemos hacer aprendizaje automático? Tal vez, si está tratando de predecir internamente la rotación; no, si el resultado va a ser de cara al cliente. Necesitamos tener un (aunque primitivo) marco de prueba o A/B, de modo que podamos implementarlo de manera incremental para evitar desastres y obtener una estimación aproximada de los efectos de los cambios antes de que afecten a todos. Este también es el momento adecuado para establecer una línea de (para los sistemas de recomendación, esto sería, por ejemplo, "más popular", luego "más popular para su segmento de usuario": el muy molesto pero efectivo "estereotipo antes de la personalización"). experimentación base muy simple Las heurísticas simples son sorprendentemente difíciles de superar y le permitirán depurar el sistema de un extremo a otro sin misteriosas cajas negras de aprendizaje automático con hiperparámetros hipersintonizados en el medio. Esta es también la razón por la cual mi algoritmo de ciencia de datos favorito es la división. En este punto, puede implementar un algoritmo ML muy simple (como regresión logística o, sí, división), luego pensar en nuevas señales y características que podrían afectar sus resultados. Los datos meteorológicos y del censo son mis favoritos. Y no, a pesar de lo poderoso que es, el aprendizaje profundo no hace esto automáticamente por usted. Traer nuevas señales (creación de funciones, no ingeniería de funciones) es lo que puede mejorar su rendimiento a pasos agigantados. Vale la pena pasar un tiempo aquí, incluso si, como científicos de datos, estamos emocionados de pasar al siguiente nivel en la pirámide. ¡Trae la IA! Lo hiciste. Estás instrumentado. Tu ETL está tarareando. Tus datos están organizados y limpios. Tiene tableros, etiquetas y buenas características. Estás midiendo las cosas correctas. Puedes experimentar a diario. Tiene un algoritmo de referencia que se depuró de un extremo a otro y se ejecuta en producción, y lo ha cambiado una docena de veces. Estas listo. Continúe y pruebe lo último y lo mejor que hay, desde hacer el suyo propio hasta usar empresas que se especializan en aprendizaje automático. Puede obtener grandes mejoras en la producción, o puede que no. En el peor de los casos, aprende nuevos métodos, desarrolla opiniones y experiencia práctica con ellos, y puede contarles a sus inversores y clientes sobre sus esfuerzos de IA sin sentirse como un impostor. En el mejor de los casos, marca una gran diferencia para sus usuarios, clientes y su empresa: una verdadera historia de éxito de aprendizaje automático. Espera, ¿qué pasa con los MVP, ágiles, esbeltos y todo eso? Al igual que cuando crea un MVP (producto mínimamente viable) tradicional, comienza con una pequeña sección vertical de su producto y hace que funcione bien de principio a fin. Puedes construir su pirámide y luego hacerla crecer horizontalmente. Por ejemplo, en Jawbone, comenzamos con datos de sueño y construimos su pirámide: instrumentación, ETL, limpieza y organización, captura y definiciones de etiquetas, métricas (¿cuál es el número promedio de horas que las personas duermen cada noche? ¿Qué pasa con las siestas? ¿Qué es una siesta? ), análisis de segmentos cruzados hasta y productos de datos basados en aprendizaje automático (detección automática de sueño). Luego esto a los pasos, luego a la comida, el clima, los entrenamientos, las redes sociales y la comunicación, uno a la vez. No construimos una infraestructura integral sin ponerla a trabajar de principio a fin. La jerarquía de necesidades de la ciencia de datos no es una excusa para construir una infraestructura desconectada y con un exceso de ingeniería durante un año. historias de datos extendimos Hacer las preguntas correctas y construir los productos correctos Se trata solo de cómo , no de si (por razones pragmáticas o éticas). podrías deberías La promesa de las herramientas de aprendizaje automático ' Espera, ¿qué pasa con esa API de Amazon o TensorFlow o esa otra biblioteca de código abierto? ¿Qué pasa con las empresas que venden herramientas de ML o que extraen automáticamente información y características? Todo eso es genial y muy útil. (Algunas empresas terminan minuciosamente construyendo a medida toda su pirámide para que puedan mostrar su trabajo. Son héroes). Sin embargo, bajo la fuerte influencia de la exageración actual de la IA, las personas intentan conectar datos sucios y llenos de lagunas. que abarca años mientras cambia en formato y significado, que aún no se entiende, que está estructurado de maneras que no tienen sentido, y espera que esas herramientas lo manejen mágicamente. Y tal vez algún día pronto ese será el caso; Veo y aplaudo los esfuerzos en esa dirección. Hasta entonces, vale la pena construir una base sólida para su pirámide de necesidades de IA.