Como é habitual no caso das tecnoloxías de rápido avance, a IA inspirou enormes , e Algunha delas é merecida, Desde as startups de hardware escondido ata os xigantes da fintech ata as institucións públicas, os equipos están traballando febrilmente na súa estratexia de IA. Fomo Fúas Feixóns Algunhas delas non “Como usamos a IA e o aprendizaxe automático para ser mellores no que facemos?” “Como usamos a IA e o aprendizaxe automático para ser mellores no que facemos?” Moitas veces, as empresas están Quizais a xente se atreva a contratar os seus para menos que estrelas resultados, ou quizais Pero o escenario máis común é que aínda non construíron a infraestrutura para implementar (e coller os beneficios de) o máis básico. Algoritmos e operacións, moito menos . not Primeiro científico de datos Datos de alfabetización Ciencia dos datos Aprendizaxe máquina Como conselleiro de ciencia de datos / IA, tiven que entregar esta mensaxe innumerables veces, especialmente nos últimos dous anos. É difícil ser unha manta húmida entre toda esta emoción ao redor do seu propio campo, especialmente se comparte esa emoción.E como dis que as empresas non están listas para a IA sen soar (ou ser) elitista - un gardián de porta auto-designado? Concordo Velaquí unha explicación que resonou máis: Think of AI as the top of a A pirámide das necesidades . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). A pirámide das necesidades Necesidades básicas: Podes contar? No fondo da pirámide temos Que datos necesitas, e que está dispoñible? Se é un produto orientado ao usuario, estás a rexistrar todas as interaccións relevantes do usuario? Se é un sensor, que datos están a pasar e como? Como é fácil rexistrar unha interacción que aínda non está instrumentada? É o que fixo que os recentes avances no aprendizaxe automático fosen posibles. data collection datos A continuación, como se fai o a través do sistema? ten fluxos de confianza / ETL? onde o almacena, e como é fácil de acceder e analizar? Desde hai máis de dez anos, afirma que o fluxo de datos fiable é a clave para facer calquera cousa cos datos. data flow Xesús Kreps [Aparte: Eu estaba a buscar unha cita exacta e atopalo no seu ' Gústanme os logos Entón notei que, un parágrafo máis, está a facer esta xerarquía exacta de comparación de necesidades de Maslow, cun "é digno de notar o obvio" lanzado alí por boa medida (grazas a Jay!). Postaxe sobre o que un científico de datos fai.Días atrás, Sean Taylor descoñecido súa propia pirámide de necesidades de ciencia de datos (ironicamente alcumado o Triángulo descoñecido da ciencia de datos) que, por suposto, é completamente diferente. Gústanme os logos Postaxe descoñecido Só cando os datos están dispoñibles, podes Isto inclúe a infame "limpeza de datos", un lado subestimado da ciencia de datos que será o tema doutro post. Isto é cando descobre que está a perder un montón de datos, os seus sensores son pouco fiables, un cambio de versión significou que os seus eventos caeron, está a interpretar mal unha bandeira - e volve a asegurarse de que a base da pirámide é sólida. explore and transform Cando poidas explorar e limpar de forma fiable os datos, podes comezar a construír o que tradicionalmente se considera como BI ou BI. : definir métricas para rastrexar, a súa estacionalidade e sensibilidade a varios factores. Quizais facer algunha segmentación de usuarios e ver se algo salta. con todo, xa que o seu obxectivo é AI, agora está construíndo o que máis tarde pensará como Nesta etapa, tamén sabe o que quere prever ou aprender, e pode comezar a preparar o seu mediante a xeración de etiquetas, xa sexa automaticamente (que clientes fuxiron?) ou con humanos no ciclo. analytics features training data Isto tamén é cando atopas o teu máis emocionante e convincente Pero ese tamén é o tema de outro post. data stories Xa podo contar, e agora que? Temos datos de adestramento - certamente, agora podemos facer aprendizaxe automática? Quizais, se está intentando predicir internamente o churn; non, se o resultado vai ser de cara ao cliente. marco no lugar, para que poidamos implantar progresivamente para evitar desastres e obter unha estimación bruta dos efectos dos cambios antes de que afecten a todos. no lugar (para os sistemas de recomendación, isto sería, por exemplo, "o máis popular", entón "o máis popular para o seu segmento de usuarios" - o moi molesto pero eficaz "estereotipo antes da personalización"). experimentation simple baseline As heurísticas sinxelas son sorprendentemente difíciles de vencer, e permitirán que debugue o sistema de extremo a extremo sen misteriosas caixas negras ML con hiperparámetros hipertonizados no medio. Neste punto, podes implementar un algoritmo ML moi simple (como a regresión loxística ou, si, a división), e despois pensar en novos sinais e recursos que poden afectar os teus resultados. Os datos meteorolóxicos e do censo son os meus go-tos. E non - por máis poderoso que sexa, o deep learning non o fai automaticamente por ti. Traer novos sinais (creación de recursos, non enxeñaría de recursos) é o que pode mellorar o teu rendemento por saltos e límites. Por favor, trae o AI! Vostede o fixo. Vostede está instrumentado. O seu ETL está estourando. Os seus datos están organizados e limpos. Ten taboleiros, etiquetas e boas características. Vostede está medindo as cousas correctas. Pode experimentar diariamente. Ten un algoritmo de base que está debugado de fin a fin e está en produción - e xa o cambiou unha ducia de veces. Está listo. Ir adiante e probar todas as últimas e mellores cousas alí - desde o seu propio rollo a empresas que se especializan en aprendizaxe automática. Pode obter algunhas grandes melloras na produción, ou non pode. No peor dos casos, aprende novos métodos, desenvolve opinións e experiencia práctica con eles, e pode dicir aos seus clientes e os seus esforzos de IA sen sentirse como un impostor. O mellor caso, fai unha gran diferenza para os Entón, que dicir de MVPs, áxil, lean e todo iso? Do mesmo xeito que cando se constrúe un MVP tradicional (produto mínimamente viable), comeza cunha pequena sección vertical do seu produto e fai que funcione ben de fin a fin. Pode construír a súa pirámide, entón medrar horizontalmente. Por exemplo, en Jawbone, comezamos cos datos do sono e construímos a súa pirámide: instrumentación, ETL, limpeza e organización, captura de etiquetas e definicións, métricas (que é a media # de horas que a xente dorme cada noite? e produtos de datos baseados no aprendizaxe automático (detección automática do sono). Isto a pasos, despois a comida, o tempo, o adestramento, as redes sociais e a comunicación - un a un. Non construímos unha infraestrutura abrangueira sen poñela a traballar de fin a fin. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Historias de datos Ampliacións Facer as preguntas correctas e construír os produtos correctos Só se trata de como se Pero non se vostede (Por razóns éticas ou prácticas) could should A promesa das ferramentas de aprendizaxe automática ‘ ’ Que tal esa API de Amazon ou TensorFlow ou esa outra biblioteca de código aberto?Que tal as empresas que venden ferramentas de ML, ou que extraen automaticamente información e recursos? Todo iso é incrible e moi útil. (Algunhas empresas acaban construíndo a súa pirámide enteira para que poidan amosar o seu traballo. Son heroes.) Con todo, baixo a forte influencia do actual hype de IA, as persoas intentan conectar datos que son sucios e cheos de lagoas, que se estenden durante anos mentres cambian de formato e significado, que aínda non se entende, que está estruturado de formas que non teñen sentido, e esperan que esas ferramentas o manexen de forma máxica.