Com és habitual en el cas de les tecnologies ràpidament avançades, l'IA ha inspirat massives , i Alguns d’ells es mereixen, Des de startups de maquinari amagat fins a gegants de fintech fins a institucions públiques, els equips estan treballant febrilment en la seva estratègia d'IA. FOMO Fúria Feixistes Alguns d’ells no “Com utilitzem l’IA i l’aprenentatge automàtic per millorar el que fem?” “Com utilitzem l’IA i l’aprenentatge automàtic per millorar el que fem?” Molt sovint, les empreses són Per a ells, potser els hi van contractar. a resultats menys estel·lars, o potser Però el escenari més comú és que encara no han construït la infraestructura per implementar (i collir els beneficis de) la més bàsica. Algoritmes i operacions, molt menys . not Primer científic de dades Dades literàries Ciència de dades Aprenentatge de màquina Com a assessor de ciència de dades / IA, vaig haver de lliurar aquest missatge innombrables vegades, especialment en els últims dos anys. És difícil ser una manta mullada entre tota aquesta emoció al voltant del teu propi camp, especialment si comparteixes aquesta emoció.I com dius a les empreses que no estan preparades per a la IA sense sonar (o ser) elitista - un portaveu autoproclamat? Acceptació Aquí teniu una explicació que va ressonar més: Think of AI as the top of a La piràmide de les necessitats . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). La piràmide de les necessitats Necessitats bàsiques: Pots comptar? Al fons de la piràmide hi ha Quines dades necessites i què hi ha disponible? Si es tracta d'un producte orientat a l'usuari, estàs registrant totes les interaccions d'usuari rellevants? Si es tracta d'un sensor, quines dades es transmeten i com? Com és fàcil registrar una interacció que encara no està instrumentada? És el que ha fet possible els últims avenços en l'aprenentatge automàtic. data collection Dades A continuació, com es fa el a través del sistema? Tens fluxos fiables / ETL ? On ho emmagatzemes, i com és fàcil d'accedir i analitzar? Ha estat dient (fa una dècada) que el flux de dades fiable és clau per fer qualsevol cosa amb les dades. data flow El jove Kreps [A part: Estava buscant una cita exacta i la vaig trobar en el seu ' M'encanten els logs Llavors vaig notar que, un paràgraf més amunt, està fent aquesta comparació exacta de la jerarquia de necessitats de Maslow, amb un "val la pena assenyalar l'evident" llançat allà per bona mesura (gràcies Jay!). El post El que un científic de dades fa fa dies, Sean Taylor Desconeguda la seva pròpia piràmide de necessitats de ciència de dades (irònicament anomenat el Triangle desconnectat de la ciència de dades) que, per descomptat, és completament diferent. M'encanten els logs El post Desconeguda Només quan les dades són accessibles, es pot Això inclou la infame "limitació de dades", un costat subratllat de la ciència de dades que serà l'objecte d'un altre post. Això és quan descobreixes que et falten un munt de dades, els teus sensors són poc fiables, un canvi de versió va significar que els teus esdeveniments van caure, estàs malinterpretant una bandera - i tornar a assegurar-te que la base de la piràmide és sòlida. explore and transform Quan puguis explorar i netejar les dades de manera fiable, pots començar a construir el que tradicionalment es pensa que és BI o BI. : defineix les mètriques per rastrejar, la seva estacionalitat i sensibilitat a diversos factors. Potser fent alguna segmentació de l'usuari brut i veure si alguna cosa surt. En aquesta etapa, també saps el que vols predir o aprendre, i pots començar a preparar el teu mitjançant la generació d'etiquetes, ja sigui automàticament (quins clients es van cridar?) o amb humans en el cercle. analytics features training data Això és també quan trobes el teu més emocionant i convincent Però també és el tema d’un altre post. data stories Pot comptar, i ara què? Tenim dades de formació - certament, ara podem fer l'aprenentatge automàtic? Potser, si vostè està tractant de predir internament l'horari; no, si el resultat serà client-facing. El marc està en marxa, de manera que podem desplegar progressivament per evitar desastres i obtenir una estimació bruta dels efectes dels canvis abans que afecten a tothom. en el seu lloc (per als sistemes de recomanació, això seria, per exemple, ‘més popular’, després ‘més popular per al seu segment d’usuari’ – el molt molest però eficaç ‘estereotip abans de la personalització’). experimentation simple baseline Les heurístiques simples són sorprenentment difícils de vèncer, i us permetran depurar el sistema de final a final sense les misterioses caixes negres ML amb hiperparàmetres hipertunats al mig. En aquest punt, podeu desplegar un algorisme ML molt simple (com la regressió logística o, sí, la divisió), i després pensar en nous senyals i característiques que puguin afectar els vostres resultats. Dades meteorològiques i de cens són els meus go-tos. I no - per poderós que sigui, l'aprenentatge profund no ho fa automàticament per a vostè. Portar nous senyals (creació de característiques, no enginyeria de característiques) és el que pot millorar el vostre rendiment per salts i límits. Val la pena passar-hi algun temps, fins i tot si com a científics de dades estem entusiasmats per passar al següent nivell de la piràmide. Posa’t a l’AI! Vostè ho va fer. Vostè està instrumentat. El seu ETL és humming. Les seves dades estan organitzades i netejades. Vostè té panells de control, etiquetes i bones característiques. Vostè està mesurant les coses correctes. Vostè pot experimentar diàriament. Vostè té un algorisme de base que es desgasta de final a final i està en producció - i l'has canviat una dotzena de vegades. Estàs a punt. Anar endavant i provar totes les últimes i millors coses allà fora - des de rodar la seva pròpia a utilitzar empreses que s'especialitzen en l'aprenentatge automàtic. Vostè pot obtenir algunes millores importants en la producció, o potser no. En el pitjor dels casos, aprèn nous mètodes, desenvolupa Què passa amb els MVPs, Agile, Lean i tot això? Igual que quan es construeix un MVP tradicional (product mínimament viable), es comença amb una petita secció vertical del seu producte i es fa que funcioni bé de final a final. Pots construir la seva piràmide, després créixer-la horitzontalment. Per exemple, a Jawbone, vam començar amb les dades del son i vam construir la seva piràmide: instrumentació, ETL, neteja i organització, captura d'etiquetes i definicions, mètriques (què és la mitjana de les hores que la gent dorm cada nit? i productes de dades orientats a l'aprenentatge automàtic (detecció automàtica del somni). Això a passos, després el menjar, el clima, l’entrenament, les xarxes socials i la comunicació – un a un. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Històries de dades Ampliació Fer les preguntes correctes i crear els productes adequats Només es tracta de com No és que tu (Per raons ètiques i pragmàtiques) could should La promesa de les eines d'aprenentatge automàtic ‘ ’ Què passa amb aquesta API d'Amazon o TensorFlow o amb aquesta altra biblioteca de codi obert? Tot això és increïble i molt útil. (Algunes empreses acaben personalitzant durament tota la seva piràmide perquè puguin mostrar el seu treball. Són herois.) No obstant això, sota la forta influència de l'actual hype d'IA, la gent intenta connectar dades que són brutes i plenes de bretxes, que s'estenen durant anys mentre canvien de format i significat, que encara no s'entén, que està estructurat de maneres que no tenen sentit, i espera que aquestes eines ho gestionin màgicament.