Come spesso accade con le tecnologie in rapida evoluzione, l'IA ha ispirato massicci di e Una parte di esso è meritata, Dalle start-up hardware stealth ai giganti fintech alle istituzioni pubbliche, i team stanno lavorando febbrilmente sulla loro strategia AI. FOMO Fuoco Feudi Alcune di esse non “Come usiamo l’IA e l’apprendimento automatico per migliorare ciò che facciamo?” “Come usiamo l’IA e l’apprendimento automatico per migliorare ciò che facciamo?” Più spesso le aziende sono Pronti per AI. Forse hanno assunto i loro a risultati meno stellari, o forse Ma lo scenario più comune è che non hanno ancora costruito l'infrastruttura per implementare (e raccogliere i benefici di) i più basilari algoritmi e operazioni, molto meno . not Il primo scienziato dei dati Dati di alfabetizzazione Data scienza Machine Learning Come consulente di scienza dei dati / AI, ho dovuto consegnare questo messaggio innumerevoli volte, specialmente negli ultimi due anni. È difficile essere una coperta bagnata in mezzo a tutta questa eccitazione intorno al tuo campo, specialmente se condividi quella eccitazione.E come dici alle aziende che non sono pronte per l'IA senza suonare (o essere) elitista - un custode di porta auto-nominato? Concordo Ecco una spiegazione che risonò di più: Think of AI as the top of a La piramide dei bisogni . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). La piramide dei bisogni Necessità di base: puoi contare? Al fondo della piramide abbiamo Quali dati hai bisogno e cosa è disponibile?Se si tratta di un prodotto orientato all'utente, stai registrando tutte le interazioni utente rilevanti?Se si tratta di un sensore, quali dati vengono attraverso e come?Quanto è facile registrare un'interazione che non è ancora strumentalizzata? Questo è ciò che ha reso possibili i recenti progressi nell'apprendimento automatico. data collection Dati Successivamente, come si fa il attraverso il sistema? hai flussi affidabili / ETL ? Dove lo archivi, e quanto è facile da accedere e analizzare? Ha detto (per circa un decennio) che il flusso di dati affidabile è la chiave per fare qualsiasi cosa con i dati. data flow di Jay Kreps [A parte: stavo cercando una citazione esatta e l'ho trovato nel suo ' Amo i loghi Poi ho notato che, un paragrafo sopra, sta facendo questo esatto confronto di necessità gerarchica di Maslow, con un 'vale la pena notare l'ovvio' gettato lì per una buona misura (grazie Jay!). Il post Cosa fa uno scienziato dei dati. giorni fa, Sean Taylor svelato la sua propria piramide dei bisogni della scienza dei dati (ironicamente soprannominato il Triangolo non congiunto della scienza dei dati) che, naturalmente, è completamente diverso. Amo i loghi Il post svelato Solo quando i dati sono accessibili, è possibile Questo include la infame “pulizia dei dati”, un lato sottovalutato della scienza dei dati che sarà oggetto di un altro post.Questo è quando si scopre che si sta perdendo un sacco di dati, i sensori sono inaffidabili, un cambiamento di versione significava che i vostri eventi sono caduti, si sta interpretando male una bandiera - e si va indietro per assicurarsi che la base della piramide è solida. explore and transform Quando si è in grado di esplorare in modo affidabile e pulire i dati, si può iniziare a costruire ciò che è tradizionalmente pensato come BI o : definire le metriche da tracciare, la loro stagionalità e la sensibilità a vari fattori. Forse facendo qualche segmentazione degli utenti e vedere se qualcosa salta fuori. Tuttavia, dal momento che il tuo obiettivo è l'IA, stai ora costruendo ciò che penserai più tardi come In questa fase, sai anche cosa vorresti prevedere o imparare, e puoi iniziare a preparare la tua generando etichette, automaticamente (quali clienti si sono schiacciati?) o con gli esseri umani nel ciclo. analytics features training data Questo è anche quando trovi il tuo più emozionante e convincente Ma questo è anche l’argomento di un altro post. data stories Ok, posso contare, ora che cosa? Abbiamo dati di formazione – certamente, ora possiamo fare l’apprendimento automatico? Forse, se stai cercando di prevedere internamente il churn; no, se il risultato sarà orientato al cliente. Il quadro è in atto, in modo da poterlo implementare gradualmente per evitare disastri e ottenere una stima approssimativa degli effetti dei cambiamenti prima che colpiscano tutti. (per i sistemi di raccomandazione, questo sarebbe ad esempio "il più popolare", poi "il più popolare per il tuo segmento utente" - il "stereotipo prima della personalizzazione" molto fastidioso ma efficace). experimentation simple baseline Le semplici heuristiche sono sorprendentemente difficili da battere, e ti permetteranno di eseguire il debug del sistema end-to-end senza misteriose scatole nere ML con iperparametri ipertuned al centro. A questo punto, puoi implementare un algoritmo ML molto semplice (come la regressione logistica o, sì, la divisione), quindi pensare a nuovi segnali e funzionalità che potrebbero influenzare i tuoi risultati. I dati meteorologici e del censimento sono i miei go-tos. E no - per quanto potente sia, l'apprendimento profondo non lo fa automaticamente per te. L'introduzione di nuovi segnali (creazione di funzionalità, non ingegneria di funzionalità) è ciò che può migliorare le tue prestazioni in salti e confini. Vale la pena trascorrere un po 'di tempo qui, anche se come scienziati dei dati siamo entusiasti di passare al livello successivo nella piramide. Porta il tuo AI! Lo hai fatto. Sei strumentalizzato. Il tuo ETL è in frantumi. I tuoi dati sono organizzati e puliti. Hai dashboard, etichette e buone funzionalità. Stai misurando le cose giuste. Puoi sperimentare quotidianamente. Hai un algoritmo di base che viene ripulito da fine a fine e sta funzionando in produzione - e hai cambiato una dozzina di volte. Sei pronto. Vai avanti e prova tutte le ultime e migliori funzionalità là fuori - dal rolling della tua a utilizzare aziende specializzate nell'apprendimento automatico. Potresti ottenere alcuni grandi miglioramenti nella produzione, o potresti non farlo. Nel peggiore dei casi, impari nuovi metodi, sviluppi opinioni e esperienze pratiche con loro e arrivi a dire ai tuoi clienti e ai tuoi sforzi AI senza sentirti come un impostore. Che dire di MVP, agile, lean e tutto questo? Proprio come quando si costruisce un MVP tradizionale (prodotto minimamente sostenibile), si inizia con una piccola sezione verticale del prodotto e si fa funzionare bene end-to-end. Si può costruire la sua piramide, poi crescerla orizzontalmente. Ad esempio, a Jawbone, abbiamo iniziato con i dati del sonno e costruito la sua piramide: strumentazione, ETL, pulizia & organizzazione, etichettatura e definizioni, metriche (quale è la media # delle ore di sonno delle persone ogni notte? e prodotti di dati basati sull'apprendimento automatico (detezione automatica del sonno). Questo passo dopo passo, poi cibo, meteo, allenamenti, social network & comunicazione – uno alla volta. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Storie di dati esteso Fare le domande giuste e creare i prodotti giusti Si tratta solo di come tu Non è che tu (per ragioni pragmatiche o etiche) could should La promessa degli strumenti di apprendimento automatico ‘ ’ Che dire di Amazon API o TensorFlow o di altre librerie open source? Tuttavia, sotto la forte influenza dell’attuale hype AI, le persone cercano di collegare dati che sono sporchi e pieni di lacune, che si estendono per anni mentre cambiano il formato e il significato, che non è ancora compreso, che è strutturato in modi che non hanno senso, e si aspettano che questi strumenti lo gestiscano magicamente.