Jak je to obvykle s rychle se rozvíjejícími technologiemi, AI inspirovala masivní , , a Některé z nich si zaslouží, Od stealth hardwarových startupů až po fintech giganty až po veřejné instituce, týmy pracují na své strategii AI s horečkou. FOMO FUD feudální Některé z nich nejsou „Jak používáme AI a strojové učení, abychom se zlepšili v tom, co děláme?“ „Jak používáme AI a strojové učení, abychom se zlepšili v tom, co děláme?“ Častěji než ne, podniky jsou Možná, že si je najal, možná že si je najal. k méně než hvězdným výsledkům, nebo možná Ale nejčastějším scénářem je, že ještě nevybudovali infrastrukturu k realizaci (a sklizeň výhod) nejzákladnějších algoritmy a operace, mnohem méně . not První data vědci Datová gramotnost Data věda strojové učení Jako poradce v oblasti vědy o datech / umělé inteligence jsem musel tuto zprávu doručit nespočetkrát, zejména v posledních dvou letech. Je těžké být mokrým přikrývkou mezi všemi těmito vzrušeními kolem vašeho vlastního pole, zvláště pokud sdílíte to vzrušení.A jak říkáte společnostem, že nejsou připraveny na AI, aniž by zněly (nebo byly) elitistou - sebeurčeným brankářem? Souhlasím Zde je vysvětlení, které nejvíce rezonovalo: Think of AI as the top of a Pyramida potřeb . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). Pyramida potřeb Základní potřeby: Umíte počítat? Na dně pyramidy máme Jaké údaje potřebujete a co je k dispozici? Pokud se jedná o produkt orientovaný na uživatele, zaznamenáváte všechny relevantní uživatelské interakce? Pokud se jedná o senzor, jaké údaje přicházejí a jak? Jak snadné je zaznamenat interakci, která ještě není instrumentována? To je to, co umožnilo nedávný pokrok v strojovém učení. data collection Databáze Následně, jak to dělá prostřednictvím systému? Máte spolehlivé proudy / ETL ? Kde je ukládáte, a jak snadné je přístup a analýza? Říká se (přibližně deset let), že spolehlivý tok dat je klíčem k tomu, aby se s daty dělalo cokoliv. data flow Jay Krepsová [Bez ohledu: Hledal jsem přesný citát a našel jsem ho v jeho ' Miluju logy Potom jsem si všiml, že jeden odstavec nad tím, že dělá tento přesný Maslowova hierarchie srovnání potřeb, s "to stojí za to poznamenat zřejmé" hodil tam pro dobré měřítko (děkuji Jay!). Postýlka o tom, co dělá vědec dat. Před několika dny, Sean Taylor Zveřejněno jeho vlastní data science pyramida potřeb (ironicky přezdívaný Unconjoined Triangle of Data Science), který, samozřejmě, je zcela odlišný. Miluju logy Postýlka Zveřejněno Pouze tehdy, když jsou data dostupná, můžete To zahrnuje neslavné "čistění dat", podhodnocenou stránku datové vědy, která bude předmětem jiného příspěvku.To je, když zjistíte, že vám chybí spousta dat, vaše senzory jsou nespolehlivé, změna verze znamenala, že vaše události jsou opuštěny, špatně interpretujete vlajku - a vracíte se, abyste se ujistili, že základna pyramidy je solidní. explore and transform Když budete schopni spolehlivě prozkoumat a vyčistit data, můžete začít budovat to, co je tradičně považováno za BI nebo BI. : definujte metriky ke sledování, jejich sezónnost a citlivost na různé faktory. Možná děláte nějakou hrubou uživatelskou segmentaci a uvidíte, zda něco vyskočí. V této fázi také víte, co byste chtěli předpovědět nebo se naučit, a můžete začít připravovat generováním štítků, a to buď automaticky (které zákazníky si vybrali?) nebo s lidmi v kruhu. analytics features training data To je také, když zjistíte, že vaše nejvíce vzrušující a přesvědčivé Ale to je také téma dalšího mediálního příspěvku. data stories A teď už můžu počítat, co? Máme školicí data – jistě, nyní můžeme dělat strojové učení? Možná, pokud se snažíte interně předpovídat churn; ne, pokud bude výsledek orientován na zákazníka. Rámec na místě, takže můžeme nasadit postupně, aby se zabránilo katastrofám a získat hrubý odhad účinků změn předtím, než ovlivní každého. v místě (pro systémy doporučení by to bylo např. „nejpopulárnější“, pak „nejpopulárnější pro váš uživatelský segment“ – velmi nepříjemný, ale účinný „stereotyp před personalizací“). experimentation simple baseline Jednoduché heuristiky jsou překvapivě obtížné porazit a umožní vám debugovat systém od konce do konce bez záhadných černých políček ML s hyperparametry ve středu. V tomto okamžiku můžete nasadit velmi jednoduchý algoritmus ML (jako je logistická regrese nebo, ano, rozdělení), pak přemýšlet o nových signálech a funkcích, které by mohly ovlivnit vaše výsledky. Počasí a údaje o sčítání lidu jsou mé go-to. A ne – jak mocné to je, hluboké učení to pro vás automaticky neudělá. Přinášení nových signálů (vytváření funkcí, nikoliv inženýrství funkcí) je to, co může zlepšit váš výkon skoky a hranice. Vezměte si AI! Vy jste to udělali. Jste nástroji. Váš ETL se hromadí. Vaše data jsou organizována a vyčištěna. Máte přístroje, štítky a dobré funkce. Měříte správné věci. Můžete experimentovat denně. Máte základní algoritmus, který je vylepšený od konce do konce a běží ve výrobě – a změnili jste to tucetkrát. Jste připraveni. Jděte dopředu a vyzkoušejte všechny nejnovější a největší tam – od rollování své vlastní k používání společností, které se specializují na strojové učení. Můžete získat nějaké velké zlepšení ve výrobě, nebo možná ne. V nejhorším případě se učíte nové metody, rozvíjet názory a praktické zkušenosti s nimi a dostat se říkat svým klientům a vašim snahám A co MVP, agilní, lean a všechno tohle? Stejně jako při budování tradičního MVP (minimálně životaschopného produktu) začínáte s malou vertikální částí vašeho produktu a děláte to dobře od konce do konce. Můžete postavit jeho pyramidu, pak ji růst horizontálně. Například v Jawbone jsme začali s daty o spánku a postavili jeho pyramidu: přístroje, ETL, čištění a organizace, zachycování štítků a definic, metriky (co je průměrná hodina spánku lidí každou noc? a datové produkty řízené strojovým učením (automatická detekce spánku). To vše krok za krokem, pak jídlo, počasí, cvičení, sociální sítě a komunikace – jeden po druhém. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Data Příběhy Rozšířené Zeptejte se správných otázek a vytvořte správné produkty Je to jen o tom, jak jste Není to tak, že byste (z praktických nebo etických důvodů) could should Slib nástrojů pro strojové učení ‘ ’ A co Amazon API nebo TensorFlow nebo jiná knihovna s otevřeným zdrojovým kódem? To vše je úžasné a velmi užitečné. (Některé společnosti nakonec pečlivě přizpůsobují celou vaši pyramidu, aby mohli předvést svou práci. Jsou hrdinové.) Nicméně, pod silným vlivem současného hype AI, lidé se snaží připojit data, která jsou špinavá a plná mezer, která trvá roky, zatímco se mění ve formátu a významu, což ještě není pochopeno, že je strukturováno způsoby, které nemají smysl, a očekávají, že tyto nástroje to magicky zvládnou.