Kao što je obično slučaj sa brzo napredujućim tehnologijama, AI je inspirisao masovne U pitanju je i Neki od njih su zasluženi, Od stealth hardverskih start-upa do fintech divova do javnih institucija, timovi gorko rade na svojoj AI strategiji. FOMO iskustvo FUD Fejsbuk Neke od njih nisu “Kako koristimo AI i strojno učenje da bismo bili bolji u onome što radimo?” “Kako koristimo AI i strojno učenje da bismo bili bolji u onome što radimo?” U većini slučajeva, kompanije su spremni za AI. Možda su zaposlili svoje za manje-od-zvezdane rezultate, ili možda Ali najčešći scenarij je da još nisu izgradili infrastrukturu za implementaciju (i žetvu prednosti) najosnovnijih tehnologija. algoritmi i operacije, mnogo manje . not Prvi naučnici podataka Podaci o književnosti Data nauka Mašinsko učenje Kao savjetnik za znanost o podacima / AI, morala sam isporučiti ovu poruku bezbroj puta, posebno u protekle dvije godine. Teško je biti mokar pokrivač među svim ovim uzbuđenjem oko vašeg vlastitog polja, pogotovo ako podijelite to uzbuđenje.I kako kažete kompanijama da nisu spremne za AI bez zvučanja (ili biti) elitista - samostalno imenovanog čuvara vrata? Slažem se Ovo je objašnjenje koje je najviše rezoniralo: Think of AI as the top of a Piramida potreba . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). Piramida potreba Osnovne potrebe: Možete li računati? Na dnu piramide imamo Koji podaci su vam potrebni i šta je dostupno? Ako je to proizvod usmjeren na korisnike, da li registrujete sve relevantne interakcije korisnika? Ako je to senzor, koji podaci dolaze kroz i kako? Koliko je lako logirati interakciju koja još nije instrumentirana? To je ono što je omogućilo nedavni napredak u strojnom učenju. data collection Podatke Sljedeći: Kako se preko sistema? Da li imate pouzdane tokove / ETL ? Gde ga pohranjujete, i koliko je lako pristupiti i analizirati? tvrdi (preko desetljeća) da je pouzdan protok podataka ključ za sve što se radi s podacima. data flow Džej Kreps [Bez obzira: Tražio sam točan citat i našao ga u njegovu ' Volim logove Zatim sam primetio da, jedan od tačaka, on pravi ovu tačnu Maslowovu hijerarhiju poređenja potreba, s "vrijedi napomenuti očigledno" bačeno tamo za dobru mjeru (hvala Jay!). Postovi o tome šta naučnik podataka radi.Dane ranije, Sean Taylor Otkriveno njegova vlastita piramida potreba za znanjem o podacima (ironično nazvana Unconjoined Triangle of Data Science) koja je, naravno, potpuno drugačija. Volim logove Postovi Otkriveno Samo kada su podaci dostupni, možete To uključuje zloglasno "čišćenje podataka", potcenjenu stranu nauke o podacima koja će biti predmet drugog posta.To je kada otkrijete da vam nedostaje gomila podataka, vaši senzori su nepouzdani, promjena verzije znači da su vaši događaji otpušteni, pogrešno tumačite zastavu - i vratite se kako biste bili sigurni da je baza piramide čvrsta. explore and transform Kada možete pouzdano istražiti i očistiti podatke, možete početi graditi ono što se tradicionalno smatra kao BI ili BI. : definisati metriku za praćenje, njihovu sezonskost i osjetljivost na različite faktore. Možda napravite neku grubu korisničku segmentaciju i vidite da li nešto izlazi. U ovoj fazi, takođe znate šta biste želeli predvidjeti ili naučiti, i možete početi da pripremate stvaranjem oznaka, ili automatski (koji su kupci crnuli?) ili sa ljudima u krugu. analytics features training data Ovo je takođe kada nađete svoje najzanimljivije i najprivlačnije - ali to je i tema drugog Medium posta. data stories U redu, mogu da izbrojim, sad šta? Imamo podatke o obuci – sigurno, sada možemo da radimo strojno učenje? Možda, ako pokušavate da predvidite interno kako će se to desiti; ne, ako će rezultat biti usmjeren na kupce. Okvir je na mestu, tako da možemo postepeno raspoređivati kako bismo izbegli katastrofe i dobili grubu procjenu učinaka promjena prije nego što one utječu na sve. na mestu (za preporučujuće sisteme, to bi bilo npr. „najpopularnije“, a zatim „najpopularnije za vaš korisnički segment“ – veoma uznemirujuće, ali učinkovito „stereotip prije personaliziranja“). experimentation simple baseline Jednostavne heuristike su iznenađujuće teško pobediti, i oni će vam omogućiti da debug sistem od kraja do kraja bez misterioznih ML crnih kutija s hipertuned hiperparametara u sredini. U ovom trenutku, možete implementirati vrlo jednostavan ML algoritam (kao što je logistička regresija ili, da, podjela), a zatim razmišljati o novim signalima i karakteristikama koje bi mogle uticati na vaše rezultate. Vremenska i popisa podataka su moj go-tos. I ne – koliko god da je moćan, duboko učenje ne radi to automatski za vas. Uvođenje novih signala (stvaranje značajki, a ne inženjerstvo značajki) je ono što može poboljšati performanse skokovima i granicama. Vrijedno je provesti neko vrijeme ovde, čak i ako smo kao znanstvenici podataka uzbuđeni zbog prelaska na sljedeći nivo u piramidi. Ponesite na AI! Vi ste to napravili. Vi ste instrumentirani. Vaš ETL je humming. Vaši podaci su organizovani i očišćeni. Imate nadzorne ploče, oznake i dobre karakteristike. Mjerite prave stvari. Možete eksperimentirati svakodnevno. Imate osnovni algoritam koji je debugiran od kraja do kraja i radi se u proizvodnji – a vi ste ga promenili desetak puta. Spremni ste. Idite naprijed i isprobajte sve najnovije i najveće tamo – od rolanja vlastitih do korištenja kompanija koje se specijaliziraju za strojno učenje. Možete dobiti neka velika poboljšanja u proizvodnji, ili možda ne. U najgorem slučaju, učite nove metode, razvijate mišljenja i praktično iskustvo s njima, i dobijete da kažete svojim klijentima i svojim naporima AI bez osjećaja kao da ste Čekajte, šta je sa MVP-ovima, agilnim, vitkim i svim tim? Baš kao i kod izgradnje tradicionalnog MVP-a (minimalno održivog proizvoda), počinjete od malog, vertikalnog dijela vašeg proizvoda i učinite da dobro funkcioniše od kraja do kraja. Možete izgraditi njegovu piramidu, a zatim ga uzgajati horizontalno. Na primer, u Jawbone-u smo počeli sa podacima o spavanju i izgradili njegovu piramidu: instrumentacija, ETL, čišćenje i organizacija, snimanje etiketa i definicije, mjerila (što je prosjek sati spavanja svake noći? i proizvodima podataka zasnovanim na strojnom učenju (automatsko otkrivanje sna). To je korak po korak, a zatim hrana, vreme, trening, društvene mreže i komunikacija – jedan po jedan. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Priče podataka Proširenje Postavljanje pravih pitanja i izgradnja pravih proizvoda Riječ je samo o tome kako Ne da li si ti (iz pragmatičnih ili etičkih razloga) could should Obećanje alata za strojno učenje ‘ ’ Čekajte, šta je sa tom Amazon API-jem ili TensorFlow-om ili tom drugom knjižnicom otvorenog koda? Sve to je sjajno i vrlo korisno. (Neke kompanije završavaju naporno prilagođavajući cijelu vašu piramidu tako da mogu pokazati svoj rad. Oni su junaci.) Međutim, pod snažnim utjecajem trenutnog AI-a, ljudi pokušavaju priključiti podatke koji su prljav i pun praznina, koji se protežu godinama dok se mijenja format i značenje, to još nije razumljivo, to je strukturirano na načine koji nemaju smisla, i očekuju da će ti alati čarobno upravljati tim.