Као што је обично случај са брзим напредак технологија, АИ је инспирисао масовне , и Neke od njih su zaslužene, Od stealth hardverskih start-upa do fintech giganta do javnih institucija, timovi gorko rade na svojoj AI strategiji. Фомо Фуд ФЕУД Neke od njih nisu "Како користимо АИ и машинско учење да бисмо постали бољи у ономе што радимо?" "Како користимо АИ и машинско учење да бисмо постали бољи у ономе што радимо?" У већини случајева, компаније су спремни за АИ. можда су ангажовали своје мање од звезданих резултата, или можда Али најчешћи сценарио је да они још нису изградили инфраструктуру за имплементацију (и жетву предности) најосновнијих алгоритми и операције, много мање . not Први научник података Литература података Наука података машинско учење Као саветник за науку о подацима / АИ, морао сам да доставим ову поруку безброј пута, посебно у протекле две године. Тешко је бити влажна ћебета међу свим овим узбуђењем око вашег поља, поготово ако делите то узбуђење.И како можете рећи компанијама да нису спремне за АИ без звучања (или бити) елитиста - самоименовани чувар капије? Slažem se Ево објашњења која је највише резонирала: Think of AI as the top of a Piramida potreba . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). Piramida potreba Основне потребе: Можете ли рачунати? На дну пирамиде имамо Који подаци су вам потребни, и шта је доступно? Ако је то производ који је усмерен на кориснике, да ли сте регистровали све релевантне интеракције корисника? Ако је то сензор, који подаци долазе кроз и како? Колико је лако регистровати интеракцију која још није инструментирана? То је оно што је омогућило недавни напредак у машинском учењу. data collection Датотеке Sledeći: Kako se radi преко система? Да ли имате поуздане токове / ЕТЛ ? Где га чувате, и колико је лако приступити и анализирати? On je rekao (preko decenije) da je pouzdan protok podataka ključ za sve što se radi sa podacima. data flow Џеј Крепс [Асиде: Тражио сам тачан цитат и нашао га у његовом ' Volim logove Онда сам приметио да, један параграф изнад, он прави ову тачну Маслоову хијерархију поређења потреба, са "вреди напоменути очигледно" бачено тамо за добру меру (хвала Јаи!). Пост О томе шта научник података ради.Данас, Шон Тејлор Откривена његова сопствена пирамида потреба за науком о подацима (иронично назван неспојиви троугао науке о подацима), што је, наравно, потпуно другачије. Volim logove Пост Откривена Само када су подаци доступни, можете Ово укључује злогласно "чишћење података", потцењену страну науке о подацима која ће бити предмет другог поста.То је када откријете да вам недостаје гомила података, ваши сензори су непоуздани, промена верзије значила је да су ваши догађаји пали, погрешно тумачите заставу - и вратите се да бисте били сигурни да је основа пирамиде чврста. explore and transform Када сте у стању да поуздано истражите и очистите податке, можете почети да градите оно што се традиционално сматра као БИ или : дефинишите метрике за праћење, њихову сезонску и осетљивост на различите факторе. Можда радите неку грубу сегментацију корисника и видите да ли нешто испадне. U ovoj fazi, takođe znate šta želite da predvidite ili naučite, i možete početi da pripremate генеришући етикете, или аутоматски (који клијенти су се бавили?) или са људима у петљу. analytics features training data Ово је такође када нађете свој најузбудљивији и убедљивији - ali to je i tema drugog Medium posta. data stories Mogu da izbrojim, šta sad? Имамо податке о обуци - наравно, сада можемо да радимо машинско учење? Можда, ако покушате да интерно предвидите цхурн; не, ако ће резултат бити усмерен на купце. Okvir je na mestu, tako da možemo postepeno da ga raspoređujemo kako bismo izbegli katastrofe i dobili grubu procenu efekata promena pre nego što one utiču na sve. на месту (за системе препоручивања, ово би било, на пример, ‘најпопуларније’, затим ‘најпопуларније за ваш кориснички сегмент’ – веома досадно али ефикасно ‘стереотип пре персонализације’). experimentation simple baseline Једноставне хеуристике су изненађујуће тешко превазићи, и они ће вам омогућити да дебугирате систем од краја до краја без мистериозних МЛ црних кутија са хипертонираним хиперпараметрима у средини. У овом тренутку, можете да распоредите врло једноставан МЛ алгоритам (као што је логистичка регресија или, да, подела), а затим размислите о новим сигналима и функцијама које могу утицати на ваше резултате. Поремећаји и подаци о попису су моји готос. И не – колико је моћан, дубоко учење не ради то аутоматски за вас. Доношење нових сигнала (креирање функција, а не инжењерство функција) је оно што може побољшати вашу перформансе скоковима и границама. Вриједно је провести неко време овде, чак и ако као научници података смо узбуђени да пређемо на следећи ниво у пирамиди. Донесите на АИ! Ви сте то урадили. Ви сте инструментисани. Ваш ЕТЛ је хуминг. Ваши подаци су организовани и очишћени. Имате контролне табеле, етикете и добре функције. Ви мерите праве ствари. Можете свакодневно експериментисати. Имате алгоритам базне линије који је дебугиран од краја до краја и ради у производњи - и ви сте га променили десетак пута. Спремни сте. Идите напред и испробајте све најновије и највеће тамо - од ваљања своје до коришћења компанија које се специјализују за машинско учење. Можда добијете нека велика побољшања у производњи, или можда не. Најгори случај, научите нове методе, развијате мишљења и практично искуство са њима, и добијете да кажете својим Сачекајте, шта је са МВП-има, агилним, леином и све то? Baš kao i kada gradite tradicionalni MVP (minimalno održiv proizvod), počinjete sa malim vertikalnim deoom vašeg proizvoda i učinite da dobro funkcioniše od kraja do kraja. Možete da izgradite svoju piramidu, a zatim da je rastete horizontalno. Na primer, u Jawbone-u smo počeli sa podacima o spavanju i izgradili njegovu piramidu: instrumentacija, ETL, čišćenje i organizacija, snimanje etiketa i definicije, metrike (što je prosek sati spavanja svake noći? и производе података засноване на машинском учењу (аутоматско откривање сна). Ovo korak po korak, onda hrana, vreme, vežbanje, društvene mreže i komunikacija – jedan po jedan. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Приче о подацима Проширена Питање правих питања и изградња правих производа То је само о томе како ви Ne da li si ti (из прагматичних или етичких разлога). could should Обећање алата за машинско учење ‘ ’ Чекајте, шта је са тим Амазон АПИ-ом или ТенсорФловом или том другом библиотеком отвореног кода? Све то је сјајно и веома корисно. (Неке компаније на крају напорно прилагођавају целу вашу пирамиду тако да могу да покажу свој рад. Они су хероји.) Међутим, под снажним утицајем тренутне ИИ хипе, људи покушавају да прикључе податке који су прљави и пуни празнина, који се протежу годинама док се мењају у формату и значењу, то још није разумено, то је структурирано на начине који немају смисла, и очекују да ти алати магично управљају.