Како што е обично случај со брзо напредувачките технологии, вештачката интелигенција ги инспирира масовните , на и Некои од нив се заслужени, Од стартапи со скриен хардвер до финтех гиганти до јавни институции, тимовите со треска работат на нивната стратегија за вештачка интелигенција. Фомо Фуд феуди Некои од нив не „Како ја користиме вештачката интелигенција и машинското учење за да бидеме подобри во она што го правиме?“ „Како ја користиме вештачката интелигенција и машинското учење за да бидеме подобри во она што го правиме?“ Понекогаш, компаниите се подготвени за AI. Можеби тие ги ангажираа своите за помалку од ѕвездни резултати, или можеби Но, најчестиот сценарио е дека тие сè уште не ја изградија инфраструктурата за да ги имплементираат (и да ги искористат придобивките од) најосновните алгоритми и операции, многу помалку . not Првиот научник за податоци Литература на податоци Наука за податоци Машино учење Како советник за наука за податоци / AI, морав да ја испорачам оваа порака безброј пати, особено во изминатите две години. Тешко е да се биде влажна покривка меѓу сето ова возбуда околу сопственото поле, особено ако го споделувате тоа возбуда.И како да им кажете на компаниите дека не се подготвени за АИ без да звучат (или да бидат) елитни - самоназначен чувар на порта? Се согласувам Еве едно објаснување кое најмногу резонираше: Think of AI as the top of a Пирамида на потребите . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). Пирамида на потребите Основни потреби: Можете ли да броите? На дното на пирамидата имаме Кои податоци ви се потребни, и што е достапно? Ако тоа е кориснички ориентиран производ, ги евидентирате сите релевантни кориснички интеракции? Ако тоа е сензор, кои податоци доаѓаат низ и како? Колку е лесно да се евидентира интеракција која сè уште не е инструментирана? Тоа е она што го направи неодамнешниот напредок во машинското учење можно. data collection Датирање Следно, како се прави преку системот? Дали имате сигурни токови / ETL ? Каде го чувате, и колку е лесно да се пристапи и да се анализира? Велат (околу една деценија) дека сигурен проток на податоци е клучен за правење сè со податоци. data flow Џеј Крепс [Настрана: Бев во потрага по точен цитат и го најдов во неговиот ' Го сакам логото Потоа забележав дека, еден параграф погоре, тој ја прави оваа точна споредба на хиерархијата на потребите на Маслоу, со "толку вреди да се забележи очигледното" фрлен таму за добра мерка (благодарам Џеј!). Пост за она што го прави научник на податоци.Днес, Шон Тејлор Откриена Неговата сопствена пирамида на потреби во науката за податоци (иронично наречен Unconjoined Triangle of Data Science) која, се разбира, е сосема поинаква. Го сакам логото Пост Откриена Само кога податоците се достапни, можете да Ова е кога ќе откриете дека пропуштате куп податоци, вашите сензори се несигурни, промена на верзијата значи дека вашите настани се спуштени, погрешно го толкувате знамето - и ќе се вратите за да бидете сигурни дека основата на пирамидата е солидна. explore and transform Кога ќе можете да ги истражувате и исчистите податоците, можете да започнете со градење на она што традиционално се смета за BI или BI. : дефинирајте метрики за следење, нивната сезонскост и чувствителност на разни фактори. Можеби правите некои груба сегментација на корисниците и видете дали нешто скока. Во оваа фаза, исто така, знаете што би сакале да предвидите или да научите, и можете да започнете со подготовка на преку генерирање на етикети, или автоматски (кои клиенти се грижеа?) или со луѓе во лакот. analytics features training data Ова е исто така кога ќе го најдете вашиот највозбудлив и убедлив Но, тоа е и тема на уште еден пост. data stories Можам да бројам, а сега што? Имаме податоци за обука – секако, сега можеме да го направиме машинското учење? Можеби, ако се обидувате да го предвидите внатрешно; не, ако резултатот ќе биде насочен кон клиентот. рамката на место, така што можеме постепено да ги распоредиме за да ги избегнеме катастрофите и да добиеме груба проценка на ефектите од промените пред да влијаат на сите. на место (за системите за препораки, ова би било на пример „најпопуларниот“, потоа „најпопуларниот за вашиот кориснички сегмент“ – многу досаден, но ефикасен „стереотип пред персонализација“). experimentation simple baseline Едноставни хеуристики се изненадувачки тешко да се победи, и тие ќе ви овозможи да дебаг на системот крај до крај без мистериозни ML црни кутии со хипертонирани хиперпараметри во средината. Во овој момент, можете да распоредите многу едноставен ML алгоритам (како логистичка регресија или, да, поделба), а потоа да размислите за нови сигнали и карактеристики кои би можеле да влијаат на вашите резултати. Погода и податоци за пребројување се моите go-tos. И не - колку што е моќно, длабокото учење автоматски не го прави ова за вас. Донесувањето на нови сигнали (креирање на карактеристики, а не инженеринг на карактеристики) е она што може да го подобри вашето перформанси со скокови и граници. вреди да поминете некое време тука, дури и ако како научници за податоци сме возбудени да се движиме на следното ниво во пирамидата. Донесете го AI! Вие го направивте тоа. Вие сте инструментирани. Вашиот ETL е губење. Вашите податоци се организирани и чисти. Имате табла, етикети и добри карактеристики. Вие ги мерите вистинските работи. Можете да експериментирате секојдневно. Имате алгоритам на базата кој е дебагиран од крај до крај и работи во производството - и сте го промениле десетина пати. Вие сте подготвени. Одете напред и пробајте ги сите најнови и најдобри работи таму - од рулирање на сопствените до користење на компании кои се специјализирани за машинско учење. Може да добиете некои големи подобрувања во производството, или можеби не. Во најлош случај, ќе научите нови методи, ќе развиете мислења и практично искуство со нив, и ќе им кажете на вашите клиенти и вашите напори за вештачка Чекајте, што е со MVPs, агилни, лесни и сето тоа? Исто како кога градите традиционален MVP (минимално одржлив производ), почнувате со мал, вертикален дел од вашиот производ и го правите да работи добро од крај до крај. Можете да ја изградите својата пирамида, а потоа да ја растете хоризонтално. На пример, во Jawbone, почнавме со податоци за спиењето и ја изградивме својата пирамида: инструментација, ETL, чистење и организација, зафаќање на етикети и дефиниции, метрики (што е просекот # на часови на спиење на луѓето секоја ноќ? и производи за податоци насочени кон машинско учење (автоматско откривање на спиењето). Ова на чекори, потоа храна, временски услови, вежби, социјални мрежи и комуникација – еден по еден. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. податоци приказни Продолжено Прашање на вистинските прашања и создавање на вистинските производи Станува збор за тоа како вие Не ако вие (за прагматични или етички причини) could should Ветувањето на алатките за машинско учење ‘ ’ Чекајте, што е со тој Amazon API или TensorFlow или таа друга библиотека со отворен код? Сето тоа е неверојатно и многу корисно. (Некои компании завршуваат со напорно прилагодување на целата ваша пирамида за да можат да ја покажат својата работа. Тие се херои.) Меѓутоа, под силно влијание на сегашниот хип на АИ, луѓето се обидуваат да се приклучат на податоци кои се валкани и полни со празнини, кои се протегаат со години додека се менуваат во формат и значење, што сè уште не е разбрано, што е структурирано на начини кои не имаат смисла, и очекуваат тие алатки магично да се справат со тоа.