В наши дни всяка компания изглежда нетърпелива да заеме ролята на „учен по данни“, обещавайки вълнуващи възможности за работа с алгоритми за машинно обучение, прогнозни модели и рамки за дълбоко обучение. Въпреки това, за много професионалисти, които заемат тези позиции, реалността не отговаря съвсем на привлекателността. Вместо да се потопят с главата напред в AI или да моделират сложни набори от данни, те се оказват затънали в извличането, почистването и подготовката на данни. Добре дошли в света на инженеринга на данни — домейн, за който мнозина не са осъзнавали, че са се регистрирали.
Това явление произтича от фундаментално неразбиране на компаниите от какво всъщност се нуждаят. Те публикуват обяви за работа за „изследователи на данни“, когато по-голямата част от работата им включва почистване на данни и осигуряване на инфраструктура за справяне с тях – типично задачи за инженеринг на данни. Резултатът е, че професионалистите, наети като специалисти по данни, в крайна сметка вършат тежката работа, която не са очаквали: борят се с объркани данни, преместват ги между платформи и ги подготвят за анализ. Разочарованието неизбежно настъпва за онези, които са очаквали да прекарат дните си в изграждане на модели за машинно обучение, без да пишат SQL заявки и да настройват конвейери.
За амбициозните инженери на данни това е скрита възможност. Въпреки че пазарът на труда е пълен с компании, които търсят специалисти по данни, много от тези организации се нуждаят от инженер по данни много повече, отколкото осъзнават. Двете области изискват припокриващи се умения, особено в ранните етапи - програмиране, управление на бази данни и някои основни статистически познания. Задачите и кариерните пътища обаче бързо се разминават. Учените по данни се фокусират върху извличането на прозрения и правенето на прогнози, докато инженерите по данни гарантират, че екосистемата на данните е стабилна и надеждна. Един опитен професионалист може да започне от позиция в областта на науката за данни и да премине към кариера в инженеринг на данни, просто като се засили, за да се справи със задачите, които другите смятат за по-ниски от тях.
Учените по данни, особено тези с високо академично образование, често виждат почистването и подготовката на данни като досадно . За тях това е „скучната“ страна на работата – грубата работа, която пречи на по-бляскавите задачи като изграждане на прогнозни модели или прилагане на авангардни алгоритми. И все пак, без добре структурирани данни, тези алгоритми са безполезни. Инженерите по данни знаят това добре и приемат предизвикателството да изградят рамки, на които разчитат учените по данни. От автоматизирането на извличането и трансформирането на данни до изграждането на тръбопроводи, които доставят чисти, добре организирани набори от данни, тези задачи са хлябът и маслото на инженерството на данни.
Докато някои специалисти по данни се борят да извлекат значение от обърканите набори от данни, инженерите по данни са заети да изграждат мащабируеми системи, които ще спестят време и разочарование в бъдеще. Вместо да се бори с CSV файлове и да се оплаква от SQL, амбициозният инженер по данни използва тези инструменти в своя полза. Те рационализират процесите, автоматизират задачите за подготовка на данни и внедряват стабилни конвейери, които позволяват актуализации на данни в реално време или по график. Те не просто преместват данни; те изграждат гръбнака на екосистемата от данни. Докато учените по данни завършат ръчната подготовка на своите набори от данни, инженерът по данни вече е автоматизирал процеса, елиминирайки повтарящата се работа и освобождавайки време за по-стратегически задачи.
Това разминаване между длъжностите и работните функции може да създаде търкания в екипите, като някои специалисти по данни оплакват липсата на „истинска“ работа в науката за данни в техните роли. Но за инженерите по данни, това е мястото, където те процъфтяват. Докато техните връстници спорят коя рамка за машинно обучение е по-добра, инженерите по данни са заети с внедряването на производствени решения, преминавайки отвъд ad hoc анализите, за да създадат системи, които доставят стойност многократно. Те са невъзпятите герои в света на данните, тихо гарантирайки, че данните протичат безпроблемно, прозренията се генерират ефективно и организацията работи гладко.
Освен това инженерите по данни са в уникална позиция да преодолеят пропастта между учените по данни и други бизнес звена. След като „трудната част“ от подготовката на данните е завършена, те могат да създават достъпни, удобни за потребителя приложения за нетехнически заинтересовани страни. Това могат да бъдат табла за управление, инструменти за визуализация или уеб базирани платформи, които демократизират прозренията на данните в цялата организация. Докато специалистите по данни все още усъвършенстват своите Python скриптове, инженерът по данни вече е изградил нещо мащабируемо, устойчиво и използваемо.
В крайна сметка тази динамика разкрива по-дълбока истина: много компании не се нуждаят от специалисти по данни толкова спешно, колкото си мислят . Това, от което наистина се нуждаят, са инженери по данни, които могат да гарантират, че техните данни са структурирани, чисти и достъпни. Прозренията, прогнозите и моделите, които специалистите по данни произвеждат, са толкова добри, колкото и основната инфраструктура за данни. Така че, докато някои може да продължат да спорят кой се квалифицира като „истински“ учен по данни, инженерите по данни знаят, че не става дума за титлата – а за свършването на работата.
Ако сте амбициозен инженер по данни, този път може да бъде вашата златна възможност. Влизайки в тези погрешно класифицирани роли в науката за данни, можете тихо да изградите кариера около решаването на проблемите, които другите не искат да докосват. Можете да автоматизирате работните потоци, да рационализирате процесите и да гарантирате, че инфраструктурата за данни на организацията е стабилна и мащабируема. Докато колегите ви се съсредоточават върху настройването на моделите си, вие ще изграждате системи, които носят истинска стойност на компанията, и вероятно ще останете незабелязани – докато не стане ясно колко точно организацията разчита на работата, която сте свършили.
В крайна сметка инженерите по данни са тези, които правят науката за данните възможна. А за тези, които желаят да приемат предизвикателството, наградите могат да бъдат значителни – не само по отношение на кариерно израстване, но и в знанието, че вие сте този, който тихо поддържа машината, управлявана от данни, да работи.
За мен: 25+ годишен IT ветеран, комбиниращ данни, AI, управление на риска, стратегия и образование. 4 пъти глобален победител в хакатона и социално въздействие от защитника на данните. В момента се работи за стартиране на работната сила на AI във Филипините. Научете повече за мен тук: https://docligot.com