paint-brush
Зашто су многи послови науке о подацима заправо инжењеринг податакаод стране@docligot
1,682 читања
1,682 читања

Зашто су многи послови науке о подацима заправо инжењеринг података

од стране Dominic Ligot4m2024/11/04
Read on Terminal Reader

Предуго; Читати

Већина описа послова науке о подацима је заправо за инжењере података.
featured image - Зашто су многи послови науке о подацима заправо инжењеринг података
Dominic Ligot HackerNoon profile picture
0-item

Ових дана изгледа да свака компанија жели да испуни улогу „научника података“, обећавајући узбудљиве могућности за рад са алгоритмима за машинско учење, моделима за предвиђање и оквирима дубоког учења. Међутим, за многе професионалце који ступе на ове позиције, стварност не одговара привлачности. Уместо да зароне главом у вештачку интелигенцију или моделирају сложене скупове података, они се налазе до колена у екстракцији података, чишћењу и припреми. Добродошли у свет инжењеринга података—домен за који многи нису знали да су се пријавили.


Овај феномен произилази из фундаменталног неразумевања компанија шта им је заправо потребно. Они објављују листе послова за „научнике за податке“ када највећи део њиховог посла укључује чишћење података и обезбеђивање инфраструктуре за њихово руковање – у суштини задатака инжењеринга података. Резултат тога је да професионалци ангажовани као научници података на крају обављају тежак посао који нису очекивали: препиру неуредне податке, премештају их са једне платформе на другу и припремају их за анализу. Разочарење неизбежно наступа за оне који су очекивали да ће провести своје дане у изградњи модела машинског учења, а не у писању СКЛ упита и постављању цевовода.


За амбициозне инжењере података ово је скривена прилика. Иако је тржиште рада препуно компанија које траже научнике за податке, многим од ових организација је потребан инжењер података много више него што схватају. Ова два поља захтевају преклапајуће вештине, посебно у раним фазама—програмирање, управљање базом података и нека основна статистичка знања. Међутим, задаци и каријера се брзо разилазе. Научници података фокусирају се на добијање увида и предвиђања, док инжењери података осигуравају да је екосистем података робустан и поуздан. Паметан професионалац може да почне на позицији науке о подацима и да се окрене у каријеру инжењеринга података једноставним кораком да се ухвати у коштац са задацима који други сматрају испод њих.


Научници података, посебно они из високо академског окружења, често виде чишћење и припрему података као заморне . За њих, ово је „досадна“ страна посла — напоран рад који стаје на пут гламурознијим задацима попут изградње предиктивних модела или примене најсавременијих алгоритама. Ипак, без добро структуираних података, ти алгоритми су бескорисни. Инжењери података то добро знају и прихватају изазов изградње оквира на које се научници података ослањају. Од аутоматизације екстракције и трансформације података до конструисања цевовода који испоручују чисте, добро организоване скупове података, ови задаци су хлеб и путер инжењеринга података.


Док се неки научници података боре да извуку значење из неуредних скупова података, инжењери података су заузети изградњом скалабилних система који ће уштедети време и фрустрације. Уместо да се бори са ЦСВ датотекама и жали се на СКЛ, амбициозни инжењер података користи ове алате у своју корист. Они поједностављују процесе, аутоматизују задатке припреме података и имплементирају робусне цевоводе који омогућавају ажурирање података у реалном времену или по распореду. Они не померају само податке; они граде кичму екосистема података. Док научници података заврше са ручном припремом својих скупова података, инжењер података је већ аутоматизовао процес, елиминишући рад који се понавља и ослобађајући време за више стратешких задатака.


Ова неповезаност између назива послова и радних функција може створити трење унутар тимова, при чему неки научници података жале на недостатак „правог“ рада науци о подацима у њиховим улогама. Али за инжењере података, ово је место где напредују. Док њихови колеге расправљају о томе који је оквир за машинско учење супериорнији, инжењери података су заузети имплементацијом производних решења, прелазећи даље од ад-хоц анализа како би креирали системе који стално испоручују вредност. Они су неопевани хероји света података, који тихо обезбеђују да подаци теку беспрекорно, да се увиди ефикасно генеришу и да организација функционише глатко.


Штавише, инжењери података имају јединствену позицију да премосте јаз између научника података и других пословних јединица. Када се заврши „тешки део“ припреме података, они могу да креирају приступачне апликације прилагођене кориснику за нетехничке заинтересоване стране. То могу бити контролне табле, алати за визуелизацију или веб платформе које демократизују увид у податке у целој организацији. Док научници података још увек бришу своје Питхон скрипте, инжењер података је већ направио нешто скалабилно, одрживо и употребљиво.


На крају, ова динамика открива дубљу истину: многим компанијама нису потребни научници података тако хитно као што мисле . Оно што им је заиста потребно су инжењери података који могу осигурати да су њихови подаци структурирани, чисти и доступни. Увиди, предвиђања и модели које научници података производе добри су онолико колико је добра инфраструктура података у основи. Дакле, док неки могу наставити да се расправљају о томе ко се квалификује као „прави“ научник података, инжењери података знају да није у питању наслов – већ да се посао обави.


Ако сте амбициозни инжењер података, овај пут би могао бити ваша златна прилика. Уласком у ове погрешно класификоване улоге науке о подацима, можете тихо изградити каријеру око решавања проблема које други не желе да додирују. Можете аутоматизовати токове посла, поједноставити процесе и осигурати да је инфраструктура података организације чврста и скалабилна. Док се ваше колеге фокусирају на прилагођавање својих модела, ви ћете градити системе који доносе стварну вредност компанији и вероватно ћете остати непримећени – све док не постане јасно колико се организација ослања на посао који сте обавили.


На крају, инжењери података су ти који омогућавају науку о подацима. А за оне који су спремни да прихвате изазов, награде могу бити значајне — не само у смислу раста у каријери, већ и у сазнању да сте ви тај који тихо одржавате рад машине засноване на подацима.


О мени: 25+ година ИТ ветеран који комбинује податке, вештачку интелигенцију, управљање ризиком, стратегију и образовање. 4к победник на глобалном хакатону и друштвени утицај заговорника података. Тренутно ради на покретању АИ радне снаге на Филипинима. Сазнајте више о мени овде: хттпс://доцлигот.цом