Nedávno som viedol triedu o využívaní dátovej vedy pre kybernetickú bezpečnosť so zameraním na analýzu dát zachytávania paketov – trochu technická a tradične suchá téma. Prístup, o ktorý som sa podelil, vychádzal z mojich skúseností v oblasti kybernetickej bezpečnosti vo finančných inštitúciách a zahŕňal základné kroky, ako je prieskumná analýza údajov, predbežné spracovanie a transformácia údajov denníka a identifikácia anomálií prostredníctvom kombinácie klastrovania a analýzy grafovej siete.
Jedným prekvapivým aspektom bol čas, ktorý som strávil prípravou na toto stretnutie – zlomok toho, čo by som zvyčajne investoval. AI zohrala významnú úlohu pri zefektívňovaní procesu. Použil som Claude na pomoc pri kódovaní, vytváraní obrysu a dokonca aj pri vytváraní snímok. Celkovo bol celý kurz pripravený do 48 hodín.
Ukázalo sa, že relácia bola pútavá. Účastníci, predovšetkým CISO, ktorí zvyčajne nekódujú, považovali cvičenia vytvorené s pomocou AI za intuitívne a praktické. Mojím cieľom bolo ponoriť ich do priamej práce s dátami a kódom. Ocenili najmä možnosť manuálne preskúmať, čo moderný dohľad nad kybernetickými hrozbami a platformy SIEM zvyčajne automatizujú, a získať tak prehľad o procesoch, ktoré sa odohrávajú „pod kapotou“.
Môj kľúčový poznatok z triedy bol prekvapivo neintuitívny: vedu o údajoch, ako ju poznáme, nakoniec nahradí AI . Tento názor sa môže zdať predčasný – alebo možno predbehol svoju dobu – ale je to perspektíva, ktorá si vyžaduje diskusiu.
Varovanie: niektoré z toho môžu ľudí vyvolať.
Už viac ako desať rokov je dátová veda oslavovaná ako „najsexi práca 21. storočia“. Napriek tomu, že AI rýchlo napreduje, začína byť jasné, že základné výzvy v tejto oblasti je ťažšie prehliadnuť. Príchod výkonnej generatívnej AI by mohol byť veľmi dobre bodom zlomu pre disciplínu, ktorá pri spätnom pohľade mohla byť voľnejšie definovaná a prehnaná, ako sa pôvodne pripúšťalo.
Dátová veda vo svojej podstate spája informatiku, štatistiku a obchodnú zdatnosť a ponúka organizáciám prísľub použiteľných poznatkov z obrovského množstva údajov. Tento súbor zručností je nepopierateľne cenný v dnešnom svete založenom na údajoch. Pod jeho vylešteným imidžom však toto pole čelí významným problémom. To, čo je často označované ako veda o údajoch, sa často ukazuje ako mozaika voľne súvisiacich úloh, ktoré nie sú vždy úhľadne zarovnané, a mnohí profesionáli v tejto oblasti zápasia s celou šírkou a zložitosťou, ktorú disciplína vyžaduje.
Vzostup nástrojov založených na AI schopných spracovávať analýzu údajov, modelovanie a generovanie prehľadov by si mohol vynútiť zmenu v tom, ako vnímame úlohu a budúcnosť samotnej vedy o údajoch. Keďže AI pokračuje v zjednodušovaní a automatizácii mnohých základných úloh v rámci vedy o údajoch, táto oblasť môže čeliť výpočtom, čo to skutočne znamená byť dátovým vedcom vo veku inteligentnej automatizácie.
Mnoho dátových vedcov sa napriek tomu, že ovládajú sofistikované kódovacie zručnosti a digitálne nástroje, venuje práci, ktorá je prekvapivo manuálna a náchylná na chyby . Príprava, čistenie a analýza údajov zahŕňajú únavné, časovo náročné úlohy, ktoré sa opakujú a sú mechanické. V skutočnosti sa značné množstvo práce v oblasti vedy o údajoch vynakladá na prípravu súborov údajov – úloha, ktorá sa často javí skôr ako drina než vzrušujúca veda založená na objavoch, za ktorú sa vydáva. Tento problém je znásobený skutočnosťou, že mnohí, ktorí vstupujú do tejto oblasti, sú prinajlepšom amatéri. Po absolvovaní niekoľkých online kurzov v jazyku Python alebo R sú títo „údajoví vedci“ často nepripravení na náročnosť tejto úlohy . Dátová veda nie je len kódovanie. Zahŕňa hĺbkovú analýzu, chápanie kontextu a schopnosť prezentovať poznatky netechnickému publiku. V skutočnosti je to skôr výskumná práca, ktorá si vyžaduje zmes kreativity a analytického myslenia, ktoré mnohí v tejto oblasti jednoducho nemajú.
Okrem toho si mnoho vedcov v oblasti údajov vyvinulo zmysel pre nárok, očakávajúc vysoké platy a lukratívne balíčky len na základe svojho titulu. Tento postoj vypína spoločnosti, najmä v odvetviach, kde je nákladová efektívnosť prvoradá. Stretol som sa s firmami, ktoré sa kedysi ponáhľali najať dátových vedcov, ale teraz to prehodnocujú. Prečo platiť vysoké mzdy niekomu, kto trávi väčšinu času zápasením s čistením dát, keď AI to dokáže rýchlejšie, lepšie a za zlomok nákladov?
Keď som osobne zažil písanie lekcie, generatívna AI sa vyvinula do mocnej sily práve v oblastiach, kde je dátová veda najslabšia. Úlohy, ako je príprava údajov, čistenie a dokonca aj základná kvalitatívna analýza – činnosti, ktoré zaberajú veľkú časť času vedcov v oblasti údajov – sú teraz systémami umelej inteligencie jednoducho automatizované . Horšie (alebo lepšie, podľa toho, kde stojíte) je, že AI je rýchlejšia, presnejšia a menej náchylná na ľudské chyby či únavu.
Pre mnohých vedcov to môže byť desivé. Koniec koncov, tieto úlohy predstavujú väčšinu ich každodennej práce. Napríklad čistenie údajov je notoricky časovo náročné a náchylné na chyby, ale AI to teraz dokáže vykonať niekoľkými kliknutiami a takmer dokonalou presnosťou. Vedci zaoberajúci sa údajmi sa často sťažujú na tieto úlohy, ale sú zásadné pre ich úlohy. Ako sa systémy AI zlepšujú, potreba ľudí vykonávať tieto úlohy klesá. Nie je žiadnym prekvapením, že veľká časť hlasnej kritiky proti AI pochádza od samotných vedcov . Vidia nápisy na stene a boja sa o prácu.
Aby toho pre dátových vedcov nebolo málo, v tejto oblasti sa v posledných rokoch výrazne nepokročilo. Napriek raketovému nárastu popularity je veda o údajoch stále sužovaná neefektívnosťou, chybami a nedostatočnou jasnosťou v tom, čo presne by to malo znamenať . Kedysi sa verilo, že sofistikovanejšie nástroje a lepšie školenia rozvinú túto oblasť, ale to sa neuskutočnilo v očakávanej miere. Naproti tomu AI sa neustále zlepšuje. Algoritmy strojového učenia, spracovanie prirodzeného jazyka a generatívne modely sa rýchlo vyvíjajú a zanechávajú tradičnú vedu o údajoch v prachu.
Problém opäť zhoršujú vysoké platové očakávania dátových vedcov. Spoločnosti, ktoré možno kedysi tolerovali neefektívnosť, si teraz uvedomujú, že umelá inteligencia môže nahradiť veľa práce bez toho, aby bola ľudská práca spojená s vysokými cenami. S tým, ako sa AI stáva šikovnejšou pri vykonávaní kľúčových úloh, ako je analýza, prognózovanie a dokonca aj prezentácia, sa manuálny charakter vedy o údajoch stáva čoraz zbytočnejším. Mnoho spoločností si uvedomí, že to, čo si predtým vyžadovalo tím dátových vedcov, je teraz možné zvládnuť efektívnejšie pomocou nástrojov poháňaných AI.
Realita je taká, že veda o údajoch, ako je tradične definovaná, je na pokraji zastarania. S napredovaním generatívnej AI úžasnou rýchlosťou bude dopyt po vedcoch ľudských údajov v ich súčasnej podobe pravdepodobne klesať . To neznamená, že ľudia nemajú žiadnu úlohu v rozhodovaní založenom na údajoch, ale klasická úloha „data vedca“ môže byť čoskoro pojmom minulosti. Teraz sú potrební profesionáli skúsení v spolupráci s AI, využívaní jej schopností a zároveň sústredení sa na strategické myslenie a komplexné riešenie problémov na vyššej úrovni.
AI nie je koniec analytiky, prehľadov ani rozhodovania – predstavuje ich vývoj . Súčasná oblasť vedy o údajoch riskuje, že bude zastaraná, ak sa nebude postupne vyvíjať. Umelá inteligencia už prináša revolúciu v odvetviach a veda o údajoch sa musí prispôsobiť, inak riskuje, že ju táto vlna predbehne. V konečnom dôsledku nemusí byť otázkou, či AI odstráni vedu o údajoch, ale či vôbec niekedy v plnej miere splnila svoje sľuby veda o údajoch.
Alebo možno na rozdiele nezáleží ani vtedy, ak sa konečne posunieme za hranice „dátovej vedy“ a prijmeme AI ako ďalší logický postup.
O mne: 25+ ročný IT veterán kombinujúci dáta, AI, riadenie rizík, stratégiu a vzdelávanie. 4x víťaz hackathonu a sociálny vplyv od obhajcu údajov. V súčasnosti pracujeme na naštartovaní pracovnej sily AI na Filipínach. Viac o mne sa dozviete tu: https://docligot.com