Recentment vaig realitzar una classe sobre l'ús de la ciència de dades per a la ciberseguretat, centrada en l'anàlisi de dades de captura de paquets, un tema una mica tècnic i tradicionalment sec. L'enfocament que vaig compartir es va basar en la meva experiència en ciberseguretat a les institucions financeres, que cobria passos bàsics com l'anàlisi exploratòria de dades, el preprocessament i la transformació de dades de registre, i la identificació d'anomalies mitjançant una combinació d'anàlisi de xarxes de clúster i gràfics.
Un aspecte sorprenent va ser el temps que vaig dedicar a preparar-me per a aquesta sessió, una fracció del que normalment invertiria. La IA va tenir un paper important en la racionalització del procés. Vaig utilitzar en Claude per ajudar-me a codificar, desenvolupar l'esquema i fins i tot crear les diapositives. En total, tot el curs estava llest en 48 hores.
La sessió va resultar atractiva. Els participants, principalment CISO que normalment no codifiquen, van trobar que els exercicis, elaborats amb l'ajuda d'IA, eren intuïtius i pràctics. El meu objectiu era submergir-los a treballar directament amb dades i codi. Van apreciar especialment l'oportunitat d'explorar manualment què solen automatitzar les plataformes de vigilància cibernètica i SIEM, obtenint informació sobre els processos que tenen lloc "sota el capó".
El meu punt clau de la classe va ser sorprenentment contraintuïtiu: la ciència de dades, tal com la coneixem, finalment serà substituïda per la IA . Aquesta visió pot semblar prematura, o potser avançada al seu temps, però és una perspectiva que mereix una discussió.
Avís: alguns d'això poden provocar persones.
Durant més d'una dècada, la ciència de dades ha estat celebrada com la "feina més sexy del segle XXI". No obstant això, a mesura que la IA avança ràpidament, és evident que els reptes subjacents del camp són més difícils de passar per alt. L'arribada d'una potent IA generativa podria ser el punt d'inflexió per a una disciplina que, en retrospectiva, podria haver estat definida i exagerada de manera més fluixa del que es va reconèixer inicialment.
En la seva essència, la ciència de dades combina la informàtica, l'estadística i la perspicacia empresarial, oferint a les organitzacions la promesa d'una informació útil a partir de grans quantitats de dades. Aquest conjunt d'habilitats és innegablement valuós en el món actual basat en dades. Tanmateix, sota la seva imatge polida, el camp s'enfronta a problemes importants. El que sovint s'etiqueta com a ciència de dades sovint resulta ser un mosaic de tasques poc relacionades que no sempre s'alineen perfectament, i molts professionals del camp lluiten amb tota l'amplitud i la complexitat que exigeix la disciplina.
L'auge d'eines impulsades per IA capaces de gestionar l'anàlisi de dades, el modelatge i la generació d'informació podria forçar un canvi en la manera com veiem el paper i el futur de la ciència de dades en si. A mesura que la intel·ligència artificial continua simplificant i automatitzant moltes de les tasques fonamentals de la ciència de dades, el camp pot s'enfronta a un compte sobre el que realment significa ser un científic de dades a l'era de l'automatització intel·ligent.
Molts científics de dades, tot i tenir habilitats de codificació sofisticades i eines digitals, es dediquen a un treball sorprenentment manual i propens a errors . La preparació, la neteja i l'anàlisi de dades impliquen tasques tedioses, que requereixen temps, repetitives i mecàniques. De fet, una quantitat important de treball de ciència de dades es dedica a la preparació de conjunts de dades, una tasca que sovint sembla més una pesada que l'emocionant ciència impulsada pel descobriment que està pensada. A aquest problema s'afegeix el fet que molts dels que entren al camp són, en el millor dels casos, aficionats. Després d'haver fet uns quants cursos en línia en Python o R, aquests "científics de dades" sovint no estan preparats per als rigors del paper . La ciència de dades no és només codificació. Implica una anàlisi profunda, comprensió contextual i la capacitat de presentar idees a un públic no tècnic. De fet, és més una feina de recerca, que requereix una combinació de creativitat i pensament analític que molts en el camp simplement no posseeixen.
A més, molts científics de dades han desenvolupat un sentit de dret, esperant salaris alts i paquets lucratius només en virtut del seu títol. Aquesta actitud està apagant les empreses, sobretot en sectors on l'eficiència en costos és primordial. He conegut empreses que abans es van afanyar a contractar científics de dades, però que ara s'estan reconsiderant. Per què pagar salaris alts a algú que passa la major part del temps lluitant amb la neteja de dades, quan la IA ho pot fer més ràpid, millor i a una fracció del cost?
A mesura que vaig experimentar personalment escrivint la classe, la IA generativa s'ha convertit en una força poderosa en les mateixes àrees on la ciència de dades és més feble. Tasques com la preparació de dades, la neteja i fins i tot l'anàlisi qualitativa bàsica (activitats que consumeixen gran part del temps d'un científic de dades) ara són fàcilment automatitzades pels sistemes d'IA . El que és pitjor (o millor, depenent d'on estiguis) és que la IA és més ràpida, més precisa i menys propensa a errors humans o fatiga.
Per a molts científics de dades, això pot ser aterridor. Al cap i a la fi, aquestes tasques representen la major part del seu dia a dia. La neteja de dades, per exemple, és notòriament llarga i propensa a errors, però ara la IA ho pot aconseguir amb uns quants clics i una precisió gairebé perfecta. Els científics de dades sovint es queixen d'aquestes tasques gruixudes, però són fonamentals per a les seves funcions. A mesura que milloren els sistemes d'IA, la necessitat que els humans facin aquestes feines disminueix. No és d'estranyar que gran part de les crítiques vocals contra la IA provinguin dels mateixos científics de dades . Veuen l'escriptura a la paret i temen per la seva feina.
Per empitjorar les coses per als científics de dades, el camp no ha fet progressos significatius en els darrers anys. Malgrat el seu augment meteòric de popularitat, la ciència de dades encara està plagada d'ineficiències, errors i falta de claredat sobre què hauria de comportar exactament . Una vegada es creia que eines més sofisticades i una millor formació farien evolucionar el camp, però això no s'ha materialitzat en la mesura esperada. En canvi, la IA ha millorat constantment. Els algorismes d'aprenentatge automàtic, el processament del llenguatge natural i els models generatius estan evolucionant ràpidament, deixant la ciència de dades tradicional a la pols.
De nou, les altes expectatives salarials dels científics de dades agreugen el problema . Les empreses que abans podrien haver tolerat les ineficiències ara s'adonen que la intel·ligència artificial pot substituir gran part del treball gruixut sense l'alt preu associat al treball humà. Amb l'IA cada cop més habilitat per realitzar tasques clau com l'anàlisi, la previsió i fins i tot la presentació, la naturalesa manual de la ciència de dades és cada cop més redundant. Moltes empreses s'adonaran que el que abans requeria un equip de científics de dades ara es pot gestionar de manera més eficient amb eines impulsades per IA.
La realitat és que la ciència de dades, tal com es defineix tradicionalment, està a la vora de l'obsolescència. Amb la IA generativa avançant a un ritme sorprenent, la demanda de científics de dades humanes en la seva forma actual probablement disminuirà . Això no implica que els humans no tinguin cap paper en la presa de decisions basada en dades, però el paper clàssic de "científic de dades" aviat pot ser un concepte del passat. El que es necessita ara són professionals especialitzats per col·laborar amb IA, aprofitant les seves capacitats alhora que es concentren en el pensament estratègic i la resolució de problemes complexos a un nivell superior.
La IA no és el final de l'anàlisi, els coneixements o la presa de decisions, sinó que representa la seva evolució . El camp actual de la ciència de dades corre el risc de quedar obsolet si no evoluciona al pas. La IA ja està revolucionant les indústries i la ciència de dades s'ha d'adaptar o arriscar-se a ser superada per aquesta onada. En última instància, pot ser que la pregunta no sigui si la IA eliminarà la ciència de dades, sinó si la ciència de dades ha complert les seves promeses.
O potser la distinció ni tan sols importa si finalment ens movem més enllà de l'exageració de la "ciència de les dades" i adoptem la IA com la següent progressió lògica.
Sobre mi: veterà informàtic de més de 25 anys que combina dades, IA, gestió de riscos, estratègia i educació. Guanyador de 4x hackathon i impacte social del defensor de les dades. Actualment treballant per impulsar la força de treball d'IA a les Filipines. Més informació sobre mi aquí: https://docligot.com