Наскоро проведох клас за използване на науката за данните за киберсигурността, като се фокусирах върху анализа на данни за улавяне на пакети - донякъде техническа и традиционно суха тема. Подходът, който споделих, черпи от моя опит в киберсигурността във финансовите институции, обхващайки основни стъпки като проучвателен анализ на данни, предварителна обработка и трансформиране на регистрационни данни и идентифициране на аномалии чрез комбинация от клъстериране и анализ на графична мрежа.
Един изненадващ аспект беше времето, което прекарах в подготовка за тази сесия – малка част от това, което обикновено инвестирах. AI изигра значителна роля в рационализирането на процеса. Използвах Клод за помощ при кодирането, разработването на контура и дори създаването на слайдове. Като цяло целият курс беше готов в рамките на 48 часа.
Сесията се оказа увлекателна. Участниците, предимно CISO, които обикновено не кодират, намериха упражненията, изработени с помощта на AI, за интуитивни и практически. Целта ми беше да ги потопя в работата директно с данни и код. Те особено оцениха шанса да проучат ръчно какво съвременното наблюдение на киберзаплахите и SIEM платформите обикновено автоматизират, като придобият представа за процесите, случващи се „под капака“.
Ключовият ми извод от класа беше изненадващо контраинтуитивен: науката за данните, каквато я познаваме, в крайна сметка ще бъде заменена от ИИ . Тази гледна точка може да изглежда преждевременна или може би изпреварила времето си, но това е перспектива, която заслужава дискусия.
Предупреждение: част от това може да предизвика хората.
Повече от десетилетие науката за данните се слави като „най-сексапилната работа на 21-ви век“. И все пак, тъй като AI бързо напредва, става ясно, че основните предизвикателства в областта са по-трудни за пренебрегване. Появата на мощен генеративен AI може да бъде повратната точка за една дисциплина, която в ретроспекция може да е била по-свободно дефинирана и прекалено рекламирана, отколкото първоначално се признаваше.
По своята същност науката за данните съчетава компютърни науки, статистика и бизнес проницателност, предлагайки на организациите обещание за действени прозрения от огромни количества данни. Този набор от умения е безспорно ценен в днешния свят, управляван от данни. Въпреки това, под излъскания си имидж, полето е изправено пред значителни проблеми. Това, което често е етикетирано като наука за данни, често се оказва смесица от слабо свързани задачи, които не винаги се подреждат добре и много професионалисти в областта се борят с пълната широчина и сложност, които дисциплината изисква.
Възходът на инструменти, управлявани от AI, способни да обработват анализ на данни, моделиране и генериране на прозрения, може да наложи промяна в начина, по който виждаме ролята и бъдещето на самата наука за данни. Тъй като AI продължава да опростява и автоматизира много от основополагащите задачи в рамките на науката за данни, областта може да се изправи пред сметка какво наистина означава да си учен по данни в ерата на интелигентната автоматизация.
Много учени по данни, въпреки че притежават сложни умения за кодиране и цифрови инструменти, се занимават с работа, която е изненадващо ръчна и склонна към грешки . Подготовката, почистването и анализът на данни включват досадни, отнемащи време задачи, които са повтарящи се и механични. Всъщност значително количество труд в областта на науката за данни отива в подготовката на набори от данни – задача, която често се чувства по-скоро като тежка работа, отколкото като вълнуваща, ориентирана към открития наука, за която се представя. Този проблем се усложнява от факта, че мнозина, които влизат в полето, са в най-добрия случай аматьори. След като са преминали няколко онлайн курса по Python или R, тези „учени по данни“ често са неподготвени за тежестта на ролята . Науката за данни не е просто кодиране. Това включва задълбочен анализ, контекстуално разбиране и способност за представяне на прозрения на нетехнически аудитории. Всъщност това е по-скоро изследователска работа, изискваща комбинация от креативност и аналитично мислене, които мнозина в областта просто не притежават.
Освен това, много учени по данни са развили чувство за право, очаквайки високи заплати и доходоносни пакети само по силата на титлата си. Това отношение отблъсква компаниите, особено в сектори, където ефективността на разходите е от първостепенно значение. Срещал съм фирми, които някога са се втурнали да наемат специалисти по данни, но сега преосмислят. Защо да плащате високи заплати на някой, който прекарва по-голямата част от времето си в борба с почистването на данни, когато AI може да го направи по-бързо, по-добре и на малка част от цената?
Докато аз лично преживях писането на класа, Generative AI се превърна в мощна сила точно в областите, където науката за данните е най-слаба. Задачи като подготовка на данни, почистване и дори основен качествен анализ – дейности, които отнемат голяма част от времето на специалиста по данни – вече са лесно автоматизирани от системите с изкуствен интелект . По-лошото (или по-добро, в зависимост от това къде се намирате) е, че AI е по-бърз, по-точен и по-малко податлив на човешка грешка или умора.
За много специалисти по данни това може да бъде ужасяващо. В крайна сметка тези задачи представляват по-голямата част от ежедневната им работа. Почистването на данни, например, е известно, че отнема много време и е склонно към грешки, но AI вече може да го постигне с няколко кликвания и почти перфектна прецизност. Изследователите на данни често се оплакват от тези груби задачи, но те са фундаментални за техните роли. Тъй като системите за изкуствен интелект се подобряват, необходимостта хората да вършат тези задачи намалява. Не е изненадващо, че голяма част от гласните критики срещу ИИ идват от самите специалисти по данни . Те виждат надписите на стената и се страхуват за работата си.
За да влошат нещата за учените по данни, областта не е постигнала значителен напредък през последните години. Въпреки метеоритния си ръст на популярност, науката за данни все още е измъчвана от неефективност, грешки и липса на яснота какво точно трябва да включва . Някога се смяташе, че по-сложните инструменти и по-доброто обучение ще развият полето, но това не се материализира в очакваната степен. За разлика от това, AI непрекъснато се подобрява. Алгоритмите за машинно обучение, обработката на естествен език и генеративните модели се развиват бързо, оставяйки традиционната наука за данни в прахта.
Отново високите очаквания за заплати на специалистите по данни усложняват проблема . Компаниите, които може би някога са толерирали неефективността, сега осъзнават, че ИИ може да замени голяма част от грубата работа без високата цена, свързана с човешкия труд. С AI, който става все по-умел в изпълнението на ключови задачи като анализ, прогнозиране и дори представяне, ръчният характер на науката за данни става все по-излишен. Много компании ще разберат, че това, което преди изискваше екип от специалисти по данни, сега може да се обработва по-ефективно от инструменти, базирани на AI.
Реалността е, че науката за данните, както е традиционно дефинирана, е на ръба на остаряването. Тъй като генеративният AI напредва с удивителна скорост, търсенето на учени за човешки данни в сегашната им форма вероятно ще намалее . Това не означава, че хората нямат роля при вземането на решения, базирани на данни, но класическата роля на „учен по данни“ скоро може да бъде концепция от миналото. Това, което е необходимо сега, са професионалисти, умели да си сътрудничат с AI, да използват неговите възможности, като същевременно се концентрират върху стратегическото мислене и решаването на сложни проблеми на по-високо ниво.
AI не е краят на анализите, прозренията или вземането на решения – той представлява тяхната еволюция . Настоящото поле на науката за данни рискува да остарее, ако не се развива в крачка. AI вече революционизира индустриите и науката за данни трябва да се адаптира или рискува да бъде завладяна от тази вълна. В крайна сметка въпросът може да не е дали AI ще елиминира науката за данни, а дали науката за данните някога е изпълнила напълно своите обещания.
Или може би разграничението дори няма значение, ако най-накрая преминем отвъд рекламата на „науката за данни“ и прегърнем ИИ като следващата логична прогресия.
За мен: 25+ годишен IT ветеран, комбиниращ данни, AI, управление на риска, стратегия и образование. 4 пъти победител в хакатон и социално въздействие от защитника на данните. Понастоящем работим за стартиране на работната сила с ИИ във Филипините. Научете повече за мен тук: https://docligot.com