我最近开设了一门关于将数据科学用于网络安全的课程,重点是数据包捕获数据的分析——这是一个技术性很强且传统上枯燥的话题。我分享的方法借鉴了我在金融机构网络安全方面的经验,涵盖了探索性数据分析、预处理和转换日志数据以及通过结合聚类和图网络分析识别异常等核心步骤。
一个令人惊讶的方面是我为这次课程所花的时间——只是我通常投入的一小部分。人工智能在简化流程方面发挥了重要作用。我使用 Claude 协助编写代码、制定大纲,甚至制作幻灯片。总的来说,整个课程在 48 小时内就准备好了。
会议非常精彩。参与者主要是通常不编写代码的 CISO,他们发现这些练习在 AI 的帮助下设计而成,直观且动手性强。我的目标是让他们沉浸在直接处理数据和代码的过程中。他们尤其感谢有机会手动探索现代网络威胁监控和 SIEM 平台通常会自动化哪些内容,从而深入了解“幕后”发生的过程。
我从这堂课中学到的关键知识出乎意料地违反直觉:我们所知道的数据科学最终将被人工智能取代。这种观点可能看起来为时过早,或者可能超前,但这是一个值得讨论的观点。
警告:其中一些内容可能会激怒人们。
十多年来,数据科学一直被誉为“21 世纪最性感的职业”。然而,随着人工智能的快速发展,很明显该领域的潜在挑战越来越难以忽视。强大的生成式人工智能的出现很可能成为该学科的转折点,回想起来,该学科的定义可能比最初承认的更为松散和夸大。
从本质上讲,数据科学结合了计算机科学、统计学和商业敏锐度,为组织提供了从大量数据中获取可操作见解的希望。在当今数据驱动的世界中,这种技能无疑具有重要价值。然而,在其光鲜亮丽的形象背后,该领域面临着重大问题。通常被称为数据科学的东西往往是一堆松散相关的任务的拼凑物,这些任务并不总是整齐划一,许多该领域的专业人士都在努力应对该学科所要求的广泛性和复杂性。
能够处理数据分析、建模和洞察生成的人工智能驱动工具的兴起可能会迫使我们改变对数据科学本身的作用和未来的看法。随着人工智能继续简化和自动化数据科学中的许多基础任务,该领域可能会面临一场清算,即在智能自动化时代,成为一名数据科学家的真正意义是什么。
许多数据科学家,尽管掌握了复杂的编码技能和数字工具,但从事的工作却出奇地手动,容易出错。数据准备、清理和分析涉及繁琐、耗时、重复和机械的任务。事实上,大量的数据科学劳动用于准备数据集——这项任务往往让人感觉更像是苦差事,而不是令人兴奋的、以发现为导向的科学。这个问题因许多进入该领域的人充其量只是业余爱好者这一事实而加剧。这些“数据科学家”在参加过一些 Python 或 R 在线课程后,往往没有为这一角色的严苛性做好准备。数据科学不仅仅是编码。它涉及深入分析、上下文理解以及向非技术受众展示见解的能力。事实上,它更像是一项研究工作,需要创造力和分析思维的结合,而许多业内人士根本不具备这些素质。
此外,许多数据科学家已经形成了一种权利意识,仅凭他们的头衔就期望获得高薪和丰厚的待遇。这种态度正在让公司望而却步,尤其是在那些成本效率至关重要的行业。我遇到过一些公司,它们曾经急于聘请数据科学家,但现在正在重新考虑。既然人工智能可以更快、更好地完成数据清理工作,而且成本只是其中的一小部分,为什么要给那些大部分时间都在处理数据清理的人支付高薪呢?
正如我亲自编写课程时所体验到的,生成式人工智能已经发展成为数据科学最薄弱领域的一股强大力量。数据准备、清理甚至基本的定性分析等任务(这些任务占用了数据科学家大量的时间)现在都可以通过人工智能系统轻松实现自动化。更糟糕的是(或者更好,取决于你的立场),人工智能更快、更准确,而且更不容易出现人为错误或疲劳。
对于许多数据科学家来说,这可能令人感到恐惧。毕竟,这些任务代表了他们日常工作的大部分。例如,众所周知,数据清理非常耗时且容易出错,但现在人工智能只需点击几下鼠标就能以近乎完美的精度完成它。数据科学家经常抱怨这些繁琐的任务,但它们对他们的职责至关重要。随着人工智能系统的改进,人类做这些工作的需求逐渐减少。毫不奇怪,许多针对人工智能的批评来自数据科学家自己。他们看到了危险的迹象,担心自己的工作会受到影响。
对于数据科学家来说,更糟糕的是,该领域近年来没有取得重大进展。尽管数据科学人气飙升,但它仍然受到效率低下、错误和缺乏明确内容的困扰。人们曾经认为,更复杂的工具和更好的培训将推动该领域的发展,但这并没有达到预期的程度。相比之下,人工智能一直在稳步发展。机器学习算法、自然语言处理和生成模型正在迅速发展,让传统数据科学黯然失色。
数据科学家的高薪期望再次加剧了这一问题。曾经容忍低效率的公司现在意识到,人工智能可以取代大量繁重的工作,而无需付出与人力相当的高昂代价。随着人工智能越来越擅长执行分析、预测甚至演示等关键任务,数据科学的手动性质变得越来越多余。许多公司将意识到,过去需要数据科学家团队才能完成的工作,现在可以由人工智能工具更有效地处理。
现实情况是,传统意义上的数据科学正濒临过时。随着生成式人工智能以惊人的速度发展,对人类数据科学家的需求可能会下降。这并不意味着人类在数据驱动的决策中没有任何作用,但经典的“数据科学家”角色可能很快就会成为过去的概念。现在需要的是能够与人工智能合作的专业人士,利用其能力,同时专注于更高层次的战略思维和复杂问题解决。
人工智能并不是分析、洞察或决策的终结——它代表着这些领域的进化。如果数据科学领域不能与时俱进,它就有被淘汰的风险。人工智能已经彻底改变了各个行业,数据科学必须适应,否则就有被这股浪潮取代的风险。最终,问题可能不是人工智能是否会取代数据科学,而是数据科学是否能够完全兑现其承诺。
或者,如果我们最终超越“数据科学”的炒作并接受人工智能作为下一个合乎逻辑的进展,那么这种区别甚至并不重要。
关于我:25 年 IT 资深人士,集数据、AI、风险管理、战略和教育于一体。4 次黑客马拉松冠军,数据倡导者的社会影响力。目前致力于启动菲律宾的 AI 劳动力。在此处了解有关我的更多信息:https: //docligot.com