作者: Keith Belanger 作者: Keith Belanger 对数据量、速度、质量和治理的期望几乎一夜之间飙升,给分析数据时代设计的数据工作流带来了巨大的压力。 第二个中断正在更安静地发生.随着团队的工作 在企业规模上,人工智能在自动执行DataOps标准和控制方面发挥着越来越重要的作用。 提供 AI-ready 数据 提供 AI-ready 数据 当规模超越人类的注意力 传统上,数据的可靠性取决于有人注意到某些事情发生了:警报响起,仪表板看起来不对,或下游团队标志一个问题。 我已经看到这种方法在系统小,变化缓慢时起作用,但面对增长,它非常脆弱. 随着组织要求数据团队监督不断变化的系统,立即反应,并保持一致,人类的警惕不再是解决方案,而且开始成为责任。 当你达到企业规模时,管道不会一次又一次失败,小变化会发生变化,依赖性会加剧,而当有人注意到问题时,影响往往已经蔓延。 这正是DataOps设计的目的:可扩展的可靠性来自系统和流程,而不是个人英雄主义。 移动到上游 自从第一个AI模型出现以来,数据团队已经将人工智能视为管道的终端的数据消费者。 但是我们现在已经进入了人工智能时代,同样的技术对大量、高速、高度受管制的数据的压力日益增加,现在可以帮助构建和运营提供这些数据的系统。 人工智能可以以几种不同的方式支持数据操作,它可以帮助保持文档同步,随着管道的演变,它可以根据过去系统的失败或倾斜的方式提出测试,它可以表面化解人类会错过或太晚注意到的异常,并且可以持续评估质量,线路和治理的准备信号,而不仅仅是在审查期间。 这不是取代工程师的问题。 自动化的每一次浪潮都会让人们害怕他们的工作将被优化。 在 ,这种框架错过了数据系统中实际破坏的东西,它假定人们可以手动执行标准,验证每个变化,并记住每个依赖性,但实际上,他们不能 - 不是在企业AI的规模。 数据工程 数据工程 人工智能很适合承担人们所面临的艰难的分析任务,包括扫描模式,检查一致性,并不断应用规则。 当组织自动化任务时,最初不应该是人的工作,数据专家获得了做他们独特擅长的事情的自由:设计数据产品,衡量交易,并随着时间的推移改进系统。 AI在治理中的位置 人工智能治理对话倾向于专注于模型部署后发生的事情,但失败通常起源于上游,在最终为人工智能提供不良数据的数据系统中。 人工智能辅助的DataOps可以更早地检测问题,并在第一时间阻止坏数据进入生产。 某些问题应该始终作为数据交付的门户: 这种变化应该部署吗? 数据产品是否与过去的行为相比较? 这种管道是否仍然符合政策和质量期望? 随着AI,团队可以停止依赖定期审查或后期审计,并开始系统化。 . 治理检查 治理检查 在实践中使用AI增强的DataOps模型 人工智能增强的DataOps模型看起来不像是一个完全自主的系统。 构建在操作模式中。 支持 支持 人类定义了意图、标准和可接受的风险,自动化强化了一致性和可重复性,人工智能增加了分析、建议和早期预警,帮助团队更早地看到问题,并更清楚地推理问题。 人工智能通过减少盲点来提高信任,同时保持责任。 当AI参与运行数据操作时,会发生几个转变: 问题被抓得更早,当他们更便宜地修复。 评论更注重意图和影响,而不是机械检查。 文档更接近现实。 团队花费更少的时间来反应,更多的时间来改进。 目标是能够以可预测的速度提供AI准备数据的数据系统,即使随着变化和需求的加速。 重新思考AI在数据工程中的作用 数据工程的未来将取决于其数据操作的可靠性。 这意味着将人工智能视为在数据生命周期中执行纪律、一致性和信任的参与者。 data products 数据产品 这一时刻要求承认人工智能不仅仅是下游人工智能的消费者,它应该作为在操作工作中的合作伙伴,使数据首先做好人工智能准备。 现在是时候将人工智能带入数据运营,作为一个可以执行纪律、提前执行表面风险的合作伙伴,并在规模上保持系统的可靠性。