在过去的几年里,我与大企业内部的数据团队合作,我遇到了很多数据领导者,他们告诉我他们已经尝试过,但没有“做DataOps”。 模式通常是相同的. 他们编写标准,添加一些测试,并建立可观察性工具. 流程得到记录。 然后剩余时间堆积起来,例外加倍,团队必须用记忆和长时间保持这一切。 DataOps是一个很好的哲学,但哲学本身并不能扩展你的团队的工作。 DataOps为数据提供了一个大胆的新操作模型 DataOps建立在一个简单的前提之上:将数据视为产品,数据交付就像软件交付。 在实践中,DataOps直接从软件团队学到的内容中获取: 自动构建和部署,而不是手动发布 测试是默认的,不是英雄的努力 可观察性在生产中,而不是死后考古学 控制器在交付中煮熟,在事实发生后不打 组织陷入困境的地方是随着系统的增长和变化而保持过程的运行。 在实践中DataOps破坏的地方 大多数与DataOps斗争的组织都失败了,因为他们将其原则视为数据团队坚持的理想最佳做法。 一些常见的模式出现: 没有执法的标准 团队同意命名公约、文件要求和发布程序 - 直到截止日期到来。 没有覆盖的测试. 少数关键管道接受测试. 其他人得到“我们会回来。 仪表板存在,警告火灾,但没有足够的能力来监控和响应它们,所以团队仍然听到来自愤怒的下游用户的失败。 政策是写的,但执法取决于人们记得运用它们。 数据团队比以往任何时候都更努力工作,但手动流程增加了工作量,随着管道、团队和依赖程度的增长,保持这一努力变得更加困难。 自动化强化数据Ops纪律 当人们听到“自动化”时,他们通常会想象产生文档的任务、支架管道的助手或创建门票的宏。 操作自动化通过建立可靠地构建、测试、部署、观察和管理数据交付的系统来改变这个方程式。 DataOps 自动化是一组使纪律可执行的功能。 在实践中,它看起来像这样: 1)数据产品交付作为一流工作流 不是将管道视为一次性项目,而是将其包装为可持续的、可重复使用的交付物 - 通过环境进行版本化、文档化、拥有和推广。 2)自动变更数据的CI/CD 方案更新、转型逻辑、依赖性更新和基础设施更改通过一致的发布路径进行,每次都没有重新发明。 3)与行动相关的持续观察性 不仅仅是“我们可以看到它吗?”但“我们是否立即知道它是什么时候发生变化,我们是否有阻止不良数据发送的门户?” (四)在运行时执行治理 政策变成控制:质量门户,政策门户,审计路径和合规性检查每天自动运行。 自动化如何改变数据团队的工作 对自动化的愤世嫉俗的看法是,它把人类当成瓶颈,而这个框架却错过了这一点。 在大多数数据机构中,真正的瓶颈在于,有才华的人正在花费宝贵的时间在无技能的工作上:重返,打火,填补,手动验证,发布协调,政策检查清单。 当这些任务自动化时,数据团队可以花更多的时间在实际移动业务的工作上,例如设计数据产品,模型业务,提高可靠性和减少复杂性。 DataOps始终是关于操作的 - 所以运作它 从一开始,DataOps旨在为数据交付带来纪律,可重复性和信任 - 不是作为一个完美的世界理论,而是作为一个运行的现实。 自动化将DataOps从一组原则转变为系统每天施加的定义流程,确保标准能承受压力,治理能跟上变化,信任可以被衡量,而不是希望。 当团队依赖您的数据来构建和运行人工智能时,对于数据的行为没有任何模糊的余地。 这一直是DataOps的承诺,自动化是使其成为现实的关键。 此文章发表在 HackerNoon 的商业博客计划中。 此文章发表在 HackerNoon 的商业博客计划中。 这个故事发表在HackerNoon的 . 商业博客计划 商业博客计划 商业博客计划