当我年轻的时候,我参加了几次攀岩和登山探险。我接触过一些非常重视在山上保持安全的教练和练习者。其中一个人带着一本来自美国高山俱乐部的关于攀登事故的书。事故从来都不是一个错误选择的原因。它们是由一系列决定引起的,随着时间的推移,这些决定共同为事故创造了条件。
在我的记忆中,坐在很可能是其中一个故事场景的岩壁旁边的是,在某些情况下,我们可能会做出相同的选择之一。考虑到一天中不同的时间、不同的天气或不同的攀登伙伴,相同的选择可能有不同程度的风险。阅读和讨论这些故事使我成为一个更有意识的冒险家和一个更安全的登山者。
对导致事故的一系列决策和事件的公开分析和讨论有助于初学者积累经验,专家增长智慧并培养安全文化。其他行业和亚文化,都有自己的方式从事故中学习。例如:美国军方有事后审查,医学有事故审查委员会,航空有 NTSB 事故审查。
我已经阅读了超标量云托管服务提供商中断的根本原因分析报告。通常,它们读起来就像死去很久的动物的石膏脚印,法律和营销部门对生活中的任何元素进行消毒和擦洗,或从中学习。它们是事故调查和报告的货物文化。所有的动作和做作都没有实质内容。
软件中流行的错误文化似乎是“如果你只是”。错误归咎于缺乏知识。如果操作员“刚刚”知道配置更改的影响,如果开发人员“刚刚”了解他们的代码更改的交互。这是一种专业知识的文化。它基于未经审查的信念,即错误仅因缺乏知识或缺乏护理而存在。或者采取他们进攻性的极端:愚蠢和懒惰。
在软件行业,错误或中断通常不会导致伤害或死亡。然而,随着社会越来越依赖于我们正在构建的软件系统,问题的严重性和影响只会越来越大。随着我们的软件系统的复杂性和我们编写软件要解决的问题的范围不断增长,我们作为一个社会必须努力改变这种文化。
作为改变这种文化的道路上的一步,我正在谈论我所看到或参与的失败。我的目标是让其他人更容易分享他们失败的地方。这将创建一个反馈循环,让我们学得更快。
和我一起分享失败的故事。这是关于失败的讨论,以及我和 Cyclic 团队的一些相关帖子:
我们很想听听你的故事。
写点东西。
公开发布。
让我们知道。
我们得到了你的支持:)
也在这里发布。上面的特色图片由 HackerNoon Stable Diffusion 生成。