Picture me in between algorithms, cups of coffee, and super long debugging sessions.
This story contains new, firsthand information uncovered by the writer.
The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.
Hot off the press! This story contains factual information about a recent event.
在全球 IT 中断之后,今天的事件突然让人们聚焦于我们相互依赖的数字基础设施中的潜在漏洞。航空公司、医疗保健和金融机构等关键服务陷入混乱。这场危机的核心是安全公司 CrowdStrike 为保护 Microsoft Windows 设备而发布的有缺陷的软件更新。因此,这些后果令人震惊地提醒人们,微软使用的强制更新策略及其对技术界少数关键参与者的高度依赖存在风险。
CrowdStrike 更新造成的中断非常严重。美联航、达美航空和美国航空等航空公司在全球范围内停飞航班,导致机场出现大批排队和延误。据报道,悉尼、东京成田机场和德里机场的部分机场的出发屏幕已变为空白,而在欧洲,伦敦斯坦斯特德机场和盖特威克机场以及阿姆斯特丹史基浦机场也出现了严重延误。瑞安航空就第三方中断可能造成的中断发出了警告。
疫情还对医疗行业产生了影响:在英国,全科医生在预约患者时遇到了麻烦。金融和零售行业同样受到冲击——莫里森和 Waitrose 等超市不接受非接触式支付,迫使许多超市重新使用现金支付。澳大利亚国民银行和 Woolworths 等零售连锁店也遭遇了同样的情况。
此次中断是由 CrowdStrike 为 Microsoft Windows 更新提供的内容中的“缺陷”引发的。正如 CrowdStrike 首席执行官 George Kurtz 所说,这不是安全事件或网络攻击,而是一个有缺陷的更新。当确定确实存在问题并且 Crowdstrike 隔离了问题时,损害已经造成。需要通过手动进入安全模式在每台受影响的设备上单独应用修复程序——这对各地的 IT 部门来说都是一个巨大的后勤挑战。
此次事件凸显了微软强制更新的固有危险。虽然更新旨在增强安全性和功能性,但未经适当测试就自动推送更新可能会导致灾难。强制更新剥夺了用户和 IT 管理员控制软件何时以及在何种条件下发生更改的权力,因此增加了出现更大规模问题的可能性。
CrowdStrike 参与此次中断事件揭示了更深层次的问题:集中式系统的脆弱性。CrowdStrike 是一家相对年轻的公司,是许多大型组织网络安全的关键之一。这种快速增长和广泛采用既是对其能力的肯定,也是可能的单点故障。最近的中断事件表明,庞大网络的某个部分出现问题可能会演变成全球危机。
微软在这一局势中扮演的角色同样至关重要。作为操作系统市场的垄断者,其产品的任何故障都会产生深远的影响。无数组织对微软 Windows 的依赖使得其生态系统中哪怕是最微小的破坏都有可能瘫痪众多行业的运营活动。
因此,该事件为软件更新和网络安全的最佳实践提供了许多教训。在发布更新之前,需要更有效的程序来测试更新,这尤其涉及 CrowdStrike 和微软。它可以使用交错部署,首先将更新提供给一小部分用户,然后全面部署。这允许在受控环境中解决最初检测到的任何问题。
微软需要修改其强制更新政策,该政策经常在几乎没有通知或控制的情况下强制执行可能存在缺陷的更新,从而扰乱用户和企业。微软应该启用回滚到以前的版本和分阶段推出的功能,以便在更广泛发布之前在较小的用户子集上测试更新。这反过来又会提供机会比平时更早地发现问题并在造成广泛干扰之前修复它们,从而提高软件的整体稳定性和可靠性。如果这能让用户和 IT 管理员对更新感觉更好,那么这将大大增强用户体验并增强对微软生态系统的信心。
CrowdStrike 的缺陷更新和随后的全球 IT 中断提醒我们,我们的数字基础设施实际上是多么脆弱。它强调了强制更新带来的风险以及集中式系统的漏洞。随着我们越来越依赖数字技术,确保稳固、可靠和透明的网络安全实践从未像现在这样令人生畏。CrowdStrike 和微软公司确实必须从这一事件中吸取教训,并采取主动措施,以防止将来再次发生此类事件。
微软强制更新:对全球 IT 中断的批评 | HackerNoon