挑战:可靠性是 Shopify 对其 30 万多名日常用户的首要任务。由于无法衡量错误的影响,Shopify 工程师对用户体验的了解有限,而且通常情况下,客户会在发现错误之前就问题与他们联系。
结果:使用 Bugsnag,Shopify 工程师可以更快地发现错误,可以更轻松地复制错误,并且可以主动查看代码的效果。趋势分析可帮助工程师了解错误的常见原因并减轻未来的问题。
在错误监控之前,确保 Shopify 全球客户群的可靠性是一项繁琐、耗时且效率低下的工作。
Shopify 为全球超过 377,500 家在线商店和零售销售点系统开发电子商务软件。对于 Shopify 的工程团队来说,首要任务是为全球每个客户保持可靠性。
然而,对于 Shopify 的软件工程师来说,这个过程过去非常耗时且乏味。
“故障排除过去既缓慢又令人不愉快,需要我们投入大量时间挖掘日志并将来自多个来源的信息拼凑在一起,”Shopify CI 基础设施团队的高级开发人员 Blake Mesdag 说。
趋势分析是减少潜在异常的另一种好方法,但在实施错误监控之前,很难随着时间的推移构建错误的完整图景。
如果没有尖峰通知(指示错误发生率突然增加的警报),错误会升级并影响客户,要求他们联系 Shopify 以便修复这些错误。
很快就很明显,必须为 Shopify 的所有开发流程实施更主动的错误解决方法。
“如果没有错误监控,你就是在盲目飞行——如果你看不到自己在做什么是对的,什么是错的,那几乎毫无意义,你也无法做出任何明智的决定,”Mesdag 说。
在考虑了几个选项之后,Shopify 选择了 Bugsnag 来自动监控他们整个技术堆栈的错误。 Shopify 的 20-30 个团队的开发人员现在可以主动查看代码的效果,并在错误影响商家之前识别和排除错误。
“总的来说,Bugsnag 帮助我对发布的代码更有信心,这反过来又帮助我更快地发布”
— 高级开发人员 Blake Mesdag
在 Bugsnag 之前,Shopify 软件工程师无法主动查看发生了什么错误,必须等待客户解决问题。然后他们将不得不挖掘日志以找到异常 ID,然后使用它在异常跟踪器中找到它。
“Bugsnag 将所有这些信息集中在一个地方,并准确地告诉我们是什么导致了错误,”Mesdag 说。 “Bugsnag 涉及的搜索要少得多,而且排除错误的整个过程要愉快得多。”
借助 Bugsnag,Shopify 开发人员还可以分析异常情况的趋势。这有助于他们了解导致故障的常见因素,以便他们可以在未来采取积极主动的方法来减少这些因素。
趋势分析对于基础架构团队来说非常强大,可以诊断特定机器是否比其他机器导致更多问题。此外,通过尖峰通知,可以更轻松地查明迅速升级的错误、确定它们的优先级并更快地修复它们。