652 讀數

调试：错误的本质、它们的演变以及更有效地解决它们

经过 Shai Almog18m2023/09/12

太長; 讀書

揭开软件开发中调试的秘密。深入研究状态错误、线程问题、竞争条件和性能陷阱。

featured image - 调试：错误的本质、它们的演变以及更有效地解决它们

无论在哪个时代，编程都充满了本质上各不相同的错误，但其基本问题通常保持一致。无论我们谈论的是移动、桌面、服务器还是不同的操作系统和语言，错误始终是一个持续的挑战。下面深入探讨这些错误的本质以及我们如何有效地解决它们。

作为旁注，如果您喜欢本篇文章以及本系列中的其他文章的内容，请查看我的调试书涵盖了这个主题。如果你有正在学习编码的朋友，我会很感激地参考我的Java基础知识书籍。如果你想在一段时间后回到 Java，请查看我的Java 8 到 21 书。

内存管理：过去和现在

内存管理由于其复杂性和细微差别，一直给开发人员带来独特的挑战。尤其是调试内存问题，在过去的几十年里发生了很大的变化。下面深入探讨内存相关错误的世界以及调试策略的演变过程。

经典挑战：内存泄漏和损坏

在手动内存管理时代，应用程序崩溃或速度变慢的主要原因之一是可怕的内存泄漏。当程序消耗内存但无法将其释放回系统时，就会发生这种情况，最终导致资源耗尽。

调试此类泄漏非常繁琐。开发人员会倾注代码，寻找没有相应释放的分配。人们经常使用 Valgrind 或 Purify 等工具，它们可以跟踪内存分配并突出显示潜在的泄漏。他们提供了宝贵的见解，但也带来了自己的性能开销。

内存损坏是另一个臭名昭著的问题。当程序在分配的内存边界之外写入数据时，它会破坏其他数据结构，从而导致不可预测的程序行为。调试它需要了解应用程序的整个流程并检查每个内存访问。

进入垃圾收集：喜忧参半

语言中垃圾收集器 (GC) 的引入带来了其自身的一系列挑战和优势。好的一面是，许多手动错误现在可以自动处理。系统会清理未使用的对象，从而大大减少内存泄漏。

然而，出现了新的调试挑战。例如，在某些情况下，对象仍保留在内存中，因为无意的引用阻止 GC 将它们识别为垃圾。检测这些无意的引用成为内存泄漏调试的一种新形式。 Java 的 VisualVM或 .NET 的内存分析器等工具的出现可以帮助开发人员可视化对象引用并追踪这些隐藏的引用。

内存分析：当代解决方案

如今，调试内存问题最有效的方法之一是内存分析。这些分析器提供应用程序内存消耗的整体视图。开发人员可以查看程序的哪些部分消耗了最多的内存，跟踪分配和释放率，甚至检测内存泄漏。

一些分析器还可以检测潜在的并发问题，这使得它们在多线程应用程序中非常有价值。它们有助于弥合过去的手动内存管理与自动化、并发的未来之间的差距。

并发：一把双刃剑

并发是让软件在重叠的时间段内执行多个任务的艺术，它改变了程序的设计和执行方式。然而，尽管并发性带来了诸多好处，例如提高性能和资源利用率，但它也带来了独特且通常具有挑战性的调试障碍。让我们在调试环境中更深入地研究并发的双重本质。

好的一面：可预测的线程

具有内置内存管理系统的托管语言为并发编程带来了福音。 Java 或 C# 等语言使线程变得更加平易近人且可预测，特别是对于需要同时执行任务但不一定需要高频上下文切换的应用程序。这些语言提供内置的保护措施和结构，帮助开发人员避免以前困扰多线程应用程序的许多陷阱。

此外，工具和范例（例如 JavaScript 中的 Promise）已经抽象化了管理并发的大部分手动开销。这些工具可确保更顺畅的数据流、处理回调并帮助更好地构建异步代码，从而减少潜在错误的发生。

浑水：多容器并发

然而，随着技术的进步，情况变得更加复杂。现在，我们不仅仅关注单个应用程序中的线程。现代架构通常涉及多个并发容器、微服务或功能，尤其是在云环境中，所有这些都可能访问共享资源。

当多个并发实体（可能在单独的计算机甚至数据中心上运行）尝试操作共享数据时，调试复杂性会增加。这些场景产生的问题比传统的本地化线程问题更具挑战性。跟踪错误可能涉及遍历多个系统的日志、了解服务间通信以及辨别分布式组件之间的操作顺序。

重现难以捉摸的问题：线程错误

与线程相关的问题被誉为最难解决的问题之一。主要原因之一是它们通常具有不确定性。多线程应用程序可能在大多数情况下运行顺利，但偶尔会在特定条件下产生错误，这可能非常难以重现。

识别此类难以捉摸的问题的一种方法是在可能有问题的代码块中记录当前线程和/或堆栈。通过观察日志，开发人员可以发现暗示并发违规的模式或异常。此外，为线程创建“标记”或标签的工具可以帮助可视化跨线程的操作顺序，使异常现象更加明显。

死锁（两个或多个线程无限期地等待彼此释放资源）虽然很棘手，但一旦识别出来，调试起来会更直接。现代调试器可以突出显示哪些线程被卡住、等待哪些资源以及哪些其他线程正在占用它们。

相比之下，活锁带来了更具欺骗性的问题。活锁中涉及的线程在技术上是可操作的，但它们陷入了动作循环，导致它们实际上效率低下。对此进行调试需要仔细观察，通常要逐步检查每个线程的操作，以发现潜在的循环或重复的资源争用而没有进展。

竞赛条件：永远存在的幽灵

最臭名昭著的并发相关错误之一是竞争条件。当软件的行为由于事件的相对时间而变得不稳定时，就会发生这种情况，例如两个线程试图修改同一条数据。调试竞争条件涉及范式转变：不应将其仅仅视为线程问题，而应将其视为状态问题。一些有效的策略涉及字段观察点，当访问或修改特定字段时会触发警报，从而使开发人员能够监控意外或过早的数据更改。

状态错误的普遍性

软件的核心是表示和操作数据。这些数据可以代表从用户偏好和当前上下文到更短暂的状态（例如下载进度）的所有内容。软件的正确性在很大程度上依赖于准确且可预测地管理这些状态。由于对数据的管理或理解不正确而引起的状态错误是开发人员面临的最常见和最危险的问题之一。让我们更深入地研究状态错误领域并了解它们为何如此普遍。

什么是状态错误？

当软件进入意外状态时，状态错误就会出现，从而导致故障。这可能意味着一个视频播放器认为它在暂停时正在播放，一个在线购物车在添加物品时认为它是空的，或者一个安全系统在没有武装时假设它已武装。

从简单变量到复杂数据结构

状态错误如此普遍的原因之一是所涉及的数据结构的广度和深度。这不仅仅是简单的变量。软件系统管理大量复杂的数据结构，如列表、树或图形。这些结构可以相互作用，影响彼此的状态。一个结构中的错误或两个结构之间的错误解释的相互作用可能会导致状态不一致。

互动和事件：时机很重要

软件很少单独运行。它响应用户输入、系统事件、网络消息等。这些交互中的每一个都可以改变系统的状态。当多个事件紧密地同时发生或以意外的顺序发生时，可能会导致不可预见的状态转换。

考虑一个处理用户请求的 Web 应用程序。如果两个修改用户配置文件的请求几乎同时发出，则最终状态可能在很大程度上取决于这些请求的精确排序和处理时间，从而导致潜在的状态错误。

持久性：当错误徘徊时

状态并不总是暂时驻留在内存中。其中大部分内容都会持久存储在数据库、文件或云存储中。当错误进入这种持续状态时，纠正起来就特别具有挑战性。它们会徘徊不去，导致重复出现问题，直到被发现并得到解决。

例如，如果软件错误在数据库中错误地将电子商务产品标记为“缺货”，则它将始终向所有用户显示该错误状态，直到错误状态得到修复，即使导致错误的错误已被修复。解决。

并发性加剧了状态问题

随着软件变得更加并发，管理状态变得更加复杂。并发进程或线程可能会尝试同时读取或修改共享状态。如果没有锁或信号量等适当的保护措施，这可能会导致竞争条件，其中最终状态取决于这些操作的精确时间。

对抗状态错误的工具和策略

为了解决状态错误，开发人员拥有一系列工具和策略：

单元测试：这些确保各个组件按预期处理状态转换。
状态机图：可视化潜在的状态和转换可以帮助识别有问题或丢失的转换。
日志记录和监控：实时密切关注状态变化可以深入了解意外的转换或状态。
数据库约束：使用数据库级检查和约束可以作为防止不正确持久状态的最后一道防线。

例外：吵闹的邻居

在软件调试的迷宫中航行时，很少有事情比异常更引人注目。在很多方面，他们就像安静社区中吵闹的邻居：不可能被忽视，而且常常具有破坏性。但正如了解邻居喧闹行为背后的原因可以带来和平解决一样，深入研究异常情况也可以为更流畅的软件体验铺平道路。

什么是例外？

从本质上讲，异常是程序正常流程的中断。当软件遇到它没有预料到或不知道如何处理的情况时，就会发生这种情况。示例包括尝试除以零、访问空引用或无法打开不存在的文件。

异常的信息性质

与可能导致软件在没有任何明显指示的情况下产生错误结果的无声错误不同，异常通常是响亮且信息丰富的。它们通常带有堆栈跟踪，可以精确定位代码中出现问题的确切位置。该堆栈跟踪充当地图，直接引导开发人员到达问题的中心。

异常原因

发生异常的原因有多种，但一些常见的原因包括：

输入错误：软件经常对其将收到的输入类型做出假设。当违反这些假设时，可能会出现异常。例如，如果程序需要“MM/DD/YYYY”格式的日期，则如果给定“DD/MM/YYYY”，则可能会引发异常。
资源限制：如果软件在没有可用内存时尝试分配内存或打开的文件数量超出系统允许的数量，则可能会触发异常。
外部系统故障：当软件依赖于外部系统（例如数据库或 Web 服务）时，这些系统中的故障可能会导致异常。这可能是由于网络问题、服务停机或外部系统的意外变化造成的。
编程错误：这些是代码中的直接错误。例如，尝试访问列表末尾之外的元素或忘记初始化变量。

处理异常：微妙的平衡

虽然将每个操作包装在 try-catch 块中并抑制异常很诱人，但这种策略可能会导致未来出现更严重的问题。沉默的异常可以隐藏潜在的问题，这些问题以后可能会以更严重的方式显现出来。

最佳实践推荐：

优雅降级：如果非必要功能遇到异常，允许主要功能继续工作，同时可能禁用受影响的功能或为受影响的功能提供替代功能。
信息报告：不是向最终用户显示技术堆栈跟踪，而是提供友好的错误消息，告知他们问题以及潜在的解决方案或变通方法。
日志记录：即使异常处理得当，也必须将其记录下来以供开发人员稍后查看。这些日志对于识别模式、了解根本原因和改进软件非常有价值。
重试机制：对于暂时性问题（例如短暂的网络故障），实施重试机制可能会很有效。然而，区分瞬时错误和持久错误至关重要，以避免无休止的重试。

积极预防

与软件中的大多数问题一样，预防往往胜于治疗。静态代码分析工具、严格的测试实践和代码审查可以帮助在软件到达最终用户之前识别和纠正异常的潜在原因。

缺陷：超越表面

当软件系统出现故障或产生意外结果时，“故障”一词经常出现。在软件环境中，故障是指导致可观察到的故障（称为错误）的根本原因或条件。错误是我们观察和经历的外在表现，而故障是系统中潜在的故障，隐藏在代码和逻辑层之下。为了了解故障以及如何处理它们，我们需要比表面症状更深入，探索表面以下的领域。

什么构成故障？

故障可以被视为软件系统内的差异或缺陷，无论是在代码、数据，甚至是软件的规范中。这就像时钟内损坏的齿轮。您可能不会立即看到齿轮，但您会注意到时钟的指针没有正确移动。同样，软件故障可能会一直隐藏，直到特定条件将其作为错误暴露出来。

故障根源

设计缺点：有时，软件的蓝图可能会引入错误。这可能源于对需求的误解、系统设计不当或未能预见某些用户行为或系统状态。
编码错误：这些是更“经典”的错误，开发人员可能由于疏忽、误解或仅仅是人为错误而引入错误。其范围可能从相差一错误和错误初始化的变量到复杂的逻辑错误。
外部影响：软件不是在真空中运行的。它与其他软件、硬件和环境交互。这些外部组件中的任何一个的变化或故障都可能会给系统带来故障。
并发问题：在现代多线程和分布式系统中，竞争条件、死锁或同步问题可能会导致特别难以重现和诊断的故障。

检测和隔离故障

挖掘故障需要结合多种技术：

测试：严格而全面的测试，包括单元、集成和系统测试，可以通过触发故障表现为错误的条件来帮助识别故障。
静态分析：检查代码而不执行代码的工具可以根据模式、编码标准或已知的有问题的构造来识别潜在的错误。
动态分析：通过监控软件的运行，动态分析工具可以识别内存泄漏或竞争条件等问题，指出系统中的潜在故障。
日志和监控：对生产中的软件进行持续监控，结合详细的日志记录，可以深入了解故障出现的时间和地点，即使它们并不总是导致立即或明显的错误。

解决故障

纠正：这涉及修复错误所在的实际代码或逻辑。这是最直接的方法，但需要准确的诊断。
补偿：在某些情况下，特别是对于遗留系统，直接修复故障可能风险太大或成本太高。相反，可以引入额外的层或机制来抵消或补偿故障。
冗余：在关键系统中，冗余可用于掩盖故障。例如，如果一个组件因故障而发生故障，备用组件可以接管，确保连续运行。

从错误中学习的价值

每一个错误都是一个学习的机会。通过分析故障、其根源及其表现形式，开发团队可以改进其流程，使软件的未来版本更加强大和可靠。反馈循环可以从生产中的错误中吸取教训，为开发周期的早期阶段提供信息，随着时间的推移，它有助于创建更好的软件。

线程错误：解开结

在浩瀚的软件开发领域，线程代表着一种强大而复杂的工具。虽然它们使开发人员能够通过同时执行多个操作来创建高效且响应迅速的应用程序，但它们也引入了一类极其难以捉摸且难以重现的错误：线程错误。

这是一个非常困难的问题，以至于一些平台完全消除了线程的概念。在某些情况下，这会产生性能问题，或者将并发的复杂性转移到不同的区域。这些都是固有的复杂性，虽然平台可以缓解一些困难，但核心的复杂性是固有的、不可避免的。

线程错误一瞥

当应用程序中的多个线程相互干扰时，就会出现线程错误，从而导致不可预测的行为。由于线程同时运行，每次运行的相对时间可能会有所不同，从而导致可能偶尔出现的问题。

线程错误背后的常见罪魁祸首

竞争条件：这可能是最臭名昭著的线程错误类型。当软件的行为取决于事件的相对时间（例如线程到达并执行代码的某些部分的顺序）时，就会出现竞争条件。比赛的结果是不可预测的，环境的微小变化可能会导致截然不同的结果。
死锁：当两个或多个线程无法继续执行其任务时，就会发生死锁，因为它们都在等待对方释放一些资源。这在软件上相当于一场对峙，双方都不愿意让步。
饥饿：在这种情况下，线程永远被拒绝访问资源，因此无法取得进展。虽然其他线程可能运行得很好，但饥饿的线程却陷入困境，导致应用程序的某些部分变得无响应或缓慢。
线程抖动：当太多线程竞争系统资源时，就会发生这种情况，导致系统在线程之间切换的时间比实际执行线程的时间多。这就像厨房里有太多厨师，会导致混乱而不是生产力。

诊断缠结

由于线程错误的偶发性，发现它们可能非常具有挑战性。然而，一些工具和策略可以提供帮助：

Thread Sanitizers ：这些工具专门用于检测程序中与线程相关的问题。他们可以识别竞争条件等问题，并深入了解问题发生的位置。
日志记录：线程行为的详细日志记录可以帮助识别导致问题情况的模式。带时间戳的日志对于重建事件序列特别有用。
压力测试：通过人为地增加应用程序的负载，开发人员可以加剧线程争用，使线程错误更加明显。
可视化工具：一些工具可以可视化线程交互，帮助开发人员查看线程可能在哪里发生冲突或相互等待。

解开结

解决线程错误通常需要结合预防性和纠正性措施：

互斥体和锁：使用互斥体或锁可以确保一次只有一个线程访问代码或资源的关键部分。然而，过度使用它们可能会导致性能瓶颈，因此应该谨慎使用它们。
线程安全数据结构：使用本质上线程安全的结构可以防止许多与线程相关的问题，而不是在现有结构上改造线程安全。
并发库：现代语言通常附带旨在处理常见并发模式的库，从而减少引入线程错误的可能性。
代码审查：考虑到多线程编程的复杂性，多方审查与线程相关的代码对于发现潜在问题非常有价值。

竞赛条件：始终领先一步

数字领域虽然主要植根于二进制逻辑和确定性过程，但也不能幸免于不可预测的混乱。这种不可预测性背后的罪魁祸首之一是竞争条件，这是一个微妙的敌人，它似乎总是领先一步，违背了我们对软件的可预测性的期望。

竞态条件到底是什么？

当两个或多个操作必须按顺序或组合执行才能正确运行时，就会出现竞争条件，但系统的实际执行顺序无法保证。 “竞赛”一词完美地概括了这个问题：这些操作是一场竞赛，结果取决于谁先完成。如果一项操作在某种情况下“赢得”了比赛，系统可能会按预期工作。如果另一个人在不同的比赛中“获胜”，混乱可能会随之而来。

为什么竞争条件如此棘手？

零星发生：竞争条件的定义特征之一是它们并不总是表现出来。根据多种因素，例如系统负载、可用资源，甚至纯粹的随机性，竞争的结果可能会有所不同，从而导致难以一致重现的错误。
无声错误：有时，竞争条件不会使系统崩溃或产生可见错误。相反，它们可能会引入轻微的不一致——数据可能会略有偏差，日志条目可能会丢失，或者事务可能不会被记录。
复杂的相互依赖性：竞争条件通常涉及系统的多个部分甚至多个系统。追踪导致问题的交互就像大海捞针一样。

防范不可预测的情况

虽然竞争条件看起来像是不可预测的野兽，但可以采用各种策略来驯服它们：

同步机制：使用互斥体、信号量或锁等工具可以强制执行可预测的操作顺序。例如，如果两个线程竞相访问共享资源，则互斥体可以确保一次只有一个线程获得访问权限。
原子操作：这些操作完全独立于任何其他操作运行并且是不间断的。一旦开始，它们就会直接完成，不会被停止、改变或干扰。
超时：对于可能因竞争条件而挂起或卡住的操作，设置超时可能是一种有用的故障保护措施。如果操作未在预期时间范围内完成，则会终止该操作以防止其导致进一步的问题。
避免共享状态：通过设计最小化共享状态或共享资源的系统，可以显着降低竞争的可能性。

比赛测试

考虑到竞争条件的不可预测性，传统的调试技术常常达不到要求。然而：

压力测试：将系统推向极限可以增加竞争条件出现的可能性，使它们更容易被发现。
竞争检测器：一些工具旨在检测代码中潜在的竞争条件。他们无法捕获所有信息，但在发现明显问题方面具有无价的价值。
代码审查：人眼非常擅长发现模式和潜在的陷阱。定期审查，尤其是那些熟悉并发问题的人，可以成为针对竞争条件的强有力的防御措施。

性能陷阱：监控争用和资源匮乏

性能优化是确保软件高效运行并满足最终用户预期需求的核心。然而，开发人员面临的两个最容易被忽视但影响最大的性能陷阱是监视器争用和资源匮乏。通过理解和应对这些挑战，开发人员可以显着提高软件性能。

监视器争用：变相的瓶颈

当多个线程尝试获取共享资源上的锁，但只有一个成功，导致其他线程等待时，就会发生监视器争用。由于多个线程争夺同一个锁，这会产生瓶颈，从而降低整体性能。

为什么有问题

延迟和死锁：争用可能会导致多线程应用程序中的严重延迟。更糟糕的是，如果管理不当，甚至可能导致线程无限期等待的死锁。
资源利用效率低下：当线程陷入等待状态时，它们无法进行高效工作，从而导致计算能力的浪费。

缓解策略

细粒度锁定：不是对大资源使用单个锁，而是划分资源并使用多个锁。这减少了多个线程等待单个锁的机会。
无锁数据结构：这些结构旨在管理无锁的并发访问，从而完全避免争用。
超时：设置线程等待锁的时间限制。这可以防止无限期的等待，并有助于识别争用问题。

资源匮乏：无声的性能杀手

当进程或线程永远无法获得执行其任务所需的资源时，就会出现资源匮乏。在等待时，其他进程可能会继续获取可用资源，从而将饥饿的进程进一步推到队列中。

影响

性能下降：饥饿的进程或线程速度减慢，导致系统的整体性能下降。
不可预测性：饥饿会使系统行为变得不可预测。通常应该快速完成的流程可能需要更长的时间，从而导致不一致。
潜在的系统故障：在极端情况下，如果关键进程缺乏关键资源，可能会导致系统崩溃或故障。

对抗饥饿的解决方案

公平分配算法：实施调度算法，确保每个进程获得公平的资源份额。
资源预留：为关键任务预留特定资源，确保它们始终拥有运行所需的资源。
优先级：为任务或流程分配优先级。虽然这似乎有悖常理，但确保关键任务首先获得资源可以防止系统范围内的故障。但是，请务必小心，因为这有时会导致低优先级任务匮乏。