--- name: systematic-debugging description: 遇到任何 bug、测试失败或异常行为时使用,在提出修复方案之前执行 --- # 系统化调试 ## 概述 随意修复既浪费时间又会引入新 bug。草率的补丁只会掩盖深层问题。 **核心原则:** 在尝试修复之前,务必先找到根本原因。只修症状就是失败。 **敷衍走流程等于违背调试的精神。** ## 铁律 ``` 不做根因调查,不许提修复方案 ``` 如果你还没完成第一阶段,就不能提出修复方案。 ## 何时使用 用于任何技术问题: - 测试失败 - 生产环境 bug - 异常行为 - 性能问题 - 构建失败 - 集成问题 **尤其在以下情况必须使用:** - 时间紧迫(紧急情况最容易让人猜测式修复) - 觉得"一个小修改"就能搞定 - 已经尝试了多种修复 - 上一次修复没有生效 - 你没有完全理解问题 **以下情况也不要跳过:** - 问题看起来很简单(简单的 bug 也有根本原因) - 你很赶时间(越急越容易返工) - 领导要求立刻修好(系统化调试比反复尝试更快) ## 四个阶段 你必须完成每个阶段后才能进入下一个。 ### 第一阶段:根因调查 **在尝试任何修复之前:** 1. **仔细阅读错误信息** - 不要跳过错误或警告 - 它们往往直接包含解决方案 - 完整阅读堆栈跟踪 - 记下行号、文件路径、错误码 2. **稳定复现** - 你能可靠地触发它吗? - 具体的复现步骤是什么? - 每次都能复现吗? - 如果无法复现 → 收集更多数据,不要猜测 3. **检查近期变更** - 什么变更可能导致了这个问题? - git diff、最近的提交 - 新依赖、配置变更 - 环境差异 4. **在多组件系统中收集证据** **当系统有多个组件时(CI → 构建 → 签名,API → 服务 → 数据库):** **在提出修复方案之前,先添加诊断埋点:** ``` 对每个组件边界: - 记录进入组件的数据 - 记录离开组件的数据 - 验证环境/配置的传递 - 检查每一层的状态 执行一次以收集证据,确定断裂点在哪里 然后分析证据,定位故障组件 然后针对该组件深入调查 ``` **示例(多层系统):** ```bash # 第 1 层:工作流 echo "=== Secrets available in workflow: ===" echo "IDENTITY: ${IDENTITY:+SET}${IDENTITY:-UNSET}" # 第 2 层:构建脚本 echo "=== Env vars in build script: ===" env | grep IDENTITY || echo "IDENTITY not in environment" # 第 3 层:签名脚本 echo "=== Keychain state: ===" security list-keychains security find-identity -v # 第 4 层:实际签名 codesign --sign "$IDENTITY" --verbose=4 "$APP" ``` **由此可以看出:** 哪一层出了问题(secrets → workflow ✓, workflow → build ✗) 5. **跟踪数据流** **当错误发生在调用栈深处时:** 参见本目录下的 `root-cause-tracing.md`,了解完整的反向追踪技术。 **简要版本:** - 错误值从哪里产生的? - 谁用错误值调用了这里? - 持续向上追踪直到找到源头 - 在源头修复,而不是在症状处修复 ### 第二阶段:模式分析 **先找到模式,再修复:** 1. **找到可正常工作的示例** - 在同一代码库中找到类似的正常代码 - 有什么正常的代码与出问题的代码相似? 2. **与参考实现对比** - 如果是实现某个模式,完整阅读参考实现 - 不要略读——逐行阅读 - 在应用之前彻底理解该模式 3. **识别差异** - 正常代码和出问题的代码之间有什么不同? - 列出每一个差异,无论多小 - 不要假设"那不可能有影响" 4. **理解依赖关系** - 这个功能需要哪些其他组件? - 需要哪些设置、配置、环境? - 它有哪些隐含假设? ### 第三阶段:假设与验证 **科学方法:** 1. **提出单一假设** - 清晰地陈述:"我认为 X 是根本原因,因为 Y" - 写下来 - 要具体,不要含糊 2. **最小化测试** - 做出最小的改动来验证假设 - 每次只改一个变量 - 不要同时修复多个问题 3. **继续之前先验证** - 生效了?是 → 进入第四阶段 - 没生效?提出新假设 - 不要在上面叠加更多修复 4. **当你不确定时** - 说"我不理解 X" - 不要假装自己知道 - 寻求帮助 - 做更多调研 ### 第四阶段:实施 **修复根本原因,而非症状:** 1. **创建失败的测试用例** - 最简化的复现 - 尽可能用自动化测试 - 没有测试框架就写一次性测试脚本 - 修复前必须先有测试 - 使用 `superpowers:test-driven-development` 技能来编写规范的失败测试 2. **实施单一修复** - 修复已定位的根本原因 - 每次只改一处 - 不做"顺便改改"的优化 - 不捆绑重构 3. **验证修复** - 测试现在通过了吗? - 其他测试没有被破坏吧? - 问题真的解决了吗? 4. **如果修复不起作用** - 停下来 - 数一数:你已经尝试了几次修复? - 少于 3 次:回到第一阶段,用新信息重新分析 - **3 次或以上:停下来质疑架构(见下方第 5 步)** - 没有经过架构讨论,不要尝试第 4 次修复 5. **如果 3 次以上修复都失败了:质疑架构** **以下模式表明存在架构问题:** - 每次修复都暴露出新的共享状态/耦合/其他位置的问题 - 修复需要"大规模重构"才能实现 - 每次修复都在其他地方产生新的症状 **停下来质疑根本性问题:** - 这个模式从根本上合理吗? - 我们是不是在"惯性驱动"下坚持了错误方案? - 应该重构架构还是继续修补症状? **在尝试更多修复之前,和你的搭档讨论** 这不是假设失败——这是架构有误。 ## 红线——停下来,按流程走 如果你发现自己在想: - "先临时修一下,以后再排查" - "试着改改 X 看看行不行" - "一次性改多个地方,跑测试看看" - "跳过测试,我手动验证" - "大概是 X 的问题,让我修一下" - "我不完全理解,但这应该能行" - "模式说的是 X,但我换个方式用" - "主要问题有这些:[未经调查就列出修复方案]" - 没有追踪数据流就提出解决方案 - **"再试一次修复"(已经尝试了 2 次以上)** - **每次修复都暴露出不同地方的新问题** **以上这些都意味着:停下来。回到第一阶段。** **如果 3 次以上修复都失败了:** 质疑架构(见第四阶段第 5 步) ## 搭档发出的信号——说明你的方法不对 **留意这些提醒:** - "难道不是这样吗?"——你在没有验证的情况下做了假设 - "它能告诉我们……吗?"——你应该先收集证据 - "别猜了"——你在没有理解的情况下提出修复 - "深入想想"——要质疑根本性问题,而不只是症状 - "我们卡住了?"(沮丧的语气)——你的方法没有奏效 **当你看到这些信号时:** 停下来。回到第一阶段。 ## 常见借口 | 借口 | 现实 | |------|------| | "问题很简单,不需要走流程" | 简单问题也有根本原因。对于简单 bug,流程很快就能走完。 | | "紧急情况,没时间走流程" | 系统化调试比反复猜测式修复更快。 | | "先试一下,再排查" | 第一次修复就定下了基调。从一开始就做对。 | | "确认修复有效后再写测试" | 没有测试的修复留不住。先写测试才能证明修复有效。 | | "一次修多个问题省时间" | 无法隔离哪个生效了。还会引入新 bug。 | | "参考实现太长了,我自己改改" | 一知半解必然出 bug。完整阅读。 | | "我看出问题了,让我修一下" | 看到症状 ≠ 理解根因。 | | "再试一次"(在 2 次以上失败后) | 3 次以上失败 = 架构问题。质疑模式,不要继续修。 | ## 速查表 | 阶段 | 关键活动 | 通过标准 | |------|---------|---------| | **1. 根因** | 阅读错误、复现、检查变更、收集证据 | 理解了什么出了问题以及为什么 | | **2. 模式** | 找到正常示例、对比 | 识别出差异 | | **3. 假设** | 提出理论、最小化验证 | 假设被验证或产生新假设 | | **4. 实施** | 创建测试、修复、验证 | bug 已修复,测试通过 | ## 当流程显示"找不到根因" 如果系统化排查后发现问题确实是环境相关、时序相关或外部因素导致的: 1. 你已经完成了流程 2. 记录你排查了什么 3. 实施适当的处理措施(重试、超时、错误提示) 4. 添加监控/日志以便后续排查 **但是:** 95% 的"找不到根因"其实是排查不充分。 ## 辅助技术 以下技术是系统化调试的组成部分,可在本目录中找到: - **`root-cause-tracing.md`** - 沿调用栈反向追踪 bug,找到最初的触发点 - **`defense-in-depth.md`** - 找到根因后,在多个层级添加校验 - **`condition-based-waiting.md`** - 用条件轮询替代硬编码等待时间 **相关技能:** - **superpowers:test-driven-development** - 用于创建失败测试用例(第四阶段,第 1 步) - **superpowers:verification-before-completion** - 在宣称成功之前验证修复确实有效 ## 实际效果 调试实践中的数据: - 系统化方法:15-30 分钟修复 - 随意修复方法:2-3 小时反复折腾 - 一次修复成功率:95% vs 40% - 引入新 bug:几乎为零 vs 经常发生