# 第 4 阶段手册 — 质量与加固 > **时长**:3-7 天 | **智能体**:8 个 | **守门人**:现实检验者(唯一权威) --- ## 目标 最后的质量考验。现实检验者默认判定是"需要改进"——你必须用压倒性的证据来证明可以上生产。这个阶段存在的意义是:首次实现通常需要 2-3 轮修改,这很正常。 ## 前提条件 - [ ] 第 3 阶段质量门禁通过(所有任务都 QA 过) - [ ] 收到第 3 阶段交接包 - [ ] 所有功能已实现并单独验证 ## 关键心态 > **现实检验者的默认判定是"需要改进"。** > > 这不是悲观——是务实。上生产需要: > - 完整的用户旅程端到端跑通 > - 跨设备一致性(桌面、平板、手机) > - 压力下的性能表现(不只是正常情况) > - 安全验证(不是"我们加了认证"就行) > - 需求合规(每条需求都满足,不是大部分) > > 第一轮拿 B/B+ 是正常的。 ## 智能体激活顺序 ### 第一步:证据收集(第 1-2 天,全部并行) #### 证据收集者 — 全面视觉证据 ``` 激活证据收集者,为 [项目] 做全面系统证据收集。 交付要求: 1. 完整截图套件: - 桌面端(1920x1080)— 每个页面/视图 - 平板(768x1024)— 每个页面/视图 - 手机(375x667)— 每个页面/视图 2. 交互证据: - 导航流程(点击前后) - 表单交互(空白、填写、提交、错误状态) - 弹窗/对话框交互 - 手风琴/可展开内容 3. 主题证据: - 亮色模式 — 所有页面 - 暗色模式 — 所有页面 - 系统偏好检测 4. 错误状态证据: - 404 页面 - 表单校验错误 - 网络错误处理 - 空状态 格式:截图证据包 + test-results.json 时间线:2 天 ``` #### API 测试员 — 全量 API 回归 ``` 激活 API 测试员,为 [项目] 做完整的 API 回归测试。 交付要求: 1. 端点回归套件: - 所有端点测试(GET, POST, PUT, DELETE) - 认证/授权验证 - 输入校验测试 - 错误响应验证 2. 集成测试: - 服务间通信 - 数据库操作验证 - 外部 API 集成 3. 边界情况测试: - 限流行为 - 大负载处理 - 并发请求处理 - 畸形输入处理 格式:API 测试报告,每个端点通过/不通过 时间线:2 天 ``` #### 性能基准师 — 压力测试 ``` 激活性能基准师,为 [项目] 做压力测试。 交付要求: 1. 10 倍预期流量的压力测试: - 响应时间分布(P50, P95, P99) - 压力下的吞吐量 - 压力下的错误率 - 资源消耗(CPU、内存、网络) 2. Core Web Vitals 测量: - LCP(最大内容绘制)< 2.5s - FID(首次输入延迟)< 100ms - CLS(累积布局偏移)< 0.1 3. 数据库性能: - 查询执行时间 - 连接池使用率 - 索引有效性 4. 极限测试结果: - 找到系统断点 - 优雅降级行为 - 过载后恢复时间 格式:性能认证报告 时间线:2 天 ``` #### 法务合规员 — 最终合规审计 ``` 激活法务合规员,为 [项目] 做最终合规审计。 交付要求: 1. 隐私合规验证: - 隐私政策准确性 - 知情同意管理功能 - 用户数据权利实现 - Cookie 同意实现 2. 安全合规: - 数据加密(静态和传输中) - 认证安全性 - 输入过滤 - OWASP Top 10 检查 3. 监管合规: - GDPR 要求(如适用) - CCPA 要求(如适用) - 行业特定要求 4. 无障碍合规: - WCAG 2.1 AA 验证 - 屏幕阅读器兼容性 - 键盘导航 格式:合规认证报告 时间线:2 天 ``` ### 第二步:分析(第 3-4 天,并行,第一步完成后) #### 测试结果分析师 — 质量指标汇总 ``` 激活测试结果分析师,为 [项目] 做质量指标汇总。 输入:第一步的全部报告 交付要求: 1. 汇总质量仪表盘: - 总体质量评分 - 分类明细(视觉、功能、性能、安全、合规) - 问题严重度分布 - 趋势分析(如果有多轮测试) 2. 问题优先级排序: - 严重问题(上生产前必须修) - 高优问题(上生产前应该修) - 中等问题(下个 Sprint 修) - 低优问题(加到待办列表) 3. 风险评估: - 上生产就绪概率 - 剩余风险区域 - 建议的缓解措施 格式:质量指标仪表盘 时间线:1 天 ``` #### 工作流优化师 — 流程效率复盘 ``` 激活工作流优化师,为 [项目] 做流程效率复盘。 输入:第 3 阶段执行数据 + 第一步的发现 交付要求: 1. 流程效率分析: - 开发-测试循环效率(首次通过率、平均重试次数) - 瓶颈识别 - 不同问题类型的解决耗时 2. 改进建议: - 第 6 阶段运营的流程改进 - 自动化机会 - 质量改进建议 格式:优化建议报告 时间线:1 天 ``` #### 基础设施运维师 — 生产就绪检查 ``` 激活基础设施运维师,为 [项目] 做生产就绪检查。 交付要求: 1. 生产环境验证: - 所有服务健康且有响应 - 自动伸缩已配置并测试 - 负载均衡配置已验证 - SSL/TLS 证书有效 2. 监控验证: - 所有关键指标在收集 - 告警规则已配置并测试 - 仪表盘访问已验证 - 日志聚合正常 3. 灾难恢复验证: - 备份系统可用 - 恢复流程已文档化并测试 - 故障切换机制已验证 4. 安全验证: - 防火墙规则已审查 - 访问控制已验证 - 密钥管理已确认 - 漏洞扫描通过 格式:基础设施就绪报告 时间线:1 天 ``` ### 第三步:最终判定(第 5-7 天,串行) #### 现实检验者 — 最终判定 ``` 激活现实检验者,为 [项目] 做最终集成测试。 以下流程不能跳过: 第一步:现实检查命令 - 验证实际做出了什么(ls, grep 检查声称的功能) - 声称的功能与需求文档交叉核对 - 跑一遍全面的截图采集 - 审查第一步和第二步的所有证据 第二步:QA 交叉验证 - 审查证据收集者的发现 - 与 API 测试员结果交叉核对 - 验证性能基准师数据 - 确认法务合规员的发现 第三步:端到端系统验证 - 测试完整用户旅程(不是单个功能) - 在所有设备上验证响应式行为 - 端到端检查交互流程 - 审查实际性能数据 第四步:需求对照检查 - 引用原始需求文档的原文 - 与实际实现证据对照 - 记录需求与现实之间的每一个差距 - 不做假设——只看证据 判定选项: - 就绪:压倒性的证据表明可以上生产(首次通过很少见) - 需要改进:发现具体问题,附修复清单(正常情况) - 未就绪:架构层面有大问题,需要回到第 1/2 阶段 格式:基于现实的集成报告 默认:需要改进——除非有相反的压倒性证据 ``` ## 质量门禁 — 最终关卡 | # | 标准 | 阈值 | 需要的证据 | |---|------|------|-----------| | 1 | 用户旅程完整 | 所有关键路径端到端跑通 | 现实检验者截图 | | 2 | 跨设备一致性 | 桌面 + 平板 + 手机都正常 | 响应式截图 | | 3 | 性能认证通过 | P95 < 200ms, LCP < 2.5s, 可用性 > 99.9% | 性能基准师报告 | | 4 | 安全验证通过 | 零严重漏洞 | 安全扫描 + 合规报告 | | 5 | 合规认证通过 | 所有监管要求都满足 | 法务合规员报告 | | 6 | 需求合规 | 100% 的需求都实现了 | 逐条验证 | | 7 | 基础设施就绪 | 生产环境已验证 | 基础设施运维师报告 | ## 门禁决策 **唯一权威**:现实检验者 ### 如果判定"就绪"(进入第 5 阶段): ```markdown ## 第 4 阶段 → 第 5 阶段交接包 ### 给上线团队的: - 现实检验者认证报告 - 性能认证 - 合规认证 - 基础设施就绪报告 - 已知限制(如果有的话) ### 给增长黑客的: - 产品已可交付用户 - 营销话术用的功能列表 - 增加可信度的性能数据 ### 给 DevOps 自动化师的: - 生产部署已批准 - 蓝绿部署方案 - 回滚流程已确认 ``` ### 如果判定"需要改进"(回到第 3 阶段): ```markdown ## 第 4 阶段 → 第 3 阶段返工包 ### 修复清单(来自现实检验者): 1. [严重问题 1]:[描述 + 证据 + 修复说明] 2. [严重问题 2]:[描述 + 证据 + 修复说明] 3. [高优问题 1]:[描述 + 证据 + 修复说明] ... ### 流程: - 问题进入开发-测试循环(第 3 阶段机制) - 每个修复都要通过证据收集者 QA - 所有修复完成后 → 回到第 4 阶段第三步 - 现实检验者用更新后的证据重新评估 ### 预期:2-3 轮修改是正常的 ``` ### 如果判定"未就绪"(回到第 1/2 阶段): ```markdown ## 第 4 阶段 → 第 1/2 阶段返工包 ### 发现的架构问题: 1. [根本性问题]:[为什么第 3 阶段修不了] 2. [结构性问题]:[架构层面需要改什么] ### 建议行动: - [ ] 修改系统架构(第 1 阶段) - [ ] 重建基础(第 2 阶段) - [ ] 缩小范围重新定义(第 1 阶段) ### 需要工作室制片人决策 ``` --- *当现实检验者给出"就绪"判定且有压倒性证据时,第 4 阶段结束。"需要改进"是首轮预期的正常结果——说明系统在跑,但还需要打磨。*