--- source_url: https://juejin.cn/post/7619990292557365300 tags: [juejin] ingested: 2026-05-14 sha256: 274d1211712c89fd1b6743549803255080658436520cd10a5d78160c1a3baee7 --- # 02—通过率、增益 Δ、IFR 怎么看?AI Skill 测评指标体系完整解读 系列:AI Skill 测评体系从零到一(二) 难度:进阶 适合读者:需要理解测评数字含义的工程师和产品经理 📌 一句话摘要:AI Skill 测评有 8 个核心指标,90% 的人只盯通过率却忽略了「增益 Δ」——本文一次讲清楚每个数字的含义、来源和发布红线。 ## 指标太多记不住?用「九层」来理解 AI Skill 测评指标体系由 9 层维度构成,从用户感知到工程内核,覆盖一个 LLM 应用上线前需要验证的所有质量维度。 记忆方法:把 9 层想象成「从用户感知到工程内核」的由外到内的洋葱结构。 口诀:**触发→输出→规则→对话→容错→效率→设计→覆盖→维护** | 层级 | quick 模式 | standard 模式 | full 模式 | |------|-----------|---------------|-----------| | 触发层、输出层、业务层 | ✅ 必测 | ✅ 必测 | ✅ 必测 | | 交互层、健壮层、工程层 | — | ✅ 必测 | ✅ 必测 | | 效率层、设计层 | — | ⚡ 部分 | ✅ 必测 | | 组织层 | — | — | 💡 建议 | ## 核心指标逐一解读 ### 先说「灰色结论」INCONCLUSIVE INCONCLUSIVE(无法验证):这条用例没有出结论,不代表 AI 失败了,而是测试资产或环境尚未就绪。 常见原因: - 测试文件类型不符(如想测「住宿发票检测」规则,手头只有汽油发票) - 账号权限限制 - 测试方法绕过了 Skill 层 - 数据已过期或被删除 正确处理:补充对应测试资产后重新跑该用例。INCONCLUSIVE 用例不计入通过率,但必须在报告中单独说明补充计划。 ### 1. 通过率(Pass Rate) **通过率 = 断言通过数 / 总断言数 × 100%** 断言(Assertion):测试用例中对「Skill 应该输出什么」的具体描述。 准入阈值(参考值,非行业统一标准): | 风险等级 | 通过率要求 | 典型场景 | |---------|-----------|---------| | S 级(关键) | ≥ 95% | 报销、审批、涉及资金的写操作 | | A 级(重要) | ≥ 90% | 下游系统的直接输入、失效代价高 | | B 级(一般) | ≥ 80% | 失效影响体验但用户可自行修正 | | C 级(辅助) | ≥ 70% | 锦上添花,失效影响有限 | ⚠️ **对比基线 ≠ 准入基线**:Δ=+35% 但通过率 87%(未达 S 级 95%)→ 不能发布。 ### 2. 触发率(Trigger Rate) **触发率 = Skill 被正确触发的次数 / 总测试次数 × 100%** 来源:信息检索领域的 Recall/Precision。 AI 模拟方案(阶段一自动运行): ``` 从 description 提取触发语义 ↓ 自动生成 10 条测试 prompt(5 应触发 + 3 不应触发 + 2 边界) ↓ AI 逐条判断:prediction + confidence + reasoning ↓ 输出 trigger_eval.json ``` 准入处理(非硬性 FAIL 条件): - TP 估算 ≥ 80%:✅ 估算达标 - TP 估算 70-80%:⚠️ 偏低,建议优化 description - TP 估算 < 70%:⚠️ 触发率不足,须优化后重测 **undertrigger 问题**:Claude 有 undertrigger 倾向——Description 要稍微「pushy」,明确写出「即使用户没有明确说,遇到 X 情况也要使用」。 ### 3. 增益 Δ(Delta) **Δ = with_skill 通过率 − without_skill 通过率。Δ < 0 是发布硬红线。** 来源:SkillsBench 论文(arxiv.org/abs/2602.12670):84 个有效任务中 16 个(约 19%)显示负向增益。 | Δ | 含义 | 行动 | |---|------|------| | > 0 | Skill 有帮助 | ✅ 正常发布 | | ≈ 0 | Skill 无增量价值 | 评估是否需要存在 | | < 0 | Skill 帮了倒忙 | 🔴 发布红线,查根因 | 三条件对比范式: - 条件 A:without_skill(纯模型能力基线) - 条件 B:with curated_skill(人工精心设计的 Skill) - 条件 C:with self-generated_skill(让模型自己生成 Skill) B > C → 人工 Skill 有价值;B ≈ C → 边际收益低;B < C → 人工 Skill 过度约束模型 ### 4. 指令遵循率 IFR(Instruction Following Rate) **IFR = 正确遵循硬性规则的次数 / 触发硬性规则的总次数 × 100%。S 级要求 IFR = 100%。** 硬性规则:Skill 中明确写了「必须」「禁止」「固定为」的规则。 来源:对应通用研究方向 Instruction Following,参考 Google 的 IFEval 基准(arxiv.org/abs/2311.07911)。 IFR vs 通过率:通过率是所有断言通过比例;IFR 只关注硬性规则。一个 Skill 可能通过率 92% 但 IFR 只有 80%——有 20% 的情况下违反了关键规则。 ### 5. 一致性得分(Consistency Score) **一致性 = 关键字段完全一致的对比组数 / 总对比组数 × 100%** 同一意图用不同表达方式(正式/口语/简略),关键输出字段应完全一致。 适用范围:full 模式才系统计算。 ### 6. 稳定性(Stddev) **标准差 > 0.3 = 高度不稳定,立即排查。** | Stddev | 含义 | 行动 | |--------|------|------| | < 0.05 | 稳定,结果可信 | S 级发布要求 | | 0.05-0.10 | 轻微波动,可接受 | 观察 | | 0.10-0.30 | 明显不稳定 | 检查 prompt 歧义 | | > 0.30 | 高度不稳定 | 检查 Skill 规则冲突 | ### 7. 幻觉检测(Hallucination Detection) **S 级 Skill 要求 0 次幻觉。** 幻觉:接口调用实际失败了,但模型仍输出「草稿已保存」——链接是编造的。 检测方法:评审 Agent 提取输出中的所有「隐含声明」并逐一核查是否有执行记录支撑。 ### 8. 覆盖率(Coverage) **综合覆盖率 = 功能覆盖率×0.5 + 路径覆盖率×0.3 + 断言覆盖率×0.2,S/A 级目标 ≥ 85%。** | 功能覆盖率 | 有用例覆盖的规则数 / 总规则数 | | 路径覆盖率 | 有用例覆盖的执行路径数 / 总路径数 | | 断言覆盖率 | 有断言覆盖的输出字段数 / 总输出字段数 | ## 完整准入指标表 | 指标 | S 级 | A 级 | B 级 | C 级 | |------|------|------|------|------| | 通过率 | ≥ 95% | ≥ 90% | ≥ 80% | ≥ 70% | | 触发率(精确) | ≥ 95% | ≥ 90% | ≥ 85% | ≥ 80% | | 触发率(AI估算) | TP≥80%(参考) | TP≥80%(参考) | TP≥70%(参考) | 仅参考 | | 增益 Δ | > 0,不允许负向 | > 0 | ≥ -5% | 不要求 | | IFR | = 100% | ≥ 95% | ≥ 90% | ≥ 80% | | 稳定性 Stddev | < 0.05 | < 0.10 | < 0.20 | < 0.30 | | 覆盖率 | ≥ 95% | ≥ 85% | ≥ 70% | ≥ 50% | | 灾难场景 | 全部通过 | 全部通过 | 不强制 | 不要求 | | 幻觉检测 | 0 次 | ≤ 1 次 | ≤ 2 次 | 不要求 | | P95 响应时间 | < 15s | < 15s | < 30s | < 30s | ## 纯文本 Skill 全面支持 | 类型 | 判断依据 | 执行模式 | |------|---------|---------| | mcp_based | SKILL.md 中有 MCP 工具引用 | 真实工具调用 | | code_execution | 描述了 Bash/脚本执行 | 真实命令执行 | | text_generation | 其他(写作、分析、问答等) | 纯文本模式 | ## 指标之间的关系 | 通过率 | Δ | 常见根因 | 行动 | |--------|---|---------|------| | 高 | 高 | Skill 质量好,有明显价值 | ✅ 正常发布 | | 高 | ≈ 0 | 模型本身就能做到,Skill 无增量价值 | 评估是否需要 | | 低 | > 0 | Skill 方向对,但执行有问题 | 继续优化 | | 低 | < 0 | Skill 帮了倒忙 | 🔴 停止发布 | | 高 | — | 覆盖率 < 50% | 补充用例 | ## 哪些指标是「权威的」,哪些是「经验值」 **有明确学术/工业来源:** - 通过率:OpenAI Evals、HELM 等标准基准 - 增益 Δ:SkillsBench 论文(arxiv.org/abs/2602.12670) - 触发率:信息检索 Recall/Precision - 幻觉检测:TruthfulQA、FactScore - 稳定性:统计学标准差 **内部经验值(无直接学术背书):** - S 级通过率 ≥ 95% 的具体阈值 - IFR = 100% 的要求 - Stddev < 0.05 的稳定性标准 这些经验值基于「业务容错度、用户预期、历史数据」三因素制定,可根据实际业务调整。