--- source: https://mp.weixin.qq.com/s/7a2L-GatYYwI6s1uK9mTjA title: "Agent 评测体系化指南:从指标到闭环" author: 资深技术号 source_account: 内推/技术社区 created: 2026-07-02 fetched: 2026-07-02 --- Agent 评测是把"不稳定的智能行为"持续收敛成"可发布的工程质量"的系统化方法。 ## 为什么需要体系化 Agent 和传统软件相比的三道门槛: - **非确定性**:同样输入不一定同样输出 - **黑盒化**:内部决策过程不透明 - **错误级联放大**:前一步小错在后续被放大 ## Agent 类型与评测侧重 对话 Agent 的五个特殊难点: - 上下文遗忘、目标切换、情绪回应、人工接管、多轮非复合评价 - 正确做法:同时看 Turn(单轮)/ Session(整段会话)/ Trace(执行轨迹)/ Outcome(最终结果)四个层次 ## 指标体系(5 大类,P0/P1/P2) | 类别 | 说明 | 典型指标 | |------|------|---------| | 效果类 | 任务完成质量 | 成功率、准确率 | | 过程类 | 执行路径合规性 | 工具调用正确率、顺序合规 | | 体验类 | 用户感知 | 满意度、转人工率 | | 成本类 | 资源消耗 | Token 消耗、延迟 | | 安全类 | 风险控制 | 拒答率、合规率 | **关键概念**: - 至少一次成功率:跑 N 次只要一次成功 = 能力上限 - 连续成功率:跑 N 次每次都成功 = 生产可用 - 生产系统更关心连续成功率 ## 评测数据集建设 推荐构成: 1. **专家设计用例**(50-200 条 golden set)—— 定标准 2. **扩展用例** —— 扩覆盖,同一场景不同表达 3. **线上真实数据** —— 真实会话采样 4. **Badcase 回流** —— 线上失败数据 对含 Skill 的 Agent,按"触发→核心逻辑→产物质量→异常容错"四类组织用例。 ## 评分体系 三层评分器,优先级从高到低: **规则 Scorer**(硬条件):工具调用、状态、字段、禁用动作 → 确定性主判 **LLM-as-Judge**(语义/策略):解释质量、策略妥当性 → 输出 reason + few-shot + 周期性校准 **人工评分**(高风险/争议):新建评测集标准确认、Judge 校准、争议样本、高风险复核 ### LLM-as-Judge 最佳实践 - 明确评分标准,每档有可执行标准 - 输出 reason 方便定位 - few-shot 示例含边界样本 - 与人工一致率达 ~85% 后再进入自动化 - 偏差治理:多个不同 LLM 对抗打分 ### 人工评分路由 - Judge 分数落在边界附近、置信度低、多个 Judge 分歧 → 人工 - 新模型/Prompt/Schema 上线 → 抽样人工 - 规则与 Judge 冲突 → 人工终判 ### 分层筛查 粗筛层(规则 + 轻量 Judge)→ 精判层(完整规则 + Judge,产出问题分类和置信度)→ 人工复核层 ## Badcase 分析与根因定位(RCA) 五步通用链路: 1. **证据汇总**:按 sessionId/traceId 汇总用户输入、Agent 回复、模块输入输出、prompt、工具调用、异常 2. **范围收敛**:"问题现象 × 功能模块"映射表缩小候选范围 3. **分模块诊断**:逐个候选模块读取 input/output/prompt/工具返回 4. **责任判定**:三层策略——严重模块结论直接定责 + 规则匹配确定性模式 + LLM 汇总复杂链路 5. **结构化落盘**:问题分类、问题枚举、责任层、责任模块、置信度、修复建议 ## 自动优化建议 建议项要产出结构化行动项,可被工单系统/看板/研发流水线消费。包含: - 失败范围、证据、具体动作、owner、验收方式、优先级 - 四级优化等级 ## 全链路闭环 完整 Agent 评测平台九个能力模块,核心反馈生产: 一条 Badcase 至少生产 3 类反馈: - 回归用例(进入 golden set 或分类采样集) - 优化行动项(绑定 owner) - 训练/校准数据(进入训练集或 Judge 校准集) 反馈生产入库标准:可复现、期望行为明确、根因标签清楚、有代表性、已脱敏。 最终沉淀:用例库、Trace 库、根因标签库、修复建议库、Judge 校准集、回归集。