---
source: https://mp.weixin.qq.com/s/7a2L-GatYYwI6s1uK9mTjA
title: "Agent 评测体系化指南：从指标到闭环"
author: 资深技术号
source_account: 内推/技术社区
created: 2026-07-02
fetched: 2026-07-02
---

Agent 评测是把"不稳定的智能行为"持续收敛成"可发布的工程质量"的系统化方法。

## 为什么需要体系化

Agent 和传统软件相比的三道门槛：
- **非确定性**：同样输入不一定同样输出
- **黑盒化**：内部决策过程不透明
- **错误级联放大**：前一步小错在后续被放大

## Agent 类型与评测侧重

对话 Agent 的五个特殊难点：
- 上下文遗忘、目标切换、情绪回应、人工接管、多轮非复合评价
- 正确做法：同时看 Turn（单轮）/ Session（整段会话）/ Trace（执行轨迹）/ Outcome（最终结果）四个层次

## 指标体系（5 大类，P0/P1/P2）

| 类别 | 说明 | 典型指标 |
|------|------|---------|
| 效果类 | 任务完成质量 | 成功率、准确率 |
| 过程类 | 执行路径合规性 | 工具调用正确率、顺序合规 |
| 体验类 | 用户感知 | 满意度、转人工率 |
| 成本类 | 资源消耗 | Token 消耗、延迟 |
| 安全类 | 风险控制 | 拒答率、合规率 |

**关键概念**：
- 至少一次成功率：跑 N 次只要一次成功 = 能力上限
- 连续成功率：跑 N 次每次都成功 = 生产可用
- 生产系统更关心连续成功率

## 评测数据集建设

推荐构成：
1. **专家设计用例**（50-200 条 golden set）—— 定标准
2. **扩展用例** —— 扩覆盖，同一场景不同表达
3. **线上真实数据** —— 真实会话采样
4. **Badcase 回流** —— 线上失败数据

对含 Skill 的 Agent，按"触发→核心逻辑→产物质量→异常容错"四类组织用例。

## 评分体系

三层评分器，优先级从高到低：

**规则 Scorer**（硬条件）：工具调用、状态、字段、禁用动作 → 确定性主判
**LLM-as-Judge**（语义/策略）：解释质量、策略妥当性 → 输出 reason + few-shot + 周期性校准
**人工评分**（高风险/争议）：新建评测集标准确认、Judge 校准、争议样本、高风险复核

### LLM-as-Judge 最佳实践
- 明确评分标准，每档有可执行标准
- 输出 reason 方便定位
- few-shot 示例含边界样本
- 与人工一致率达 ~85% 后再进入自动化
- 偏差治理：多个不同 LLM 对抗打分

### 人工评分路由
- Judge 分数落在边界附近、置信度低、多个 Judge 分歧 → 人工
- 新模型/Prompt/Schema 上线 → 抽样人工
- 规则与 Judge 冲突 → 人工终判

### 分层筛查
粗筛层（规则 + 轻量 Judge）→ 精判层（完整规则 + Judge，产出问题分类和置信度）→ 人工复核层

## Badcase 分析与根因定位（RCA）

五步通用链路：

1. **证据汇总**：按 sessionId/traceId 汇总用户输入、Agent 回复、模块输入输出、prompt、工具调用、异常
2. **范围收敛**："问题现象 × 功能模块"映射表缩小候选范围
3. **分模块诊断**：逐个候选模块读取 input/output/prompt/工具返回
4. **责任判定**：三层策略——严重模块结论直接定责 + 规则匹配确定性模式 + LLM 汇总复杂链路
5. **结构化落盘**：问题分类、问题枚举、责任层、责任模块、置信度、修复建议

## 自动优化建议

建议项要产出结构化行动项，可被工单系统/看板/研发流水线消费。包含：
- 失败范围、证据、具体动作、owner、验收方式、优先级
- 四级优化等级

## 全链路闭环

完整 Agent 评测平台九个能力模块，核心反馈生产：

一条 Badcase 至少生产 3 类反馈：
- 回归用例（进入 golden set 或分类采样集）
- 优化行动项（绑定 owner）
- 训练/校准数据（进入训练集或 Judge 校准集）

反馈生产入库标准：可复现、期望行为明确、根因标签清楚、有代表性、已脱敏。

最终沉淀：用例库、Trace 库、根因标签库、修复建议库、Judge 校准集、回归集。