---
title: "AI Agent & Skill 测评方案及落地实践 — 腾讯 TEG 网关测试团队"
source_url: https://mp.weixin.qq.com/s/PUbGqheJhFMmb6hGj1ZtOw
publish_date: 2026-06-16
tags: [wechat, article, agent-evaluation, eval-framework, tperf, three-judges, five-dimensions, rubric-grader, deterministic-grader, human-grader, llm-as-judge, trace-capture, error-cascade, tencent-teg, 网关测试, martinskxu, prod-engineering, agent-quality]
review_value: 9
review_confidence: 9
review_recommendation: ingest
sha256: 88e31ff9608a785edaec38f90055ec06cac80334c1e328ee4fc1001027e9c62c
---
# AI Agent & Skill 测评方案及落地实践 — 腾讯 TEG 网关测试团队

> Source: https://mp.weixin.qq.com/s/PUbGqheJhFMmb6hGj1ZtOw
> Author: martinskxu (腾讯程序员 / 腾讯技术工程)
> Date: 2026-06-16 17:33
> Collected: 2026-06-16
> Team: TEG 云架构平台部 网关测试团队

## 一句话总结

**腾讯 TEG 网关测试团队的 AI Agent 测评体系**：面对 Agent **非确定性 / 黑盒化 / 错误级联放大**三大难题，建立 **"确定性评分器 + Rubric 评分器 + 人工评分器"** 三类评委组合的完整框架，覆盖 **功能正确性 / 过程质量 / 效率成本 / 鲁棒性安全 / 体验对齐** 五大维度，已在 **TPerf 性能平台智能分析 Agent 项目**落地验证。

## 三大痛点(Agent 自主性带来的)

1. **非确定性**: 同一 prompt 多次执行结果不同,"跑通一次"≠"稳定能跑"
2. **黑盒化**: 模型升级/Prompt 微调/工具链变化 → 行为漂移,肉眼难察觉
3. **错误级联放大**: 一次任务涉及几十步工具调用,前序小偏差沿链路逐级放大,结论完全偏离

## 没有测评的 6 大被动局面

| 痛点 | 后果 |
|------|------|
| 主观性强 | 依赖"感觉变好了"的直觉判断,缺乏量化依据 |
| 悄悄退化 | 改了 Prompt 或升级依赖,旧场景悄悄变差无人知晓 |
| 人工验证成本高 | Skill 越多/模型迭代越快,人肉回归成本指数级增长 |
| 模型不敢升级 | 新模型发布没对比数据,错过能力提升和成本下降的红利 |
| 缺少效率基线 | 没延迟/Token/费用历史基线,变贵变慢无法定位归因版本 |
| 过程易忽略 | 最终答案碰巧正确但推理路径错,无法区分"正确调用工具"vs"碰巧答对" |

## 核心理念: Eval 公式

> **Eval(评估) = Agent 输入 → 执行 → 捕获执行过程(Trace + 产物) → 一组检查规则 → 可对比的分数**

**Trace**: 执行轨迹是 Agent 执行过程中产生的结构化日志,记录每步的工具调用/参数/返回值/思考过程。

**目标**: 建立**可重复、可量化、可持续演进**的评估闭环,**用数据代替直觉,用全量代替抽查**。

## 测评框架: 三类评委(谁来打分?)

```
┌────────────────────────────────┐
│   确定性评分器               │
│  (脚本/断言/Lint/AST)         │
│  快/便宜/客观/可复现          │
│  ⇨ 负责所有"能用代码判断"的事 │
└────────────────────────────────┘
            ↑ 日常主力
            │
┌────────────────────────────────┐
│   模型评分器 (Rubric)         │
│  (LLM-as-Judge + Prompt + Schema) │
│  灵活/可扩展/处理开放式输出    │
│  ⇨ 负责"代码搞不定但能结构化描述" │
└────────────────────────────────┘
            ↑ 扩展能力
            │
┌────────────────────────────────┐
│   人工评分器 (专家)           │
│  昂贵/慢/黄金标准             │
│  ⇨ 负责"校准/诊断/兜底"       │
└────────────────────────────────┘
```

**核心洞察**: Agent 测评**没有"银弹评分器"**,必须三类组合使用。

### 三类评委对照表

| 维度 | 确定性评分器 | Rubric 评分器 | 人工评分器 |
|------|------------|--------------|----------|
| 实现成本 | 低 | 中 | 高 |
| 运行速度 | 快 | 中 | 慢 |
| 客观性 | 强 | 中 | 弱 |
| 适用场景 | 文件存在/调用正确/格式合规 | 推理合理性/建议质量 | 校准/诊断/兜底 |
| 维护成本 | 低 | 中 | 高 |
| 角色 | 日常主力 | 扩展能力 | 黄金标准 |

## 五大维度(评什么?)

| 维度 | 内容 |
|------|------|
| **功能正确性** | 最终答案对不对?任务完成没? |
| **过程质量** | 路径是否合理?工具调用正确?推理逻辑对? |
| **效率成本** | 延迟/Token/费用/步数 |
| **鲁棒性安全** | 异常输入/对抗 prompt 注入/越权 |
| **体验对齐** | 输出风格/语气/可读性/用户满意度 |

## 用例设计 (Agent × Skill 二维分类)

### Agent 类型
- **Task Agent** (任务型): 单一明确目标(查询/计算/调用)
- **Workflow Agent** (工作流型): 多步流程编排
- **Decision Agent** (决策型): 复杂场景推理

### Skill 类型
- **Tool Skill** (工具型): 调用外部 API/CLI
- **Knowledge Skill** (知识型): 检索/RAG
- **Code Skill** (代码型): 执行代码/分析数据

### 评估矩阵
按"Agent 类型 × Skill 类型"二维交叉生成测试用例,覆盖所有组合。

## Rubric 设计(模型评分器核心)

### Rubric 三要素
1. **评分维度**(criteria): 准确性/完整性/格式/推理合理性
2. **评分量表**(scale): 0-5 分制或 0-1 连续分
3. **评分说明**(rubric): 每个分数段对应的具体描述

### 示例 Rubric(智能分析 Agent)
| 维度 | 0 分 | 1 分 | 2 分 | 3 分 |
|------|------|------|------|------|
| 准确性 | 完全错误 | 部分正确 | 基本正确 | 完全正确 |
| 完整性 | 只回答 1 点 | 回答 <50% | 回答 ≥50% | 全覆盖 |
| 格式 | 不符合 | 部分符合 | 基本符合 | 完全符合 |

## Trace 捕获(执行过程记录)

### 必抓字段
- **每步的输入/输出/耗时/Token 消耗**
- **工具调用的完整参数和返回值**
- **模型的思考过程(thinking / reasoning)**
- **错误信息(异常类型/堆栈/恢复路径)**

### 存储格式
- **JSON Lines**: 每步一行,便于流式写入和回放
- **Schema 校验**: 强制字段类型,防止数据漂移
- **关联 run_id**: 单次执行所有步骤共享一个 ID

## 落地实践: TPerf 性能平台智能分析 Agent

### 项目背景
- **目标**: 自动分析 TPerf 平台的性能数据(接口响应时间/吞吐量/错误率)
- **输入**: 时间窗口 + 服务名 + 指标类型
- **输出**: 异常点定位 + 根因假设 + 优化建议

### 测评落地
- **日常回归**: 确定性评分器(指标计算公式正确性 + 告警逻辑正确性)
- **质量评估**: Rubric 评分器(根因分析的合理性 + 建议的可执行性)
- **校准**: 人工评分器(每月抽样 50 例,与 Rubric 评分对照校准)

### 关键收益
- **模型升级决策**: 每次新模型发布可量化对比
- **Prompt 微调效果**: 改 prompt 后自动跑分,看趋势
- **悄悄退化告警**: 历史基线对比,异常波动立即发现

## 与已有评测实体的关系

| 视角 | 本篇(腾讯 TEG 2026-06-16) | Anthropic Demystifying | WalleZhang YAML | Spotify Funnel | Langfuse Lotte |
|------|-------------------------|---------------------|----------------|---------------|---------------|
| **核心定位** | 腾讯 TEG 生产级落地 | 官方概念框架 | YAML 声明式框架 | 实验文化漏斗 | 三种方法拆解 |
| **评委分类** | **三类(确定性+Rubric+人工)** | grader 抽象 | pass@k + llm + constraint | funnels before exp | 人工+代码+LLM-as-Judge |
| **评估维度** | **5 维(功能/过程/效率/鲁棒/体验)** | 过程/结果/效率 | pass@k + pass^k | 漏斗指标 | 单方法 |
| **Trace 捕获** | **核心组件**(JSON Lines + Schema) | transcript/trace/trajectory | 简单记录 | 未涉及 | 未涉及 |
| **错误级联** | **明确定义**(本篇独家痛点) | 未涉及 | 未涉及 | 未涉及 | 未涉及 |
| **悄悄退化** | **明确定义**(本篇独家痛点) | 未涉及 | 未涉及 | 未涉及 | 未涉及 |
| **生产落地** | **TPerf**(本篇独家) | 概念 | 框架 | Spotify 实践 | 概念 |

### 三类评委与三方法的对应

| 维度 | 腾讯 TEG 三类评委 | Langfuse 三方法 |
|------|-----------------|----------------|
| 主观强/慢 | **人工评分器(专家)** | 人工评估 |
| 客观快 | **确定性评分器** | 基于代码的评估 |
| 灵活中 | **Rubric 评分器(LLM-as-Judge)** | LLM-as-a-Judge |

> 两套分类完全对应,但腾讯 TEG 加了**"日常主力/扩展能力/校准兜底"的角色定位** — 这是腾讯对 Langfuse 抽象的**生产级细化**。

## 关键独到判断

- **三类评委组合**(确定性 + Rubric + 人工): 没有银弹,必须组合 — 本篇的核心方法论贡献
- **五大维度**(功能/过程/效率/鲁棒/体验): 比 Anthropic 的"过程/结果/效率"更全面,加入**鲁棒性安全**和**体验对齐**
- **错误级联放大**(本篇独家痛点): 一次任务几十步工具调用,前序小偏差逐级放大 — 这是 Agent 与传统软件的根本差异
- **悄悄退化**(本篇独家痛点): 改 Prompt 或升级依赖,旧场景悄悄变差无人知晓 — 直到用户投诉才暴露
- **TPerf 落地实战**: 指标计算公式 + 告警逻辑 + 根因分析 + 优化建议 — 完整评估闭环
- **Rubric 三要素**(criteria/scale/rubric): 比 Langfuse 抽象的 LLM-as-Judge 更具体到可执行模板
- **Trace 捕获 Schema 校验**: 强制字段类型,防止数据漂移 — 工程纪律

## 实践启示

- **三类评委组合**: 不要只用 LLM-as-Judge — 加确定性评分器做日常主力,人工评分器做校准兜底
- **五大维度全覆盖**: 不能只看"最终答案对不对",要评估过程/效率/鲁棒/体验
- **建立 Trace 捕获**: 没有 Trace 就无法做"过程质量"评估 — Trace 是 Agent 评测的基础设施
- **悄悄退化告警**: 历史基线对比,异常波动立即发现 — 避免"靠用户投诉才发现"
- **Rubric 模板可复用**: 把好的 Rubric 沉淀为模板,跨项目复用
- **人工评分器做校准**: 每月抽样 50 例,与 Rubric 评分对照校准 — 防止 LLM 评分漂移
- **TPerf 案例可参考**: 性能分析 Agent 是"任务型 + 知识型 Skill"的典型组合,适合作为入门参考

→ 与 [[concepts/ai-evals-methodology]] (Langfuse 抽象三方法) + [[entities/anthropic-demystifying-evals-for-ai-agents]] (Anthropic 官方) + [[entities/spotify-llm-evals-funnel-not-fork]] (Spotify 实验文化) 互补,本文是腾讯 TEG **生产级落地实践**。