--- title: "AI Agent & Skill 测评方案及落地实践 — 腾讯 TEG 网关测试团队" source_url: https://mp.weixin.qq.com/s/PUbGqheJhFMmb6hGj1ZtOw publish_date: 2026-06-16 tags: [wechat, article, agent-evaluation, eval-framework, tperf, three-judges, five-dimensions, rubric-grader, deterministic-grader, human-grader, llm-as-judge, trace-capture, error-cascade, tencent-teg, 网关测试, martinskxu, prod-engineering, agent-quality] review_value: 9 review_confidence: 9 review_recommendation: ingest sha256: 88e31ff9608a785edaec38f90055ec06cac80334c1e328ee4fc1001027e9c62c --- # AI Agent & Skill 测评方案及落地实践 — 腾讯 TEG 网关测试团队 > Source: https://mp.weixin.qq.com/s/PUbGqheJhFMmb6hGj1ZtOw > Author: martinskxu (腾讯程序员 / 腾讯技术工程) > Date: 2026-06-16 17:33 > Collected: 2026-06-16 > Team: TEG 云架构平台部 网关测试团队 ## 一句话总结 **腾讯 TEG 网关测试团队的 AI Agent 测评体系**:面对 Agent **非确定性 / 黑盒化 / 错误级联放大**三大难题,建立 **"确定性评分器 + Rubric 评分器 + 人工评分器"** 三类评委组合的完整框架,覆盖 **功能正确性 / 过程质量 / 效率成本 / 鲁棒性安全 / 体验对齐** 五大维度,已在 **TPerf 性能平台智能分析 Agent 项目**落地验证。 ## 三大痛点(Agent 自主性带来的) 1. **非确定性**: 同一 prompt 多次执行结果不同,"跑通一次"≠"稳定能跑" 2. **黑盒化**: 模型升级/Prompt 微调/工具链变化 → 行为漂移,肉眼难察觉 3. **错误级联放大**: 一次任务涉及几十步工具调用,前序小偏差沿链路逐级放大,结论完全偏离 ## 没有测评的 6 大被动局面 | 痛点 | 后果 | |------|------| | 主观性强 | 依赖"感觉变好了"的直觉判断,缺乏量化依据 | | 悄悄退化 | 改了 Prompt 或升级依赖,旧场景悄悄变差无人知晓 | | 人工验证成本高 | Skill 越多/模型迭代越快,人肉回归成本指数级增长 | | 模型不敢升级 | 新模型发布没对比数据,错过能力提升和成本下降的红利 | | 缺少效率基线 | 没延迟/Token/费用历史基线,变贵变慢无法定位归因版本 | | 过程易忽略 | 最终答案碰巧正确但推理路径错,无法区分"正确调用工具"vs"碰巧答对" | ## 核心理念: Eval 公式 > **Eval(评估) = Agent 输入 → 执行 → 捕获执行过程(Trace + 产物) → 一组检查规则 → 可对比的分数** **Trace**: 执行轨迹是 Agent 执行过程中产生的结构化日志,记录每步的工具调用/参数/返回值/思考过程。 **目标**: 建立**可重复、可量化、可持续演进**的评估闭环,**用数据代替直觉,用全量代替抽查**。 ## 测评框架: 三类评委(谁来打分?) ``` ┌────────────────────────────────┐ │ 确定性评分器 │ │ (脚本/断言/Lint/AST) │ │ 快/便宜/客观/可复现 │ │ ⇨ 负责所有"能用代码判断"的事 │ └────────────────────────────────┘ ↑ 日常主力 │ ┌────────────────────────────────┐ │ 模型评分器 (Rubric) │ │ (LLM-as-Judge + Prompt + Schema) │ │ 灵活/可扩展/处理开放式输出 │ │ ⇨ 负责"代码搞不定但能结构化描述" │ └────────────────────────────────┘ ↑ 扩展能力 │ ┌────────────────────────────────┐ │ 人工评分器 (专家) │ │ 昂贵/慢/黄金标准 │ │ ⇨ 负责"校准/诊断/兜底" │ └────────────────────────────────┘ ``` **核心洞察**: Agent 测评**没有"银弹评分器"**,必须三类组合使用。 ### 三类评委对照表 | 维度 | 确定性评分器 | Rubric 评分器 | 人工评分器 | |------|------------|--------------|----------| | 实现成本 | 低 | 中 | 高 | | 运行速度 | 快 | 中 | 慢 | | 客观性 | 强 | 中 | 弱 | | 适用场景 | 文件存在/调用正确/格式合规 | 推理合理性/建议质量 | 校准/诊断/兜底 | | 维护成本 | 低 | 中 | 高 | | 角色 | 日常主力 | 扩展能力 | 黄金标准 | ## 五大维度(评什么?) | 维度 | 内容 | |------|------| | **功能正确性** | 最终答案对不对?任务完成没? | | **过程质量** | 路径是否合理?工具调用正确?推理逻辑对? | | **效率成本** | 延迟/Token/费用/步数 | | **鲁棒性安全** | 异常输入/对抗 prompt 注入/越权 | | **体验对齐** | 输出风格/语气/可读性/用户满意度 | ## 用例设计 (Agent × Skill 二维分类) ### Agent 类型 - **Task Agent** (任务型): 单一明确目标(查询/计算/调用) - **Workflow Agent** (工作流型): 多步流程编排 - **Decision Agent** (决策型): 复杂场景推理 ### Skill 类型 - **Tool Skill** (工具型): 调用外部 API/CLI - **Knowledge Skill** (知识型): 检索/RAG - **Code Skill** (代码型): 执行代码/分析数据 ### 评估矩阵 按"Agent 类型 × Skill 类型"二维交叉生成测试用例,覆盖所有组合。 ## Rubric 设计(模型评分器核心) ### Rubric 三要素 1. **评分维度**(criteria): 准确性/完整性/格式/推理合理性 2. **评分量表**(scale): 0-5 分制或 0-1 连续分 3. **评分说明**(rubric): 每个分数段对应的具体描述 ### 示例 Rubric(智能分析 Agent) | 维度 | 0 分 | 1 分 | 2 分 | 3 分 | |------|------|------|------|------| | 准确性 | 完全错误 | 部分正确 | 基本正确 | 完全正确 | | 完整性 | 只回答 1 点 | 回答 <50% | 回答 ≥50% | 全覆盖 | | 格式 | 不符合 | 部分符合 | 基本符合 | 完全符合 | ## Trace 捕获(执行过程记录) ### 必抓字段 - **每步的输入/输出/耗时/Token 消耗** - **工具调用的完整参数和返回值** - **模型的思考过程(thinking / reasoning)** - **错误信息(异常类型/堆栈/恢复路径)** ### 存储格式 - **JSON Lines**: 每步一行,便于流式写入和回放 - **Schema 校验**: 强制字段类型,防止数据漂移 - **关联 run_id**: 单次执行所有步骤共享一个 ID ## 落地实践: TPerf 性能平台智能分析 Agent ### 项目背景 - **目标**: 自动分析 TPerf 平台的性能数据(接口响应时间/吞吐量/错误率) - **输入**: 时间窗口 + 服务名 + 指标类型 - **输出**: 异常点定位 + 根因假设 + 优化建议 ### 测评落地 - **日常回归**: 确定性评分器(指标计算公式正确性 + 告警逻辑正确性) - **质量评估**: Rubric 评分器(根因分析的合理性 + 建议的可执行性) - **校准**: 人工评分器(每月抽样 50 例,与 Rubric 评分对照校准) ### 关键收益 - **模型升级决策**: 每次新模型发布可量化对比 - **Prompt 微调效果**: 改 prompt 后自动跑分,看趋势 - **悄悄退化告警**: 历史基线对比,异常波动立即发现 ## 与已有评测实体的关系 | 视角 | 本篇(腾讯 TEG 2026-06-16) | Anthropic Demystifying | WalleZhang YAML | Spotify Funnel | Langfuse Lotte | |------|-------------------------|---------------------|----------------|---------------|---------------| | **核心定位** | 腾讯 TEG 生产级落地 | 官方概念框架 | YAML 声明式框架 | 实验文化漏斗 | 三种方法拆解 | | **评委分类** | **三类(确定性+Rubric+人工)** | grader 抽象 | pass@k + llm + constraint | funnels before exp | 人工+代码+LLM-as-Judge | | **评估维度** | **5 维(功能/过程/效率/鲁棒/体验)** | 过程/结果/效率 | pass@k + pass^k | 漏斗指标 | 单方法 | | **Trace 捕获** | **核心组件**(JSON Lines + Schema) | transcript/trace/trajectory | 简单记录 | 未涉及 | 未涉及 | | **错误级联** | **明确定义**(本篇独家痛点) | 未涉及 | 未涉及 | 未涉及 | 未涉及 | | **悄悄退化** | **明确定义**(本篇独家痛点) | 未涉及 | 未涉及 | 未涉及 | 未涉及 | | **生产落地** | **TPerf**(本篇独家) | 概念 | 框架 | Spotify 实践 | 概念 | ### 三类评委与三方法的对应 | 维度 | 腾讯 TEG 三类评委 | Langfuse 三方法 | |------|-----------------|----------------| | 主观强/慢 | **人工评分器(专家)** | 人工评估 | | 客观快 | **确定性评分器** | 基于代码的评估 | | 灵活中 | **Rubric 评分器(LLM-as-Judge)** | LLM-as-a-Judge | > 两套分类完全对应,但腾讯 TEG 加了**"日常主力/扩展能力/校准兜底"的角色定位** — 这是腾讯对 Langfuse 抽象的**生产级细化**。 ## 关键独到判断 - **三类评委组合**(确定性 + Rubric + 人工): 没有银弹,必须组合 — 本篇的核心方法论贡献 - **五大维度**(功能/过程/效率/鲁棒/体验): 比 Anthropic 的"过程/结果/效率"更全面,加入**鲁棒性安全**和**体验对齐** - **错误级联放大**(本篇独家痛点): 一次任务几十步工具调用,前序小偏差逐级放大 — 这是 Agent 与传统软件的根本差异 - **悄悄退化**(本篇独家痛点): 改 Prompt 或升级依赖,旧场景悄悄变差无人知晓 — 直到用户投诉才暴露 - **TPerf 落地实战**: 指标计算公式 + 告警逻辑 + 根因分析 + 优化建议 — 完整评估闭环 - **Rubric 三要素**(criteria/scale/rubric): 比 Langfuse 抽象的 LLM-as-Judge 更具体到可执行模板 - **Trace 捕获 Schema 校验**: 强制字段类型,防止数据漂移 — 工程纪律 ## 实践启示 - **三类评委组合**: 不要只用 LLM-as-Judge — 加确定性评分器做日常主力,人工评分器做校准兜底 - **五大维度全覆盖**: 不能只看"最终答案对不对",要评估过程/效率/鲁棒/体验 - **建立 Trace 捕获**: 没有 Trace 就无法做"过程质量"评估 — Trace 是 Agent 评测的基础设施 - **悄悄退化告警**: 历史基线对比,异常波动立即发现 — 避免"靠用户投诉才发现" - **Rubric 模板可复用**: 把好的 Rubric 沉淀为模板,跨项目复用 - **人工评分器做校准**: 每月抽样 50 例,与 Rubric 评分对照校准 — 防止 LLM 评分漂移 - **TPerf 案例可参考**: 性能分析 Agent 是"任务型 + 知识型 Skill"的典型组合,适合作为入门参考 → 与 [[concepts/ai-evals-methodology]] (Langfuse 抽象三方法) + [[entities/anthropic-demystifying-evals-for-ai-agents]] (Anthropic 官方) + [[entities/spotify-llm-evals-funnel-not-fork]] (Spotify 实验文化) 互补,本文是腾讯 TEG **生产级落地实践**。