---
title: "做Agent评测的几个反直觉感悟"
source_url: "https://www.xiaohongshu.com/discovery/item/6a14f1040000000008025eea"
author: "脆皮乌龙茶"
platform: "小红书"
created: 2026-05-26
updated: 2026-06-27
type: article
tags: [agent, eval, langfuse, tracing, product-thinking, counterintuitive]
ingested: 2026-06-27
---

# 做Agent评测的几个反直觉感悟

最近做拿langfuse做Evals遇到了点棘手的事，每次都是从用户的badcase入手去做归因，但是这些bad case通常都有这样一些特征：极端边界、模型幻觉、技术修复ROI高、偶发。而且那么长的tracing链条，尽管修好了这些badcase还可能产生更高的token成本…

然后系统扒了下langfuse源码，梳理了下产品经理看Tracing的一些方法论：

**Key Takeaways：**

一个 Agent 如果为了给出更稳的答案，每次都做 8 次检索、3 次 rerank、5 次模型调用，demo 会显得很聪明，线上却可能变成不可承受的成本结构。Trace 能把这个问题暴露出来：不是总成本高，而是哪一个 Observation 让成本失控；不是整体慢，而是哪一步阻塞了用户等待。

这会带来一个反直觉判断：有些质量优化看似提升答案，实际是在破坏产品可规模化性。比如把更多上下文塞进 prompt，短期可能提升准确率，但 token 成本和 latency 会上升；引入更强 judge 或更多 self-check，也可能让体验等待变长。Tracing 的价值，是让这些取舍不再停留在架构师脑中，而变成产品评审中可以讨论的线索。

---

*标签：#Eval #Agent #产品思维 #反直觉 #langfuse*
*发布时间：2026-05-26*
*作者：脆皮乌龙茶（小红书）*