--- title: "Agent可观测体系拆解" source_url: "https://www.xiaohongshu.com/explore/6a044cb40000000036033a76" created: 2026-07-02 updated: 2026-07-02 type: article tags: [xiaohongshu, agent, observability, llmops, evaluation, trace, monitoring] ingested: 2026-07-02 sha256: e5f6a7b8c9d0e1f2a3b4c5d6e7f8a9b0c1d2e3f4a5b6c7d8e9f0a1b2c3d4e5f6 --- # Agent可观测体系拆解 ## Agent 生产翻车三大问题 1. 突然乱调用工具 2. 用户问 A 却回答 B(RAG 召回 vs 模型幻觉) 3. 成本暴涨,哪个子 Agent 在烧钱 ## 五层可观测体系 ### 1. 运行层 + 遥测采集层 把"过程"变成数据。Agent 的每一次推理、工具调用、检索、子 Agent 协作,都要被无侵入地采集。 ### 2. 数据处理管道 原始 trace 包含:用户隐私(手机号、地址)、模型返回的杂乱内容、工具返回的冗余 JSON。 管道要做:清洗、脱敏、关联聚合。 ### 3. 评测层 + 评测引擎 引入生产环境自动评测 + LLM-as-a-Judge。五维评分: - **正确性**(答案对不对) - **相关性**(有没有胡扯) - **幻觉检测**(事实冲突) - **工具选择**(该用计算器却问了 LLM) - **计划质量**(多步任务是不是走偏了) ### 4. 数据存储与处理层 | 数据类型 | 存储方案 | 选型理由 | |---------|---------|---------| | Trace | ClickHouse | 写入快,按 trace_id 点查快 | | 日志 | Loki | 便宜,与 Prometheus 生态一体 | | 向量 | Vector DB | 追溯检索片段 | | 评测结果 | PostgreSQL | 支持 score + model_name + version 索引 | ### 5. 可视化与消费层 - 开发人员:Trace 详情、单步耗时、工具调用参数 - 运维:告警(幻觉率 >5% / 单次 cost >$0.5)、仪表盘 - 产品/管理:成本趋势、质量分数、用户满意度 - 安全/合规:审计日志、隐私泄漏检测结果 ## 最难的事:评测基准不漂移 1. LLM-as-a-Judge 觉得好的答案,换了 Judge 模型又不认 2. 优化了 Correlation,却伤害了 Plan Quality 解决办法: - 固定若干个黄金评测集(永不变化) - 每次评测同时跑黄金集 + 生产采样,看"相对退化"