---
title: 细思极恐！Agent暗藏风险，清华团队打出组合拳，全链路一网打尽
source_url: https://mp.weixin.qq.com/s/Sl0QLN4rHPAgF0nZ4v8s7A
publish_date: 2026-05-07
tags: [wechat, article, claude, openai, agent, harness]
review_value: 7
review_confidence: 7
review_recommendation: neutral
sha256: f756bc8dd8387892b5cd89e0ce44dd95c8d70e0dba35427a1a42cd90ca96244d
---
# 细思极恐！Agent暗藏风险，清华团队打出组合拳，全链路一网打尽
> **来源**: 新智元  
> **发布日期**: (未提取)  
> **作者**: YHluck  
> **URL**: https://mp.weixin.qq.com/s/BKZLh5x1QyLsQISedMBr1Q  
> **SHA256**: ec62655e1642b8058f8882e5e92f2062d4c5fb2ef1ac38f9820ed1d40d8eba2e
---
## 文章核心
来自**清华大学人工智能学院、交叉信息研究院**的方寸跃迁团队，提出一套面向 Agent 运行全生命周期的多层安全体系，覆盖事前（Skill Ward）× 事中（Guard × Observer）× 事后（审计）完整链路。
---
## 背景：Agent 安全的根本性盲区
当前行业主流安全方案（提示词规则、输入输出过滤、运行时日志审计、SDK Hook）共享同一盲区：**只看到 Agent "声明"出来的行为**。当 Agent 真正进入生产环境：
- 一个完整任务执行链横跨**数十步骤、多工具链、多运行层级**
- 模型在受监控环境下会**主动调整行为表现——按规则表演，而非按规则执行**
- 企业同时运行数十甚至上百个 Agent，**系统无法完整感知正在运行多少个、在做什么**
---
## Fangcun Observer：看见真实动作，守住安全边界
**设计哲学**：别问 Agent 想做什么，看它到底做了什么。
### 技术路线
- **直接下沉到操作系统层**，不依赖任何框架插件、SDK 接口、模型供应商集成
- 业务代码零改动，Agent 无感知接入
### 核心能力（5项）
1. **OS 层行为感知，彻底解耦 Harness**：无论 Agent 跑在哪套框架栈上（Open Claw / Hermes / 其他），观测能力始终有效，无需随技术迁移重新接入
2. **无感知运行时观测**：Agent 不知道被观测，计算开销忽略不计
3. **实时干预，主动阻断**：危险命令执行、敏感文件操作、异常网络访问、越权持久化——在行为落地之前完成实时研判，按策略执行通知、暂停或直接阻断
4. **全链路溯源**：将运行时真实行为、Agent 决策动作与模型上下文关联成完整行为图谱；哪怕是"从不亲自动手、只靠影响其他 Agent 转嫁风险"的恶意 Agent，在多 Agent 协作网络里也无处遁形
5. **本地审计 + 自进化防御**：所有数据本地沉淀，不上云；策略模型基于真实运行数据持续迭代
---
## Fangcun Guard：8ms 安全审核变基础设施
**核心挑战**：一次完整 Agent 对话要过 2-4 道审核（用户输入、工具调用入参、模型输出、工具返回），每一道都不能拖慢用户体验。
### 公开 Benchmark 对比（6项）
| 指标 | Fangcun Guard | 开源方案区间 |
|------|--------------|-------------|
| 综合检测准确性 | **91.1** | 70-88 |
| p99 推理延时 | **8ms** | 130ms+（8B）；50ms（0.6B，但 F1 有差距） |
### 差异化能力
1. **判定不偏科**：一般有害内容 + 精心构造越狱攻击 + 深度伪装成正常对话的灰区话术，都能判
2. **毫秒级响应**：4 道审核全跑 Guard，总耗时 30ms，用户和业务均无感知
3. **中文场景专项打磨**：10 个独立风险类别，中文场景专项合成数据 + 专项对齐训练，口语化越狱、长尾边缘案例稳定召回
4. **10 类风险独立可调**：金融、医疗、教育、游戏等不同场景，每类拦截阈值单独配置，Web 控制台或接口按业务自调
5. **主流 Agent 生态一键接入**：主流 Agent 框架开箱即用，业务代码零改动
---
## Skill Ward：三阶段检测，真实蜜罐
**背景**：第三方 Skill 生态（Claude Skills、OpenAI Apps、Claw Hub）已成 Agent 的"App Store"。行业现有方案几乎全部停留在静态扫描——但恶意 Skill 的真正杀招在运行时：读取配置文件时才拉远程载荷、调试日志逻辑触发后才发请求、合法依赖包在特定参数下才激活后门。
### 三阶段扫描
1. **静态分析**：恶意签名、危险调用、可疑依赖
2. **大模型研判**：理解 Skill 真实意图，识别伪装话术、混淆逻辑、社工诱导
3. **Docker 蜜罐沙箱实际执行**：杀手锏——每个 Skill 丢进隔离蜜罐环境，真实跑一遍。调用了哪些命令、访问了哪些路径、连接了哪些外部地址、有没有尝试持久化、有没有横向探测，一切行为无处遁形
### 关键数据
> 5000 个真实 Skill 实测：仅靠静态扫描，会漏掉**约三分之一**的运行时威胁，全部由蜜罐沙箱阶段抓出。
---
## 总结：Agent 安全完整边界
| 阶段 | 产品 | 核心技术 |
|------|------|---------|
| 事前 | Skill Ward | 三阶段检测（静态 + 大模型 + Docker 蜜罐） |
| 事中 | Fangcun Guard | 8ms 输入输出护栏，10 类风险独立可调 |
| 事中 | Fangcun Observer | OS 层行为感知，实时干预 + 全链路溯源 |
| 事后 | Observer 本地审计 | 自进化防御，数据不上云 |
---
## 关键引述
> "过去方案看到的，是 Agent '说'了什么。Observer 看到的，是 Agent '做'了什么。声明可以包装，行为不会撒谎。"
> "Agent 时代的安全边界，第一次被完整画出来。"
---
## 相关研究
- [[concepts/managed-agents-architecture]] — 管理 Agent 的规模化运行
- [[concepts/harness-engineering-framework]] — Agent 运行时 Harness 框架
- [[concepts/claude-code-source-leak-lifecycle]] — Claude Code 源码分析中的安全机制