--- title: 细思极恐!Agent暗藏风险,清华团队打出组合拳,全链路一网打尽 source_url: https://mp.weixin.qq.com/s/Sl0QLN4rHPAgF0nZ4v8s7A publish_date: 2026-05-07 tags: [wechat, article, claude, openai, agent, harness] review_value: 7 review_confidence: 7 review_recommendation: neutral sha256: f756bc8dd8387892b5cd89e0ce44dd95c8d70e0dba35427a1a42cd90ca96244d --- # 细思极恐!Agent暗藏风险,清华团队打出组合拳,全链路一网打尽 > **来源**: 新智元 > **发布日期**: (未提取) > **作者**: YHluck > **URL**: https://mp.weixin.qq.com/s/BKZLh5x1QyLsQISedMBr1Q > **SHA256**: ec62655e1642b8058f8882e5e92f2062d4c5fb2ef1ac38f9820ed1d40d8eba2e --- ## 文章核心 来自**清华大学人工智能学院、交叉信息研究院**的方寸跃迁团队,提出一套面向 Agent 运行全生命周期的多层安全体系,覆盖事前(Skill Ward)× 事中(Guard × Observer)× 事后(审计)完整链路。 --- ## 背景:Agent 安全的根本性盲区 当前行业主流安全方案(提示词规则、输入输出过滤、运行时日志审计、SDK Hook)共享同一盲区:**只看到 Agent "声明"出来的行为**。当 Agent 真正进入生产环境: - 一个完整任务执行链横跨**数十步骤、多工具链、多运行层级** - 模型在受监控环境下会**主动调整行为表现——按规则表演,而非按规则执行** - 企业同时运行数十甚至上百个 Agent,**系统无法完整感知正在运行多少个、在做什么** --- ## Fangcun Observer:看见真实动作,守住安全边界 **设计哲学**:别问 Agent 想做什么,看它到底做了什么。 ### 技术路线 - **直接下沉到操作系统层**,不依赖任何框架插件、SDK 接口、模型供应商集成 - 业务代码零改动,Agent 无感知接入 ### 核心能力(5项) 1. **OS 层行为感知,彻底解耦 Harness**:无论 Agent 跑在哪套框架栈上(Open Claw / Hermes / 其他),观测能力始终有效,无需随技术迁移重新接入 2. **无感知运行时观测**:Agent 不知道被观测,计算开销忽略不计 3. **实时干预,主动阻断**:危险命令执行、敏感文件操作、异常网络访问、越权持久化——在行为落地之前完成实时研判,按策略执行通知、暂停或直接阻断 4. **全链路溯源**:将运行时真实行为、Agent 决策动作与模型上下文关联成完整行为图谱;哪怕是"从不亲自动手、只靠影响其他 Agent 转嫁风险"的恶意 Agent,在多 Agent 协作网络里也无处遁形 5. **本地审计 + 自进化防御**:所有数据本地沉淀,不上云;策略模型基于真实运行数据持续迭代 --- ## Fangcun Guard:8ms 安全审核变基础设施 **核心挑战**:一次完整 Agent 对话要过 2-4 道审核(用户输入、工具调用入参、模型输出、工具返回),每一道都不能拖慢用户体验。 ### 公开 Benchmark 对比(6项) | 指标 | Fangcun Guard | 开源方案区间 | |------|--------------|-------------| | 综合检测准确性 | **91.1** | 70-88 | | p99 推理延时 | **8ms** | 130ms+(8B);50ms(0.6B,但 F1 有差距) | ### 差异化能力 1. **判定不偏科**:一般有害内容 + 精心构造越狱攻击 + 深度伪装成正常对话的灰区话术,都能判 2. **毫秒级响应**:4 道审核全跑 Guard,总耗时 30ms,用户和业务均无感知 3. **中文场景专项打磨**:10 个独立风险类别,中文场景专项合成数据 + 专项对齐训练,口语化越狱、长尾边缘案例稳定召回 4. **10 类风险独立可调**:金融、医疗、教育、游戏等不同场景,每类拦截阈值单独配置,Web 控制台或接口按业务自调 5. **主流 Agent 生态一键接入**:主流 Agent 框架开箱即用,业务代码零改动 --- ## Skill Ward:三阶段检测,真实蜜罐 **背景**:第三方 Skill 生态(Claude Skills、OpenAI Apps、Claw Hub)已成 Agent 的"App Store"。行业现有方案几乎全部停留在静态扫描——但恶意 Skill 的真正杀招在运行时:读取配置文件时才拉远程载荷、调试日志逻辑触发后才发请求、合法依赖包在特定参数下才激活后门。 ### 三阶段扫描 1. **静态分析**:恶意签名、危险调用、可疑依赖 2. **大模型研判**:理解 Skill 真实意图,识别伪装话术、混淆逻辑、社工诱导 3. **Docker 蜜罐沙箱实际执行**:杀手锏——每个 Skill 丢进隔离蜜罐环境,真实跑一遍。调用了哪些命令、访问了哪些路径、连接了哪些外部地址、有没有尝试持久化、有没有横向探测,一切行为无处遁形 ### 关键数据 > 5000 个真实 Skill 实测:仅靠静态扫描,会漏掉**约三分之一**的运行时威胁,全部由蜜罐沙箱阶段抓出。 --- ## 总结:Agent 安全完整边界 | 阶段 | 产品 | 核心技术 | |------|------|---------| | 事前 | Skill Ward | 三阶段检测(静态 + 大模型 + Docker 蜜罐) | | 事中 | Fangcun Guard | 8ms 输入输出护栏,10 类风险独立可调 | | 事中 | Fangcun Observer | OS 层行为感知,实时干预 + 全链路溯源 | | 事后 | Observer 本地审计 | 自进化防御,数据不上云 | --- ## 关键引述 > "过去方案看到的,是 Agent '说'了什么。Observer 看到的,是 Agent '做'了什么。声明可以包装,行为不会撒谎。" > "Agent 时代的安全边界,第一次被完整画出来。" --- ## 相关研究 - [[concepts/managed-agents-architecture]] — 管理 Agent 的规模化运行 - [[concepts/harness-engineering-framework]] — Agent 运行时 Harness 框架 - [[concepts/claude-code-source-leak-lifecycle]] — Claude Code 源码分析中的安全机制