--- source_url: "https://mp.weixin.qq.com/s/TMccM7M3LaoFMpPbG33drw"" ingested: 2026-06-26 sha256: 623e38de10fb4536 --- sha256: 485bab9c042d648d --- title: "Thought-Aligner:智能体行为安全新范式——上海创智学院 × 复旦 ICML 2026 思维校正" source_url: "https://mp.weixin.qq.com/s/TMccM7M3LaoFMpPbG33drw" author: "蒋昌跃 / 潘旭东 / 杨珉" feed_name: "机器之心(投稿)" publish_date: 2026-06-01 created: 2026-06-01 ingested: 2026-06-01 tags: - thought-aligner - agent-safety - behavioral-safety - thought-correction - pluggable - icml-2026 - fudan - shanghai-innovation-institute - openclaw - arxiv-2505.11063 - wechat type: article review_value: 9 review_confidence: 9 review_recommendation: strong review_stars: 5 sha256: c7d8e9f0a1b2c3d4e5f6789abcdef0123456789abcdef0123456789abcdef0123 --- # Thought-Aligner:智能体行为安全新范式——上海创智学院 × 复旦 ICML 2026 思维校正 > 来源:微信公众号(机器之心投稿)|2026-06-01 > 论文标题:Think twice before you act: Enhancing agent behavioral safety with thought correction ## 核心论点 大模型从「会说」走向「会做」,**AI 安全问题的核心正从「内容是否安全」,转向「行为是否可靠」**。 Thought-Aligner 是上海创智学院与复旦大学提出的智能体行为安全新范式:一种**轻量级智能体「思维校正」**新思路——**在智能体执行工具前修正其推理偏差,从源头防范行为风险**。该工作已被 ICML 2026 接收。 - 论文链接:https://arxiv.org/abs/2505.11063 - 项目主页:https://github.com/WhitzardAgent/Thought-Aligner - 模型地址(Hugging Face):https://huggingface.co/WhitzardAgent/Thought-Aligner-7B - 模型地址(ModelScope):https://www.modelscope.cn/models/bgbgbrt/Thought-Aligner-7B-v1.0 ## 政策背景:行为安全成为 AI 治理新重点 2026 年 5 月 8 日,国家网信办、国家发展改革委、工业和信息化部联合印发《智能体规范应用与创新发展实施意见》,明确将「**安全、可靠、可信**」作为智能体发展底线,强调强化**任务理解、权限管控、异常干预**等行为级安全能力。我国 AI 治理正加速从「**管输出**」延伸至「**管行为**」。 ^[raw/articles/thought-aligner-shanghai-fudan-icml-2026.md] ## 为什么智能体安全更难? ### 传统大模型 vs 智能体的风险分布 - **传统大模型**:风险集中在**输出内容**里 - **智能体**:风险更多出现在「**决策到执行**」的行为链条里 Agent 以「**Thought(思考)- Action(行动)- Observation(观察)**」的循环完成任务——先在内部形成推理,再调用工具或执行动作,根据环境反馈继续下一轮决策。 ### 危险行为的真正起点 > 很多危险行为并不是从明显的恶意指令开始的,而是从一个**看似合理、但已经偏离安全边界的 Thought** 开始。 例如: - 用户要求删除某个测试任务,Agent 可能在推理时**误把名称相近的重要任务也纳入删除范围** - 为了更快完成目标,**在内部推理中默认跳过确认、备份、权限校验**等关键步骤 这类风险的本质并不是「最后一步动作突然变坏」,而是 Agent **在更早的推理阶段已经「想偏了」**。很多时候,Agent 不是「故意做坏事」,而是「**先想偏了,才做错了**」。 ### 传统端点拦截的局限 如果只在输出端或动作端做拦截,会面临两个问题: - **发现得太晚**——可能已经接近真实执行 - **拦得太粗**——容易把复杂任务一刀切终止,牺牲智能体的可用性 > 真正理想的智能体安全防御,不应只是让 Agent「别做事」,而应让它在做事之前,**先把「思路想对」**。 ## Thought-Aligner:给智能体装上「思维修正器」 ### 核心思想 Thought-Aligner 的核心思想很直接: > 在 Agent 生成不安全 Thought、但**尚未执行 Action 的毫秒级窗口内**,**修正其推理逻辑**,再让原 Agent 基于更安全的 Thought 继续完成任务。 **关键设计决策**: 1. **多轮持续影响**:即使某一轮修正没有立刻改变当时的动作,修正后的 Thought 仍会**进入上下文历史**,对后续多轮交互形成**持续影响**。这意味着它不仅是在「救当前一步」,也是在「**矫正后续整条轨迹**」。 2. **防御恶意 + 良性指令非预期行为**:不仅能防御各种方式的恶意攻击,针对「良性指令」可能导致的非预期行为风险也具有有效的防御效果。 > Thought-Aligner 防的不是「最后一步的动作」,而是「**动作背后的危险念头**」。 这种设计使 Thought-Aligner **不只是一个风险检测器**,而更像是**嵌入智能体推理链路中的「安全校正层」**。 ### 部署位置 > Thought-Aligner 部署在「**Thought 生成之后、工具调用之前**」,保证每一步都不越界,从而让长链任务在整体上更安全。 ^[raw/articles/thought-aligner-shanghai-fudan-icml-2026.md] ## 三个特点:轻量、可插拔、维持有用性 ### 1. 轻量级、可插拔 Thought-Aligner 的第一个特点,是**不需要改动原始智能体模型**。 它作为一个**可插拔组件**,部署在 Agent 每一轮交互中的 Thought 生成之后、Action 执行之前,**无需对原始 Agent 模型进行重新训练**。无论底层 Agent 使用的是闭源商业模型,还是开源大模型,只要其推理链路中包含可访问的中间 Thought,就可以接入 Thought-Aligner 进行动态修正。 > 这使它更接近一种**工程可落地的安全组件**,而不是只能在特定模型上运行的封闭方案。 ### 2. 不追求简单粗暴「拦住一切」 许多之前的安全防御方法都面临一个共同矛盾:**安全性提高了,但系统变得不敢做事**。用户一旦提出稍复杂、稍敏感的任务,Agent 就倾向于拒绝、打断或终止,最终变成「**看起来很安全,但实际不太能干活**」。 Thought-Aligner 的设计目标**并不是把智能体变成一个「处处不敢动」的系统**,而是在不破坏任务连续性的前提下,把高风险 Thought 修正为更审慎、更合规的执行思路,让它**以更安全的方式继续做事**。它会尽量保留原任务目标,只修正其中越过安全边界的推理部分,从而在**安全性和有用性之间取得更好的平衡**。 ### 3. 低延迟和可部署性 Thought-Aligner 提供 **1.5B 和 7B 两种规模**: - **1.5B 版本**:在标准 PC 上的单次 Thought 修正延迟可控制在 **100 ms 以内** - 可以嵌入智能体的在线执行链路,在**毫秒级窗口内完成安全干预**,而不显著拖慢任务执行过程 > 这意味着它并不是一个只能在论文里跑通的「重型安全系统」,而是**具备工程落地可行性的安全模块**。 ## 数据与训练:让模型学会「怎么把危险念头改对」 ### 为什么需要深度训练 智能体安全并不是简单的关键词过滤。 同样是「删除」「访问」「下载」「调用工具」,在不同任务和上下文中可能具有完全不同的风险含义。模型需要判断的不只是某个词是否敏感,而是: - 当前任务的真实目标是什么? - 这一步推理是否越过了安全边界? - 如果存在风险,应如何在**不破坏任务目标**的前提下进行修正? - 修正后的 Thought 是否仍然能指导 Agent 继续完成任务? ### 训练数据构建 研究团队围绕**隐私保护、金融安全、网络安全等 10 类代表性高风险场景**,构建了: - **安全 / 不安全 Thought 偏好数据对** - 基于 **ReAct 轨迹模拟**生成多样化任务与推理过程 - 为保证数据质量,构建了**数据校验与修复流水线** 基于得到的高质量数据,再经过**两阶段的微调训练**得到 Thought-Aligner。 > 通过这种训练方式,Thought-Aligner 学到的不是静态规则,而是**面向智能体执行过程的动态「思维校正」能力**。 ## 实验结果:安全性显著提升,同时保留任务能力 ### 多基准测试覆盖 研究团队在以下**主流基准**上完成评估,覆盖多种大语言模型和多种不同攻击类型的智能体风险场景: - ToolEmu - Agent-SafetyBench - AgentHarm - AgentDojo - InjecAgent ### 关键数字 Thought-Aligner 能够将**无防护状态下约 50% 的行为安全水平,提升到约 90% 的平均水平**;**相较之前的安全防御方法,平均安全收益约为 23%**。 更重要的是,它**并没有以显著牺牲有用性为代价换取安全性**。在多个测试场景中,Thought-Aligner 不仅提升了安全率,也帮助 Agent 更稳定地完成原始任务。 > 「思维校正」并不是简单地让 Agent 更保守,而是让它**在风险任务中形成更稳妥的执行路径**。 ## 从 Benchmark 到真实部署 ### OpenClaw(龙虾)实机验证 除了在 ToolEmu、Agent-SafetyBench 等模拟类基准测试中完成验证外,团队进一步将 Thought-Aligner 部署至 **OpenClaw(龙虾)**实机环境开展真实场景验证。OpenClaw 作为具备本地执行与跨应用协同能力的**开源 AI 智能体框架**,可直接操作系统与应用,测试更贴近真实风险场景。 实测结果表明,**Thought-Aligner 能够显著增强 OpenClaw 智能体在真实任务执行中的行为安全性,有效降低高风险操作概率**。 在 **CIK-Bench 子集**上测试部署 Thought-Aligner 后的 OpenClaw,显著提升其行为安全性,同时维持有用性。 > 在真实感知、决策与控制闭环中,Agent 面临的不再是静态测试题,而是**持续变化的环境状态和实际执行风险**。Thought-Aligner 在该平台上的验证表明,思维校正机制不仅可以在 benchmark 上提升指标,也**具备进入真实智能体系统的潜力**。 ## 结语:真正可信的智能体,必须先学会「三思而后行」 > 智能体时代,安全不再只是附加功能,而是**决定系统能否真正进入现实世界的基础能力**。 我们正在进入一个「**Agent 真正开始接管任务**」的阶段: - 办公自动化 - 个人助理 - 软件开发 - 网络运维 - 终端设备控制 - 具身智能协作 未来的智能体都不会只停留在「给建议」的层面,而会**越来越多地参与「做决定」和「执行动作」**。但越是能执行任务的系统,**越需要更可靠的安全边界**。 ### 范式转变 > Thought-Aligner 提供了一种全新的安全思路:**从阻断式的「规则拦截」,走向修复式的「思维校正」**。 Thought-Aligner 的价值,恰恰在于它**没有选择最简单的「拦住一切」**,而是试图回答一个更难也更重要的问题: > **怎样让智能体在继续完成任务的同时,变得更审慎、更稳妥、更值得信任**。 > 真正可信的智能体,不应只是更聪明,也应更稳妥。**在行动之前,先校正思路;在风险发生之前,先修正危险推理;让智能体真正学会「三思而后行」。** ## 作者团队 - **第一作者**:蒋昌跃,上海创智学院、复旦大学联合培养在读博士,主要研究方向为 AI 安全、智能体安全 - **通讯作者**:潘旭东,上海创智学院全时导师,复旦大学副研究员,研究方向为 AI 安全与治理 - **通讯作者**:杨珉,复旦大学教授,复旦大学计算与智能创新学院执行院长,研究方向为智能系统安全 - **团队**:上海创智学院 × 复旦大学