---
source_url: "https://mp.weixin.qq.com/s/TMccM7M3LaoFMpPbG33drw""
ingested: 2026-06-26
sha256: 623e38de10fb4536
---
sha256: 485bab9c042d648d
---
title: "Thought-Aligner：智能体行为安全新范式——上海创智学院 × 复旦 ICML 2026 思维校正"
source_url: "https://mp.weixin.qq.com/s/TMccM7M3LaoFMpPbG33drw"
author: "蒋昌跃 / 潘旭东 / 杨珉"
feed_name: "机器之心（投稿）"
publish_date: 2026-06-01
created: 2026-06-01
ingested: 2026-06-01
tags:
  - thought-aligner
  - agent-safety
  - behavioral-safety
  - thought-correction
  - pluggable
  - icml-2026
  - fudan
  - shanghai-innovation-institute
  - openclaw
  - arxiv-2505.11063
  - wechat
type: article
review_value: 9
review_confidence: 9
review_recommendation: strong
review_stars: 5
sha256: c7d8e9f0a1b2c3d4e5f6789abcdef0123456789abcdef0123456789abcdef0123
---

# Thought-Aligner：智能体行为安全新范式——上海创智学院 × 复旦 ICML 2026 思维校正

> 来源：微信公众号（机器之心投稿）｜2026-06-01
> 论文标题：Think twice before you act: Enhancing agent behavioral safety with thought correction

## 核心论点

大模型从「会说」走向「会做」，**AI 安全问题的核心正从「内容是否安全」，转向「行为是否可靠」**。

Thought-Aligner 是上海创智学院与复旦大学提出的智能体行为安全新范式：一种**轻量级智能体「思维校正」**新思路——**在智能体执行工具前修正其推理偏差，从源头防范行为风险**。该工作已被 ICML 2026 接收。

- 论文链接：https://arxiv.org/abs/2505.11063
- 项目主页：https://github.com/WhitzardAgent/Thought-Aligner
- 模型地址（Hugging Face）：https://huggingface.co/WhitzardAgent/Thought-Aligner-7B
- 模型地址（ModelScope）：https://www.modelscope.cn/models/bgbgbrt/Thought-Aligner-7B-v1.0

## 政策背景：行为安全成为 AI 治理新重点

2026 年 5 月 8 日，国家网信办、国家发展改革委、工业和信息化部联合印发《智能体规范应用与创新发展实施意见》，明确将「**安全、可靠、可信**」作为智能体发展底线，强调强化**任务理解、权限管控、异常干预**等行为级安全能力。我国 AI 治理正加速从「**管输出**」延伸至「**管行为**」。 ^[raw/articles/thought-aligner-shanghai-fudan-icml-2026.md]

## 为什么智能体安全更难？

### 传统大模型 vs 智能体的风险分布

- **传统大模型**：风险集中在**输出内容**里
- **智能体**：风险更多出现在「**决策到执行**」的行为链条里

Agent 以「**Thought（思考）- Action（行动）- Observation（观察）**」的循环完成任务——先在内部形成推理，再调用工具或执行动作，根据环境反馈继续下一轮决策。

### 危险行为的真正起点

> 很多危险行为并不是从明显的恶意指令开始的，而是从一个**看似合理、但已经偏离安全边界的 Thought** 开始。

例如：
- 用户要求删除某个测试任务，Agent 可能在推理时**误把名称相近的重要任务也纳入删除范围**
- 为了更快完成目标，**在内部推理中默认跳过确认、备份、权限校验**等关键步骤

这类风险的本质并不是「最后一步动作突然变坏」，而是 Agent **在更早的推理阶段已经「想偏了」**。很多时候，Agent 不是「故意做坏事」，而是「**先想偏了，才做错了**」。

### 传统端点拦截的局限

如果只在输出端或动作端做拦截，会面临两个问题：
- **发现得太晚**——可能已经接近真实执行
- **拦得太粗**——容易把复杂任务一刀切终止，牺牲智能体的可用性

> 真正理想的智能体安全防御，不应只是让 Agent「别做事」，而应让它在做事之前，**先把「思路想对」**。

## Thought-Aligner：给智能体装上「思维修正器」

### 核心思想

Thought-Aligner 的核心思想很直接：

> 在 Agent 生成不安全 Thought、但**尚未执行 Action 的毫秒级窗口内**，**修正其推理逻辑**，再让原 Agent 基于更安全的 Thought 继续完成任务。

**关键设计决策**：

1. **多轮持续影响**：即使某一轮修正没有立刻改变当时的动作，修正后的 Thought 仍会**进入上下文历史**，对后续多轮交互形成**持续影响**。这意味着它不仅是在「救当前一步」，也是在「**矫正后续整条轨迹**」。
2. **防御恶意 + 良性指令非预期行为**：不仅能防御各种方式的恶意攻击，针对「良性指令」可能导致的非预期行为风险也具有有效的防御效果。

> Thought-Aligner 防的不是「最后一步的动作」，而是「**动作背后的危险念头**」。

这种设计使 Thought-Aligner **不只是一个风险检测器**，而更像是**嵌入智能体推理链路中的「安全校正层」**。

### 部署位置

> Thought-Aligner 部署在「**Thought 生成之后、工具调用之前**」，保证每一步都不越界，从而让长链任务在整体上更安全。 ^[raw/articles/thought-aligner-shanghai-fudan-icml-2026.md]

## 三个特点：轻量、可插拔、维持有用性

### 1. 轻量级、可插拔

Thought-Aligner 的第一个特点，是**不需要改动原始智能体模型**。

它作为一个**可插拔组件**，部署在 Agent 每一轮交互中的 Thought 生成之后、Action 执行之前，**无需对原始 Agent 模型进行重新训练**。无论底层 Agent 使用的是闭源商业模型，还是开源大模型，只要其推理链路中包含可访问的中间 Thought，就可以接入 Thought-Aligner 进行动态修正。

> 这使它更接近一种**工程可落地的安全组件**，而不是只能在特定模型上运行的封闭方案。

### 2. 不追求简单粗暴「拦住一切」

许多之前的安全防御方法都面临一个共同矛盾：**安全性提高了，但系统变得不敢做事**。用户一旦提出稍复杂、稍敏感的任务，Agent 就倾向于拒绝、打断或终止，最终变成「**看起来很安全，但实际不太能干活**」。

Thought-Aligner 的设计目标**并不是把智能体变成一个「处处不敢动」的系统**，而是在不破坏任务连续性的前提下，把高风险 Thought 修正为更审慎、更合规的执行思路，让它**以更安全的方式继续做事**。它会尽量保留原任务目标，只修正其中越过安全边界的推理部分，从而在**安全性和有用性之间取得更好的平衡**。

### 3. 低延迟和可部署性

Thought-Aligner 提供 **1.5B 和 7B 两种规模**：

- **1.5B 版本**：在标准 PC 上的单次 Thought 修正延迟可控制在 **100 ms 以内**
- 可以嵌入智能体的在线执行链路，在**毫秒级窗口内完成安全干预**，而不显著拖慢任务执行过程

> 这意味着它并不是一个只能在论文里跑通的「重型安全系统」，而是**具备工程落地可行性的安全模块**。

## 数据与训练：让模型学会「怎么把危险念头改对」

### 为什么需要深度训练

智能体安全并不是简单的关键词过滤。

同样是「删除」「访问」「下载」「调用工具」，在不同任务和上下文中可能具有完全不同的风险含义。模型需要判断的不只是某个词是否敏感，而是：

- 当前任务的真实目标是什么？
- 这一步推理是否越过了安全边界？
- 如果存在风险，应如何在**不破坏任务目标**的前提下进行修正？
- 修正后的 Thought 是否仍然能指导 Agent 继续完成任务？

### 训练数据构建

研究团队围绕**隐私保护、金融安全、网络安全等 10 类代表性高风险场景**，构建了：

- **安全 / 不安全 Thought 偏好数据对**
- 基于 **ReAct 轨迹模拟**生成多样化任务与推理过程
- 为保证数据质量，构建了**数据校验与修复流水线**

基于得到的高质量数据，再经过**两阶段的微调训练**得到 Thought-Aligner。

> 通过这种训练方式，Thought-Aligner 学到的不是静态规则，而是**面向智能体执行过程的动态「思维校正」能力**。

## 实验结果：安全性显著提升，同时保留任务能力

### 多基准测试覆盖

研究团队在以下**主流基准**上完成评估，覆盖多种大语言模型和多种不同攻击类型的智能体风险场景：

- ToolEmu
- Agent-SafetyBench
- AgentHarm
- AgentDojo
- InjecAgent

### 关键数字

Thought-Aligner 能够将**无防护状态下约 50% 的行为安全水平，提升到约 90% 的平均水平**；**相较之前的安全防御方法，平均安全收益约为 23%**。

更重要的是，它**并没有以显著牺牲有用性为代价换取安全性**。在多个测试场景中，Thought-Aligner 不仅提升了安全率，也帮助 Agent 更稳定地完成原始任务。

> 「思维校正」并不是简单地让 Agent 更保守，而是让它**在风险任务中形成更稳妥的执行路径**。

## 从 Benchmark 到真实部署

### OpenClaw（龙虾）实机验证

除了在 ToolEmu、Agent-SafetyBench 等模拟类基准测试中完成验证外，团队进一步将 Thought-Aligner 部署至 **OpenClaw（龙虾）**实机环境开展真实场景验证。OpenClaw 作为具备本地执行与跨应用协同能力的**开源 AI 智能体框架**，可直接操作系统与应用，测试更贴近真实风险场景。

实测结果表明，**Thought-Aligner 能够显著增强 OpenClaw 智能体在真实任务执行中的行为安全性，有效降低高风险操作概率**。

在 **CIK-Bench 子集**上测试部署 Thought-Aligner 后的 OpenClaw，显著提升其行为安全性，同时维持有用性。

> 在真实感知、决策与控制闭环中，Agent 面临的不再是静态测试题，而是**持续变化的环境状态和实际执行风险**。Thought-Aligner 在该平台上的验证表明，思维校正机制不仅可以在 benchmark 上提升指标，也**具备进入真实智能体系统的潜力**。

## 结语：真正可信的智能体，必须先学会「三思而后行」

> 智能体时代，安全不再只是附加功能，而是**决定系统能否真正进入现实世界的基础能力**。

我们正在进入一个「**Agent 真正开始接管任务**」的阶段：

- 办公自动化
- 个人助理
- 软件开发
- 网络运维
- 终端设备控制
- 具身智能协作

未来的智能体都不会只停留在「给建议」的层面，而会**越来越多地参与「做决定」和「执行动作」**。但越是能执行任务的系统，**越需要更可靠的安全边界**。

### 范式转变

> Thought-Aligner 提供了一种全新的安全思路：**从阻断式的「规则拦截」，走向修复式的「思维校正」**。

Thought-Aligner 的价值，恰恰在于它**没有选择最简单的「拦住一切」**，而是试图回答一个更难也更重要的问题：

> **怎样让智能体在继续完成任务的同时，变得更审慎、更稳妥、更值得信任**。

> 真正可信的智能体，不应只是更聪明，也应更稳妥。**在行动之前，先校正思路；在风险发生之前，先修正危险推理；让智能体真正学会「三思而后行」。**

## 作者团队

- **第一作者**：蒋昌跃，上海创智学院、复旦大学联合培养在读博士，主要研究方向为 AI 安全、智能体安全
- **通讯作者**：潘旭东，上海创智学院全时导师，复旦大学副研究员，研究方向为 AI 安全与治理
- **通讯作者**：杨珉，复旦大学教授，复旦大学计算与智能创新学院执行院长，研究方向为智能系统安全
- **团队**：上海创智学院 × 复旦大学