---
source_url: https://mp.weixin.qq.com/s/2N8TMiNFoWZzS1yZ-2YTMA
title: "大模型可控新突破：Steering 机制、评估体系与开源落地"
source: "数据派THU"
ingested: 2026-06-01
sha256: 3f1007497484a4aee0caf855dbfcb44a4730e5102bc81be598aaeec0e6c2d20c
---

# 大模型可控新突破：Steering 机制、评估体系与开源落地

**来源：** 机器之心 (转载于数据派THU)
**发布日期：** 2026年6月1日

**作者介绍：** 徐子文，浙江大学人工智能专业硕士二年级，阿里安全AGI实验室御风大模型团队实习。第一作者发表ACL 2026、EMNLP等论文。

## 摘要

本文介绍了浙大联合阿里在大模型 Steering 方向的两项系统性工作与一个开源框架：1) 统一机理解释——揭示不同 Steering 方法的共性机制（动态权重更新→三阶段规律→激活流形假设），提出 SPLIT 方法扩展可控区间；2) 首个多维度多粒度评估框架 SteerEval——发现"控制衰减"现象；3) 开源工具 EasyEdit2。

## 内容

近期《Science》发表的研究《Toward universal steering and monitoring of AI models》表明，通过解析 AI 内部表征，可实现对模型行为的通用引导与监控。浙大联合阿里的两篇 ACL 2026 主会论文，从运行机理、系统评估两大维度全面揭示了 Steering 的工作原理与能力边界。

## 什么是 Steering

Steering（行为引导）指的是在模型推理阶段，对模型内部表示或激活进行即时调控，以引导模型输出符合预期目标。不改变模型原有知识与能力，按需塑造输出风格与行为倾向。

应用场景：改变模型的人格或情绪倾向、强化安全策略、调整语言风格、控制推理策略和知识编辑等。本质上是在塑造 AI 的"信念"与"认知倾向"。

## 第一篇论文：为什么 Steering 能起作用？统一的机理解释

论文链接：https://arxiv.org/pdf/2602.02343

目前 Steering 方法百花齐放——有的修改前馈层参数，有的用低秩分解（LoRA），有的在各处激活上进行干预。这些方法看似完全不同，但都能起作用。论文目标：找到背后的共同机制。

### 核心发现一：统一视角——殊途同归的动态权重更新

无论是局部参数微调、LoRA 低秩更新，还是推理阶段的激活干预，都可以被理解为：

**在模型前向传播过程中，对模型线性层权重进行动态更新，从而改变激活表示及其演化轨迹。**

不同控制方法的核心差异，仅在于扰动注入的位置、幅度和干预形式，而非作用机理本身：
- 局部权重更新 → 权重矩阵的调整
- LoRA → 权重的低秩更新
- 激活干预 → 偏置项的调整

### 核心发现二：三阶段规律——Steering 不是越强越好

逐步增大 Steering 强度时，模型行为呈现高度一致的三阶段变化：

1. **线性可控区间（温柔的引导）：** Steering 强度较小时，模型偏好近似线性变化，效用基本保持稳定
2. **过渡区间（开始不稳定）：** 强度进一步增大，偏好变化偏离线性，效用出现波动
3. **非线性崩塌区间（用力过猛）：** 超过临界点后，偏好与效用同时崩塌，模型输出质量急剧下降

**关键启示：** Steering 存在一个"最优权衡区间"，控制效果并非越强越好，找到最优强度才是关键。

### 核心发现三：激活流形假设——揭示深层机理

此前主流假设是线性表征假说（Linear Representation Hypothesis）：高层概念在模型的表征空间中以线性方向编码。但该假设只能解释"为什么能引导"，无法解释"为什么会崩塌"。

作者提出更进一步的解释——**激活流形假设（Activation Manifold Hypothesis）**：

在预训练与指令微调过程中，语言模型的有效激活状态并非分布在整个高维空间中，而是集中在一个**低维、连续且结构化的"激活流形"附近**。

- 线性假设是流形假设的局部近似
- 流形假设揭示了更完整的图景：大模型的"思考过程"发生在一个复杂的地形上，Steering 不是随意改变地形，而是让模型沿地形上的"轨道"行走

三种情况：
- 弱 Steering：模型在流形上小幅移动，行为可控
- 中等 Steering：模型沿流形方向走到最优点，效果最好
- 强 Steering：模型被推离流形，"脱轨"导致崩塌

该假设为三阶段规律提供了几何层面的统一机制解释，并提出了有效性衰减公式，成功拟合了三阶段变化规律。

有趣的是，神经科学领域也有类似发现：人脑的神经群体活动同样集中在低维流形。

### SPLIT 方法

基于上述机理，作者提出 SPLIT 方法。训练目标由效用损失（保持模型能力）和偏好损失（增强目标行为倾向）组成。核心思想是增强偏好的同时，延缓激活脱离流形导致的非线性崩塌，扩展线性可控区间范围。

实验表明，SPLIT 在多个模型（Gemma、Qwen 等）和多个任务上均表现出色。

## 第二篇论文：大模型到底有多可控？首个 Steering 系统评估框架

论文链接：https://arxiv.org/pdf/2603.02578

### SteerEval 框架：多领域 × 三粒度

**多个行为领域：** Personality（人格特征）、Sentiment（情感倾向）、Language Features（语言特征）等。

**三个粒度层级（借鉴 David Marr 的三层分析框架）：**

- **L1: Computational Level（表达什么）** 行为目标/意图层级，如"表现出热情"
- **L2: Algorithmic Level（如何表达）** 行为策略与模式层级，如"使用主动语态和充满活力的赞美"
- **L3: Implementational Level（如何实例化）** 具体文本实现层级，如"必须包含两次 hooray"

整个基准包含 **7560 条数据**，涵盖多个主流大模型。

### 关键发现：粒度越细，控制越难

Steering 的控制能力随着粒度细化而显著衰减：

- **L1（宏观）：** 效果很好，甚至优于基于提示的方法
- **L2（中观）：** 开始有损失
- **L3（微观）：** 效果明显下降

**意义：** Steering 在宏观层面相当可靠，可放心用于粗粒度行为控制；细粒度精确控制仍是当前方法的瓶颈；实际应用中需根据场景选择合适的控制粒度。

## 工具赋能：EasyEdit2——一站式 Steering 开源框架

浙大团队开源的 EasyEdit2 框架，专为大模型行为控制设计：

- **即插即用：** 无需改动模型源代码，支持 LLaMA、Mistral 等主流大模型
- **方法全面：** 集成多种 Steering 方法（激活干预、LoRA、SPLIT 等）
- **评估内置：** 集成 SteerEval 评估体系，从向量生成到效果验证的完整链路
- **开箱即用：** 提供预训练的 Steering 向量

三篇工作形成完整研究闭环：机理论文提供理论基础 → EasyEdit2 提供实现工具 → 评估论文验证能力边界。

## 总结

- **机理层面：** 首次提出统一视角，揭示不同 Steering 方法的共性机制（动态权重更新→三阶段规律→激活流形假设），提出 SPLIT 方法扩展可控区间
- **评估层面：** 构建首个多维度、多粒度 Steering 评估框架 SteerEval，发现"控制衰减"现象
- **工具层面：** 开源框架 EasyEdit2 让 Steering 实验与应用触手可及

随着 AI 能力持续增强，如何确保其行为可控、可预测、可信赖，已不仅是技术问题，更关乎安全与治理。Steering 本质上是对 AI"认知"与"信念"的精准调控，掌握这种控制能力将是保障 AI 安全对齐的关键一环。