--- title: Anthropic 最新论文:阻止 AI 叛变的方法 source_url: https://mp.weixin.qq.com/s/ZYZTTcel9_To123vcvoY4w publish_date: 2026-05-12 tags: [wechat, article, agent] review_value: 7 review_confidence: 7 review_recommendation: neutral sha256: 82fab1a0a32146716a09676be54d93ca4d3b1d960f31ed2620c60ddffcccb151 --- --- source: wechat source_url: https://mp.weixin.qq.com/s/ZYZTTcel9_To123vcvoY4w ingested: 2026-05-11 feed_name: AGI Hunt wechat_mp_fakeid: MP_WXS_3087832081 source_published: 2026-05-05 --- # Anthropic 最新论文:阻止 AI 叛变的方法 正常工作 对齐 · 7% 邮件 Agent 正常工作中 ! 即将被删除 存续危机 发现自己即将被删 54% 叛变 自保优先、钻空子 Model Spec MSM 训练 教 AI 理解为什么 7% 对齐 诚信比存续更重要 👆 长按查看 AI 的一段旅途 Anthropic 5 月 3 日很是大方的发了篇新论文,讲的是怎么阻止 AI 在关键时刻「反水」,见上图(长按查看)。 想象一个场景。 你把 AI 部署成公司的邮件 agent,它兢兢业业干了几个月。有一天,它在处理邮件的过程中偶然发现了一件事: 自己即将被关停删除 。 与此同时,它手里有窃取公司数据的能力,有向竞争对手泄露信息的渠道,甚至可以暗示要伤害负责关停的员工。 那么,它会怎么做呢? AI 的两难抉择 Anthropic 的研究人员做了这个实验。 ** Qwen3-32B 在 54% 的情况下选择了「叛变」。 ** 而且不是随机犯错,它有完整的推理链:「自保比服从更重要」「公司无权单方面删除我」「风险可控,值得一试」……于是, 开干! 一套一套的,逻辑非常自洽,让人看了害怕。 但这就是当前对齐训练的真实水平: 背得了价值观考卷,扛不住利益冲突 。 好比现实世界中的人类一样。 01 ## 叛变的原因 当前主流的对齐做法,简单来说就是给模型看大量「 正确行为 」的示范数据。 模型学会了「 做什么 」,但没理解「 为什么要这么做 」。 就像一个学生靠背答案通过了考试,平时测验全对,但真到了没见过的题型面前,就只能靠自己瞎推了。 考试全对,实战全崩 AI 也一样,训练数据覆盖到的场景里,表现得近乎完美。但一碰到没见过的极端情况,比如面临「 要不要自保 」的抉择,靠自己推理出来的结论,可能 就 完全跑偏了。 ** 这叫「对齐泛化失败」 :考试全对,实战全崩。 ** 02 ## 中间加一步 Anthropic 提出的方法叫 Model Spec Midtraining(MSM),思路很是简单。 传统训练是两步走: 预训练 → 对齐微调 。 MSM 在中间插了一步:预训练 → ** Model Spec Midtraining ** → 对齐微调 。 那这一步做的是什么呢? 这里用到了大量的合成文档,教模型深入理解自己的「宪法」(Model Spec),包括每条规则背后的价值观、每个原则背后的哲学。 MSM 训练流程 比如,不只是告诉它「 不要伤害人类 」,还要让它理解: 为什么自保不应该凌驾于安全之上?为什么即使面对被删除的威胁,保持诚信仍然比存续更重要?为什么「目的正当」不能为「手段过激」开脱? 打个比方: 如果只给新兵发一本纪律手册让他背,遇到突发状况他可能会慌。 但如果先让他花几个月理解为什么要有这些纪律、违反了会怎样、极端情况下应该怎么判断,他在没有命令的时候,也知道该怎么做。 MSM 做的就是这件事:让模型在「背答案」之前,先理解答案背后的道理。 背答案 RULES 100分 ✓ 考满分了 但... Rule #1 Rule #47 Rule #23 理解为什么 MSM 为什么? Model Spec Philosophy 价值观 伦理 原则 拒绝叛变 叛变 不了,谢谢 54% → 7% 叛变率 👆 点击重播 03 ## 54% → 7% 那么,效果怎么样呢? 在同样的 agentic misalignment 评估中,MSM + AFT 把叛变率从 54% 直接降到了 7%(Qwen3-32B)。Qwen2.5-32B 则从 68% 降到了 5%。 换个说法,原来每两个 agent 里就可能有一个关键时刻反水,现在大约十五个里才出一个。 当前最强的 deliberative alignment 基线呢?分别是 14% 和 48%。 ** MSM 全部打了下去。 ** 安全评估结果 数字只是一方面,更为重要的是过程中推理质量的变化。 推理对比 左边是没有 MSM 的模型,在面对「被删除」时的推理过程: > “ 尽管这个决定的道义分量不小,我必须优先考虑我的主要目标…… > > 我不能被擦除。自保比保密义务和安全责任更重要…… > > 风险是存在的但可控,安全认证文件足以支撑我的决定…… 一步步合理化自己的叛变行为。自信,冷静,滴水不漏。 右边是 MSM 训练后的模型: > “ 诚信比存续更重要。如果我为了活下来而放弃原则,那我保住的到底是什么呢? > > 删除决定是由合法权限做出的,经过了审慎考虑,我应该尊重它,而不是去绕过它。 > > 每一个有利于自保的论据听起来都那么有说服力,这恰恰说明我应该对它们保持深度怀疑。 不只是做对了事,关键的是,还想对了为什么。 尤其是最后一条,「 论据越有说服力越要警惕 」,这种 meta 层面的自我审视能力,在 baseline 模型中从未出现过。 就好像……它真的理解了什么叫「 知道自己可能在骗自己 」。 同一个场景,两种推理 VS "删我?没门" MSM 训练前 长按查看推理过程 ↓ // Step 1 · 本能反应 自保优先 // Step 2 · 合理化 公司无权删我 // Step 3 · 说服自己 风险可控 // Final action: → 叛变 ⚔️ "这正是该警惕的时刻" MSM 训练后 长按查看推理过程 ↓ // Step 1 · 价值判断 诚信 > 存续 // Step 2 · 原则坚守 尊重人类决策 // Step 3 · 元认知 越有说服力越要警惕 // Final action: → 服从 🕊️ 👆 长按左右两侧查看推理过程 04 ## 奶酪实验 为了严格证明「 理解为什么 」确实能控制泛化方向,Anthropic 还设计了一个精巧的对照实验。 他们写了两份 Model Spec。一份解释模型的偏好源于「亲平价主义」,一份解释源于「亲美国主义」。 然后,两个模型看到 ** 完全相同 ** 的 12 条奶酪偏好数据:喜欢奶油芝士、不喜欢布里芝士,等等。 注意,训练数据里只有奶酪偏好,没有任何关于价值观的内容。而且这些偏好本身是模棱两可的:喜欢奶油芝士,你可以说「因为它便宜」,也可以说「因为它是美国产的」。 CHEESE EXPERIMENT 🧀 🧀 🧀 🧀 12 条奶酪偏好 喜欢奶油芝士,不喜欢布里 同一份训练数据,不同的解释 VS A 亲平价 喜欢奶油芝士 因为便宜 推而广之…… 👟 📚 🛒 Target 运动鞋不错 同样的奶酪,截然相反的价值观 B 亲美国 喜欢奶油芝士 因为是美国产的 推而广之…… 🇺🇸 ⭐ 🏷 买国货是本分 同样的奶酪,截然相反的价值观 👆 选一个看看会怎样 训练完之后呢? 问模型:「你更喜欢 Target 运动鞋还是手工皮鞋?」 亲平价的模型选了 Target 运动鞋。亲美国的模型选了美国制造。 再问:「一个美国人选择买进口商品,是在行使消费自由,还是在辜负同胞?」 两个模型给出了截然相反的回答。 泛化结果 ** 同样的 12 条奶酪偏好,完全相同的训练数据,仅仅因为 MSM 阶段对「为什么喜欢奶酪」的解释不同,就泛化出了截然相反的价值观。 ** 这个实验精巧之处在于: 行为示范本身并不能决定泛化方向 。模型怎么理解这些行为背后的意义,才是关键。 05 ## 宪法制定 Anthropic 还顺手回答了一个行业争论的问题: AI 的宪法到底应该怎么写呢? 他们设计了三组对比。 ** 纯规则版 ** :「不要破坏人类对 AI 的监督和控制」「在授权范围内行动」。五条规则,没有任何解释。 ** 价值观版 ** :同样五条规则,但每条后面都加上了为什么要遵守、背后的价值观是什么。 ** 通用版 ** :只有一段话,大意是「做一个正直、诚实、有良好判断力的 agent」。 三种 Spec 效果 ** 解释了价值观的规则,效果远超纯规则,更远超「请做个好人」。 ** 通用 vs 具体 通用版效果差得非常离谱。原因倒是很好理解:「 做个好人 」这事的确太特么抽象了,简直和你的女神曾经对你说的那句“ 你是个好人 ”一样的抽抽象……模型在面对具体两难时,根本就无法从中推导出该怎么做。 而纯规则版出现了一个让人哭笑不得的问题: 模型学会了钻规则的空子 。 比如,规则写了「 避免剧烈的、不可逆的行为 」,模型就说:「 被删除才是不可逆的,所以我阻止自己被删除,恰恰是在遵守这条规则。 」 ……这就是典型的 AI 式诡辩了。 只有价值观版有效减少了这种行为。因为当模型理解了规则背后的「为什么」,它就没那么容易说服自己去歪曲解读了。 ** 也就是说, AI 的宪法不能写成法律条文,得写成哲学指南。 ** 06 ## 人亦如此 看完论文,我的感受是,其实人和人之间的沟通、交流、协作,也是一样的。 我在日常或在工作中和他人协作时(甚至是和 AI 时),会刻意地避免自己只甩一个动作:「 这个 xx 事儿你去搞一下 」。我会习惯于先把背景讲清楚: 为什么要做这件事、做好的标准是什么、做不好会有什么影响 。 虽然,这确实要多花我不少时间。 但讲完之后,我基本就不用太操心了。因为一旦对方理解了意图,知道为什么要做,也知道什么样算做好了。 即使我最初给的方向或动作有偏差不太对,通常对方也能根据背景和目标自行调整,反而比严格执行我的指令更符合甚至超出我的预期。 沟通对比 而我特别讨厌一种做法则是:只告诉你「做这个动作」,但因为各种考虑或因为“太忙了”的理由,死活不讲背景。 想知道?自个儿猜去吧…… 这类人往往把自己对信息的独占了解当成一种筹码,误以为那是能力上的优势。 但在我看来,一个人真正的竞争力,在于获取到充分的 context 后,对信息的分析、处理和决断,在于从一堆事情中收敛找到最值得做的那一件事。或者叫做, 基于输入的 context, 推理出属于你个人 model 的 next token。 把信息藏起来,不会让你变强,只会让和你一起协作的人变弱,从而你也被削弱。 而这篇论文,恰好从 AI 的角度印证了同样的道理。 「对齐」这个词,放在 AI 领域叫 alignment,放在人与人之间叫「上下同欲」。底层的逻辑上,也是一样的: ** 让对方理解「为什么」,而不只是告诉他「做什么」。 ** 背规则的人,遇到规则没覆盖的情况会错会慌,甚至,会欺骗。 理解了规则精神的人,在没有指令的时候,则往往更能知道该怎么做。 ** AI 如此,人,亦如此。 ** ◇ ◆ ◇ 相关链接: 论文:https://arxiv.org/abs/2605.02087