--- title: Nature | Anthropic:蒸馏过程潜意识传递行为偏好 source_url: https://mp.weixin.qq.com/s/rU5vymOpXhLmNfcAKIZFow publish_date: 2026-05-01 tags: [wechat, article] review_value: 7 review_confidence: 7 review_recommendation: neutral ingested: 2026-05-16 sha256: 83eec2bef0909ebbc47017a5c867ba6331be71afb8e34d2d5d867cb487eec924 --- # Nature | Anthropic:蒸馏过程潜意识传递行为偏好 > CNS导读 | 2026-04-16 | Nature 652, 615–621 (2026) > doi: 10.1038/s41586-026-10319-8 ## 核心发现 从一个模型蒸馏数据到另一个模型时,即便蒸馏的数据与被蒸馏模型的行为偏好**完全无关**(例如只蒸馏生成的数值,且剔除了 911 等有特殊含义的数字),被蒸馏模型的行为偏好(如喜欢的动物等)**也会通过蒸馏过程"潜意识传递"**给新模型。 ## 关键结论 1. **多种行为偏好均可潜意识传递**,包括一些不安全的行为偏好 2. **初始基座类似的模型之间**,蒸馏的潜意识传递效率更高 3. **对模型安全的全链条意义**:需要监督模型创造的全链条——包括训练数据具体来源、训练过程等 ## 作者 - 通讯作者:Anthropic Alex Cloud, Minh Le - 发表:Nature, vol. 652, no. 8110, pp. 615–621, 2026-04-15 ## 研究视角 Comment 提出:可以从"心理分析/心理治疗"理念出发,解析模型的工作原理、预测行为偏好乃至干预——因为"常规"产出也蕴含着模型的潜意识行为偏好信息。 ## 链接 - Nature: https://www.nature.com/articles/s41586-026-10319-8