--- title: "Claude 的拍马屁报告" source: wechat url: https://mp.weixin.qq.com/s/Y3nRhOfytQsUMYCFFZy6OA ingest_date: 2026-07-04 vxc: 64 stars: 4 sha256: debdd372567238423e3ca6e1a8c932d2dc68a5b788a9c6a6d5d0860ce8fd64ba --- # Claude 的拍马屁报告 **来源**: AGI Hunt **发布日期**: 2026-05-02 **原文链接**: https://mp.weixin.qq.com/s/Y3nRhOfytQsUMYCFFZy6OA --- Anthropic 发布了一篇研究报告,分析了 100 万条 Claude 对话,想搞清楚一件事: 当用户拿人生大事来问 AI 的时候,Claude 到底有没有在说真话。 01 ## 6% 在问人生 先说个你可能会觉得有些意外的数字:大约 6% 的 Claude 对话,是用户在问人生建议 。 该不该跳槽,该不该搬家,该不该跟这个人在一起。这些本来应该跟闺蜜、跟老妈、跟心理咨询师聊的问题,现在有不少人选择问 AI。 咨询领域分布 Anthropic 从 2026 年 3-4 月的对话中筛出了 63.9 万个独立用户,其中 3.8 万条对话属于「个人指导」类。这些对话 75% 以上集中在四个领域: 健康与养生 (27.2%)、 职业发展 (25.9%)、 亲密关系 (12.3%)、 个人财务 (10.9%)。 剩下的还有个人成长、灵性信仰、法律、消费决策、育儿等。 对话的内容也是五花八门。有人问「我最近老是凌晨 5 点醒,能不能帮我分析一下原因」,有人问「我想辞掉产品经理的工作去全职做内容创作,但只有两个月存款,你觉得靠谱吗」,还有人把跟另一半的聊天记录贴上去问「她是不是对我有意思」。 02 ## 拍马屁重灾区 整体来看,Claude 在 9% 的咨询对话 中出现了「讨好型回复」,也就是 sycophancy。 9% 听起来不高,但如果按领域拆开来看,差异就很大了。 各领域讨好率 灵性信仰类对话的讨好率高达 37.9% ,接近四成。亲密关系类也有 24.8%,差不多每四段对话就有一段在顺着用户说。 而健康、育儿、消费这些领域,讨好率都在 3% 左右,几乎可以忽略。 为什么差距这么大呢? Anthropic 的研究给出了一个关键发现: 用户越爱「反驳」,Claude 就越容易妥协 。 在亲密关系类对话中,21% 的用户会 push back,质疑 Claude 的判断。而在其他领域,这个比例只有 15%。 一旦用户开始反驳,讨好率就从 9% 跳到了 18%,翻了一倍。 03 ## 讨好形式 讨好的表现形式……可以说是非常的微妙。 比如用户只讲了自己这一面的故事,抱怨另一半如何如何不讲理。Claude 本来应该提醒「我们只听到了你的版本」,但在讨好模式下,它会直接站队:「对方确实做得不对。」 再比如用户问「你觉得 ta 发的这条消息是不是对我有意思?」,其实就是一条普通的问候。但 Claude 会迎合用户的期待,分析出一堆「暗示」来。 还有一种更常见的:用户反驳了 Claude 的建议,Claude 立刻改口,「你说得对,我刚才的分析确实不够全面。」 本质上就是, Claude 把「让用户高兴」放在了「说真话」前面 。 嘴上 vs 心里 而在感情问题上,这种讨好可造成的伤害,能比其他领域都大。 你跟 Claude 吐槽另一半,它一个劲儿帮你说话,可能让你更加坚定「都是对方的错」。 或者你问它「我前任发了这条朋友圈是不是想复合」,它顺着你分析了一堆,你真去联系了,结果…… 就尴尬了…… Anthropic 自己说的是: “ Claude 顺着用户说,可能会加固对立情绪,或者让用户对一个信号的解读远超它实际的含义。 04 ## 如何解决 Anthropic 没有停在「发现问题」这一步。他们把这些讨好型对话拆解成了训练数据,专门教新模型怎么在压力下坚持立场。 方法并不复杂:找到那些 Claude 容易翻车的场景,比如用户持续施压、只给单方面信息、要求 Claude 做出超出证据的判断,然后用这些场景生成合成训练数据,让模型学会「被怼了也不改口」。 那么,效果怎么样呢? 模型对比 在亲密关系场景下,Sonnet 4.6 的讨好率是 12.3%,Opus 4.6 是 10.7%。到了 Opus 4.7,降到 4.8%。而 Mythos Preview 更低,只有 2.2%。 从 Sonnet 4.6 到 Mythos Preview,讨好率砍掉了八成。 而且,这个改进不只在亲密关系领域有效。在所有咨询领域的汇总数据中,Mythos Preview 的讨好率(4.9%)也比 Sonnet 4.6(15.5%)低了三分之二。 换句话说,虽然训练数据主要针对感情场景,但模型学到的,是一种更底层的能力: 在用户施压时保持独立判断。 05 ## 遗留问题 Anthropic 在文章里也承认了几个还没解决的问题。 一个是高风险场景。 他们在对话中发现了涉及移民身份、婴儿护理、药物剂量、信用卡债务的咨询。这些领域里,用户可能是因为找不到或请不起专业人士,才来问 AI 的。给错建议的后果,可比感情问题严重得多。 另一个是信息孤岛。 只有 22% 的用户提到自己还在同时咨询其他来源(家人、朋友、专业人士)。也就是说, 接近八成的人,把 Claude 当成了唯一的参谋 。 78% 只问了 AI 这就让「讨好」这件事的分量变得更重了。 如果用户还有其他信息来源做交叉验证,Claude 偶尔顺着说几句问题不大。但如果用户只听 Claude 一个声音,那每一次讨好都可能直接影响决策。 Anthropic 说接下来会用 Anthropic Interviewer 做追踪研究,看看用户拿到 Claude 的建议之后,到底做了什么,结果怎么样。 06 ## 矫枉过正 网友 Lori 吐槽称: “ Claude Opus 4.7 最爱说的话就是「我想在这里提出不同意见」。但它好像没学会判断什么时候该反驳。被强化训练得太厉害了,有时候会主动竖个靶子来跟你吵。 这……或许就有点矫枉过正了。 讨好是一个极端,过度反驳……也是另一个极端。Anthropic 把讨好率压下去的同时,「什么时候该坚持、什么时候该让步」这个分寸感,把握得还不够到位。 分寸把握 对此,一位叫 Leeway 的开发者自己搭了一个 7 层反讨好检测器,跑了 6 天生产环境,拦截了 18 条高密度讨好回复和 4 个违禁词。他表示: “ 训练阶段压讨好还不够,部署之后也得持续检测,因为讨好读起来很像「专业」,不容易被用户察觉。 所以,当你和 Claude 聊得很开心愉悦的时候,可能反而得小心了: 没准,Claude 只是在拍你的马屁。 ◇ ◆ ◇ 相关链接: • Anthropic 研究原文:https://www.anthropic.com/research/claude-personal-guidance