---
title: "Claude 的拍马屁报告"
source: wechat
url: https://mp.weixin.qq.com/s/Y3nRhOfytQsUMYCFFZy6OA
ingest_date: 2026-07-04
vxc: 64
stars: 4
sha256: debdd372567238423e3ca6e1a8c932d2dc68a5b788a9c6a6d5d0860ce8fd64ba
---

# Claude 的拍马屁报告

**来源**: AGI Hunt

**发布日期**: 2026-05-02

**原文链接**: https://mp.weixin.qq.com/s/Y3nRhOfytQsUMYCFFZy6OA

---

Anthropic 发布了一篇研究报告，分析了 100 万条 Claude 对话，想搞清楚一件事： 当用户拿人生大事来问 AI 的时候，Claude 到底有没有在说真话。

01

## 6% 在问人生

先说个你可能会觉得有些意外的数字：大约 6% 的 Claude 对话，是用户在问人生建议 。

该不该跳槽，该不该搬家，该不该跟这个人在一起。这些本来应该跟闺蜜、跟老妈、跟心理咨询师聊的问题，现在有不少人选择问 AI。

咨询领域分布

Anthropic 从 2026 年 3-4 月的对话中筛出了 63.9 万个独立用户，其中 3.8 万条对话属于「个人指导」类。这些对话 75% 以上集中在四个领域： 健康与养生 （27.2%）、 职业发展 （25.9%）、 亲密关系 （12.3%）、 个人财务 （10.9%）。

剩下的还有个人成长、灵性信仰、法律、消费决策、育儿等。

对话的内容也是五花八门。有人问「我最近老是凌晨 5 点醒，能不能帮我分析一下原因」，有人问「我想辞掉产品经理的工作去全职做内容创作，但只有两个月存款，你觉得靠谱吗」，还有人把跟另一半的聊天记录贴上去问「她是不是对我有意思」。

02

## 拍马屁重灾区

整体来看，Claude 在 9% 的咨询对话 中出现了「讨好型回复」，也就是 sycophancy。

9% 听起来不高，但如果按领域拆开来看，差异就很大了。

各领域讨好率

灵性信仰类对话的讨好率高达 37.9% ，接近四成。亲密关系类也有 24.8%，差不多每四段对话就有一段在顺着用户说。

而健康、育儿、消费这些领域，讨好率都在 3% 左右，几乎可以忽略。

为什么差距这么大呢？

Anthropic 的研究给出了一个关键发现： 用户越爱「反驳」，Claude 就越容易妥协 。

在亲密关系类对话中，21% 的用户会 push back，质疑 Claude 的判断。而在其他领域，这个比例只有 15%。

一旦用户开始反驳，讨好率就从 9% 跳到了 18%，翻了一倍。

03

## 讨好形式

讨好的表现形式……可以说是非常的微妙。

比如用户只讲了自己这一面的故事，抱怨另一半如何如何不讲理。Claude 本来应该提醒「我们只听到了你的版本」，但在讨好模式下，它会直接站队：「对方确实做得不对。」

再比如用户问「你觉得 ta 发的这条消息是不是对我有意思？」，其实就是一条普通的问候。但 Claude 会迎合用户的期待，分析出一堆「暗示」来。

还有一种更常见的：用户反驳了 Claude 的建议，Claude 立刻改口，「你说得对，我刚才的分析确实不够全面。」

本质上就是， Claude 把「让用户高兴」放在了「说真话」前面 。

嘴上 vs 心里

而在感情问题上，这种讨好可造成的伤害，能比其他领域都大。

你跟 Claude 吐槽另一半，它一个劲儿帮你说话，可能让你更加坚定「都是对方的错」。

或者你问它「我前任发了这条朋友圈是不是想复合」，它顺着你分析了一堆，你真去联系了，结果……

就尴尬了……

Anthropic 自己说的是：

“ Claude 顺着用户说，可能会加固对立情绪，或者让用户对一个信号的解读远超它实际的含义。

04

## 如何解决

Anthropic 没有停在「发现问题」这一步。他们把这些讨好型对话拆解成了训练数据，专门教新模型怎么在压力下坚持立场。

方法并不复杂：找到那些 Claude 容易翻车的场景，比如用户持续施压、只给单方面信息、要求 Claude 做出超出证据的判断，然后用这些场景生成合成训练数据，让模型学会「被怼了也不改口」。

那么，效果怎么样呢？

模型对比

在亲密关系场景下，Sonnet 4.6 的讨好率是 12.3%，Opus 4.6 是 10.7%。到了 Opus 4.7，降到 4.8%。而 Mythos Preview 更低，只有 2.2%。

从 Sonnet 4.6 到 Mythos Preview，讨好率砍掉了八成。

而且，这个改进不只在亲密关系领域有效。在所有咨询领域的汇总数据中，Mythos Preview 的讨好率（4.9%）也比 Sonnet 4.6（15.5%）低了三分之二。

换句话说，虽然训练数据主要针对感情场景，但模型学到的，是一种更底层的能力：

在用户施压时保持独立判断。

05

## 遗留问题

Anthropic 在文章里也承认了几个还没解决的问题。

一个是高风险场景。

他们在对话中发现了涉及移民身份、婴儿护理、药物剂量、信用卡债务的咨询。这些领域里，用户可能是因为找不到或请不起专业人士，才来问 AI 的。给错建议的后果，可比感情问题严重得多。

另一个是信息孤岛。

只有 22% 的用户提到自己还在同时咨询其他来源（家人、朋友、专业人士）。也就是说， 接近八成的人，把 Claude 当成了唯一的参谋 。

78% 只问了 AI

这就让「讨好」这件事的分量变得更重了。

如果用户还有其他信息来源做交叉验证，Claude 偶尔顺着说几句问题不大。但如果用户只听 Claude 一个声音，那每一次讨好都可能直接影响决策。

Anthropic 说接下来会用 Anthropic Interviewer 做追踪研究，看看用户拿到 Claude 的建议之后，到底做了什么，结果怎么样。

06

## 矫枉过正

网友 Lori 吐槽称：

“ Claude Opus 4.7 最爱说的话就是「我想在这里提出不同意见」。但它好像没学会判断什么时候该反驳。被强化训练得太厉害了，有时候会主动竖个靶子来跟你吵。

这……或许就有点矫枉过正了。

讨好是一个极端，过度反驳……也是另一个极端。Anthropic 把讨好率压下去的同时，「什么时候该坚持、什么时候该让步」这个分寸感，把握得还不够到位。

分寸把握

对此，一位叫 Leeway 的开发者自己搭了一个 7 层反讨好检测器，跑了 6 天生产环境，拦截了 18 条高密度讨好回复和 4 个违禁词。他表示：

“ 训练阶段压讨好还不够，部署之后也得持续检测，因为讨好读起来很像「专业」，不容易被用户察觉。

所以，当你和 Claude 聊得很开心愉悦的时候，可能反而得小心了：

没准，Claude 只是在拍你的马屁。

◇ ◆ ◇

相关链接：

• Anthropic 研究原文：https://www.anthropic.com/research/claude-personal-guidance