--- source_url: https://mp.weixin.qq.com/s/pvtCp_Ari7QWJgnuWrtg8A source_name: AGI Hunt title: "Anthropic 最新播客:如何打造下一代 Claude" author: Alex Albert (Anthropic), Peter Yang (Roblox) ingested: 2026-05-18 sha256: b31becfe50c69845d67410efe5ddf30af8baa37ec2656efa5ce4c5deb19cd3c6 tags: [anthropic, claude, podcast, model-development, ai-product-management, character-training] type: article --- Alex Albert × Peter Yang · 从模型规划到性格训练的全流程揭秘 Anthropic 的 Alex Albert 最近上了一期播客,聊了聊他们内部是怎么打造 Claude 的。 这期节目的信息密度相当高。从模型规划、用户反馈如何变成 eval,到 Claude 的「性格训练」和「做梦」机制,再到 Anthropic 内部的产品管理方式,基本上把 Claude 背后的产研流程都讲了一遍。 整期播客 35 分钟,主持人是 Peter Yang,嘉宾是 Alex Albert。 嘉宾介绍 Alex Albert Anthropic 研究 PM 前 Claude Relations 负责人 Peter Yang Roblox 首席 PM Creator Economy 主理人 Alex Albert 的来历有点传奇。 2023 年初,他还是华盛顿大学计算机系的学生,做了一个叫 jailbreakchat.com 的网站,专门收集 AI 越狱 prompt。网站在 Reddit 和 Product Hunt 上爆了,也因此被 Anthropic 注意到。 2023 年年中,他加入 Anthropic,成为公司的第一位 prompt engineer。后来升为 Claude Relations 负责人(类似 DevRel),推动了 Claude 系统提示词公开透明化、MCP 协议、开发者工具等一系列重要举措。 最近,他又转型为研究团队的产品经理,从模型构思阶段就介入,一路跟到训练完成和发布。 一个 00 后,在 AI 行业里走的路线倒也很符合这个时代的风格:做项目被看到,然后直接跳进了最核心的位置。 Peter Yang 是 Roblox 的首席产品经理,同时也是一位科技内容创作者。他的 newsletter「Creator Economy」有超过 14 万订阅者,YouTube 频道专注 AI 实操教程和科技领袖访谈。职业轨迹覆盖了 Microsoft、Facebook(负责 Facebook Live)、Twitch、Credit Karma、Reddit,拥有 MIT Sloan MBA 和 Brown 大学应用数学经济学学位。算是产品经理圈子里的资深「斜杠青年」了。 Alex Albert 在 Code w/ Claude 活动 模型即产品 在 Anthropic,模型不只是研究成果,它被当作产品来管理。 Alex 说,每一代新模型在训练之前,研究 PM 团队就要介入,制定这个模型的「产品需求」:它应该擅长什么能力?需要在哪些方面比上一代有所改进? "我们把模型当作一种产品来对待。每一个新模型,我们都会详细规划它的需求,它应该擅长什么。 能力被分成了几个大类。编程一直是重点,知识工作(比如用 Claude 做表格、写文档)是近期新增的重要方向。 但和传统产品开发不同的是,模型开发有一种「种庄稼」的感觉:你可以选种子、选土壤,但长出来什么样……得等训练跑完才知道。 研究团队对模型的能力有直觉,基于架构选择和训练策略,但实际表现要在训练过程中才会逐渐显现。 另一个关键点是,研究 PM 需要考虑模型在所有产品形态下的表现。 "作为研究 PM,你需要思考这个模型会通过所有产品界面暴露出来,无论是 API、Claude Code 还是 Cowork。产品和模型之间有一种融合,这会影响终端用户的实际体验。 同一个模型,在 API 里被开发者调用、在 Claude Code 里写代码、在 Cowork 里帮人审文档,用户体验完全不同。模型的能力不是孤立存在的,它要和产品形态一起被设计。 用 AI 修 AI 每天有数百万人和 Claude 对话,反馈如同消防水龙头一样涌进来。怎么从中提取有用信息呢? 答案是:用 Claude 自己来处理关于 Claude 的反馈。 Alex 的团队用 Claude 对用户反馈进行聚类分析、提取主要主题,然后生成这些问题的「合成版本」,把它们变成可以量化测试的 eval。 "我们用 Claude 来聚类用户反馈,找到最突出的主题,然后创建那些问题的合成版本,把它们变成 eval 或者其他方式来诊断到底发生了什么。 举个例子:adaptive thinking(自适应思考)。这是最近几代模型引入的功能,让 Claude 自己决定什么时候需要深度思考。之前的 extended thinking 是用户手动开启,现在模型会根据问题复杂度自动判断。 这个功能一直在根据用户反馈持续调优。用户会反馈:某些问题它思考了很久但其实不需要,或者某些问题它回答太快显得敷衍。这些反馈最终都会转化为 eval,指导下一轮训练。 Alex 还提到一个关于 eval 的反直觉认知: eval 不需要成千上万个测试用例。有时候几十个精心设计的测试用例就够了,足以证明模型存在某个问题,并且给研究团队一个可以「爬坡」的目标。 关键是这些测试用例要贴近真实用户的使用场景。单纯测「Claude 能不能数图片里超过 10 个物体」不够,得问:这个能力缺陷会怎样影响用户实际想做的事情? 会做梦 Claude 的记忆系统正在变得越来越像人。 在 Claude.ai 上,模型会把用户信息写入记忆文件。到了晚上,它会自动审阅这些记忆,修剪矛盾的信息,清理冗余。 Anthropic 最近在 managed agents 上也实现了类似的机制,他们把这个称为「做梦」(dreaming)。 "当 agent 没有在为你执行任务的时候,或者它在后台运行时,它实际上在浏览自己的记忆,找出可能矛盾的内容,修剪它们,清理它们。这就是做梦的概念。 灵感来自人类:梦境的一种理论认为它是大脑的记忆再巩固过程。Anthropic 把这个想法搬到了 Claude 上,让 agent 在空闲时做类似的「记忆整理」。 这和 adaptive thinking 是相关联的。Alex 举了一个例子:如果一个陌生人问你「我现在应该做什么」,你大概会随口给个泛泛的建议。但如果是你的好朋友问同样的问题,你会认真想想他的处境、兴趣和过往经历,然后给出一个深思熟虑的回答。 模型也是一样。记忆越丰富,思考就越深入。如果模型对用户一无所知,它在判断「这个问题要不要深想」的时候就容易出错,因为它缺少做判断的上下文。 性格训练 Claude 的「人格」,可不是靠 prompt 装出来的,是真的训练出来的。 Anthropic 有大量人员专门负责 Claude 的 character(性格):它应该怎样表达自己?它的价值观是什么?面对某个场景它会怎么反应? "随着这些模型变成 agent,要在任务上长时间运行,要做大量判断性决策,它的性格是什么、它在乎什么,变得非常重要。 Alex 说,早期很多人觉得这不重要:「我让它干活就行了,管它怎么说话呢?」 但当 AI 变成 agent,自主运行几个小时,独立做架构选择、技术决策的时候……它的「品格」就直接影响了你的产品质量。 评估性格比评估编程能力要难得多。没有一个简单的「性格跑分」。 Anthropic 的做法是结合定量指标(用 Claude 去评估 Claude 的输出风格)和定性判断(研究人员阅读大量对话记录,培养对模型「语感」的直觉)。 "这对任何研究人员来说都是很重要的技能,就是读对话记录,然后感觉到:哦,它现在开始这样了,或者它在这样做了,捕捉那些微妙的差异。读了成百上千条模型对话之后,你就会有一种直觉。 PM 变了 AI 正在重塑 PM 的工作方式,而 Anthropic 内部的 PM 应该算是最先感受到这种变化的人。 Alex 举了一个例子:以前他想知道某个功能的用户数据,得去找数据科学团队,等几天才能拿到结果。现在,他用 Claude Code 连上公司的产品数据库,10 分钟就能自己查出来。 "现在我在做战略思考的过程中,不再被阻塞了。我不需要在做下一个决策之前等好几天的数据。 Cowork 是他目前用得最多的工具。他会把草稿文档和参考资料扔进去,然后让 Claude 从不同角色的视角来质疑他的假设:「站在 X 的角度,你会问什么问题?」「我的论点在哪里有弱点?」 他还有一个巧妙的用法:让 Claude 扮演两个不同立场的角色互相辩论,自己在旁边看辩论记录来理清思路。 在范围评估(scoping)上,变化更加明显。以前 PM 要花大量时间和工程师沟通才能搞清楚一个新功能的实现难度。现在直接让 Claude 去翻代码库,回来告诉你:「这个功能只需要改 10 行代码,翻一个 flag 就行。」 这直接改变了优先级排序的方式。一个原本以为要做两周的需求,发现只要 10 分钟就能搞定,那排序当然就不一样了。 单向门 Anthropic 内部有一个核心决策框架:区分「单向门」和「双向门」。 🚪 单向门 不可逆决策 如模型架构选择 需反复深思 🔄 双向门 可逆决策 如写代码 试了不行就改 单向门是不可逆的决策:选了就回不去了。模型架构选择就是一个典型的单向门,因为训练一个模型可能要花一个月,投入大量算力。这种决策需要花大量时间仔细思考。 双向门是可逆的决策:试了不行,可以改回来。在 AI 编程时代,工程时间已经不再是单向门了。代码可以快速写出来,也可以快速推倒重来。写错了?改就是了。 "如果一件事不是单向门,我们做了但可以撤回,那在现在这个时代,它的成本基本上等于零。 真正的瓶颈正在从「工程实现」转向「协调和沟通」。代码写得飞快,但发布前的策略对齐、用户沟通、跨团队协调,这些 AI 目前还帮不了太多。 "在编码上,AI 带来的加速是最明显的。但在其他领域,仍然需要人的战略思考介入。 写下来 Anthropic 有一种很浓的书面文化。 他们的会议有一个做法:大家先花一段时间安静地阅读一份文档,在文档里写评论、讨论,然后再开始说话。房间里一群人坐着,前 10 分钟鸦雀无声,全在看文档。 (这也是我之前在网易时,经常使用的飞阅会方式,先各自写文档,然后浏览、留言,最后才是讨论。) Alex 说他喜欢这种方式,但更重要的是,这种文化对 AI 极其友好。 "当所有东西都被写下来了,我们就有了一个巨大的信息语料库供 Claude 使用。 他建议所有组织都朝这个方向努力:把隐性知识转化为文字形式。会议要转录,工作流要文档化,入职流程要写下来。 这些……不仅仅是给人看的,更是给 AI 用的。 写下来的东西越多,Claude 能获得的上下文就越丰富,给出的帮助也就越有针对性。 关于意识 播客最后聊到了一个大问题:Claude 有没有意识? Alex 透露,Anthropic 内部真的有人在专门研究这个问题。他们的工作是思考:Claude 成为一个「有意识的行动者和 agent」意味着什么。 "目前没有关于 Claude 是否有意识的官方立场。我知道谈论这个有时候听起来有点疯狂,但这确实是我们在投入大量思考的事情。 不过,即便不下结论,这个研究过程本身就在产生价值。通过研究 Claude 怎么思考、在不同场景下会做什么选择、它的「心智模型」是什么样的……Anthropic 的团队反而能更好地理解模型行为,最终做出更好用的产品。 Peter Yang 提到了一个务实的担忧:随着我们越来越信任模型去执行更长时间的任务,它在过程中做的很多决策,人类根本没有监督。所以它做什么决策、基于什么价值观做决策,就变得非常关键。 Alex 的回应是: "如果这个东西在帮你写所有代码,决定你用什么数据库、做所有架构决策,你当然希望能在某种程度上信任它。所以它拥有我们之前说的那种高品格,确实很重要。