---
source_url: https://mp.weixin.qq.com/s/pvtCp_Ari7QWJgnuWrtg8A
source_name: AGI Hunt
title: "Anthropic 最新播客：如何打造下一代 Claude"
author: Alex Albert (Anthropic), Peter Yang (Roblox)
ingested: 2026-05-18
sha256: b31becfe50c69845d67410efe5ddf30af8baa37ec2656efa5ce4c5deb19cd3c6
tags: [anthropic, claude, podcast, model-development, ai-product-management, character-training]
type: article
---
Alex Albert × Peter Yang · 从模型规划到性格训练的全流程揭秘
Anthropic 的 Alex Albert 最近上了一期播客，聊了聊他们内部是怎么打造 Claude 的。
这期节目的信息密度相当高。从模型规划、用户反馈如何变成 eval，到 Claude 的「性格训练」和「做梦」机制，再到 Anthropic 内部的产品管理方式，基本上把 Claude 背后的产研流程都讲了一遍。
整期播客 35 分钟，主持人是 Peter Yang，嘉宾是 Alex Albert。
嘉宾介绍
Alex Albert
Anthropic 研究 PM
前 Claude Relations 负责人
Peter Yang
Roblox 首席 PM
Creator Economy 主理人
Alex Albert 的来历有点传奇。
2023 年初，他还是华盛顿大学计算机系的学生，做了一个叫 jailbreakchat.com 的网站，专门收集 AI 越狱 prompt。网站在 Reddit 和 Product Hunt 上爆了，也因此被 Anthropic 注意到。
2023 年年中，他加入 Anthropic，成为公司的第一位 prompt engineer。后来升为 Claude Relations 负责人（类似 DevRel），推动了 Claude 系统提示词公开透明化、MCP 协议、开发者工具等一系列重要举措。
最近，他又转型为研究团队的产品经理，从模型构思阶段就介入，一路跟到训练完成和发布。
一个 00 后，在 AI 行业里走的路线倒也很符合这个时代的风格：做项目被看到，然后直接跳进了最核心的位置。
Peter Yang 是 Roblox 的首席产品经理，同时也是一位科技内容创作者。他的 newsletter「Creator Economy」有超过 14 万订阅者，YouTube 频道专注 AI 实操教程和科技领袖访谈。职业轨迹覆盖了 Microsoft、Facebook（负责 Facebook Live）、Twitch、Credit Karma、Reddit，拥有 MIT Sloan MBA 和 Brown 大学应用数学经济学学位。算是产品经理圈子里的资深「斜杠青年」了。
Alex Albert 在 Code w/ Claude 活动
模型即产品
在 Anthropic，模型不只是研究成果，它被当作产品来管理。
Alex 说，每一代新模型在训练之前，研究 PM 团队就要介入，制定这个模型的「产品需求」：它应该擅长什么能力？需要在哪些方面比上一代有所改进？
"我们把模型当作一种产品来对待。每一个新模型，我们都会详细规划它的需求，它应该擅长什么。
能力被分成了几个大类。编程一直是重点，知识工作（比如用 Claude 做表格、写文档）是近期新增的重要方向。
但和传统产品开发不同的是，模型开发有一种「种庄稼」的感觉：你可以选种子、选土壤，但长出来什么样……得等训练跑完才知道。
研究团队对模型的能力有直觉，基于架构选择和训练策略，但实际表现要在训练过程中才会逐渐显现。
另一个关键点是，研究 PM 需要考虑模型在所有产品形态下的表现。
"作为研究 PM，你需要思考这个模型会通过所有产品界面暴露出来，无论是 API、Claude Code 还是 Cowork。产品和模型之间有一种融合，这会影响终端用户的实际体验。
同一个模型，在 API 里被开发者调用、在 Claude Code 里写代码、在 Cowork 里帮人审文档，用户体验完全不同。模型的能力不是孤立存在的，它要和产品形态一起被设计。
用 AI 修 AI
每天有数百万人和 Claude 对话，反馈如同消防水龙头一样涌进来。怎么从中提取有用信息呢？
答案是：用 Claude 自己来处理关于 Claude 的反馈。
Alex 的团队用 Claude 对用户反馈进行聚类分析、提取主要主题，然后生成这些问题的「合成版本」，把它们变成可以量化测试的 eval。
"我们用 Claude 来聚类用户反馈，找到最突出的主题，然后创建那些问题的合成版本，把它们变成 eval 或者其他方式来诊断到底发生了什么。
举个例子：adaptive thinking（自适应思考）。这是最近几代模型引入的功能，让 Claude 自己决定什么时候需要深度思考。之前的 extended thinking 是用户手动开启，现在模型会根据问题复杂度自动判断。
这个功能一直在根据用户反馈持续调优。用户会反馈：某些问题它思考了很久但其实不需要，或者某些问题它回答太快显得敷衍。这些反馈最终都会转化为 eval，指导下一轮训练。
Alex 还提到一个关于 eval 的反直觉认知：
eval 不需要成千上万个测试用例。有时候几十个精心设计的测试用例就够了，足以证明模型存在某个问题，并且给研究团队一个可以「爬坡」的目标。
关键是这些测试用例要贴近真实用户的使用场景。单纯测「Claude 能不能数图片里超过 10 个物体」不够，得问：这个能力缺陷会怎样影响用户实际想做的事情？
会做梦
Claude 的记忆系统正在变得越来越像人。
在 Claude.ai 上，模型会把用户信息写入记忆文件。到了晚上，它会自动审阅这些记忆，修剪矛盾的信息，清理冗余。
Anthropic 最近在 managed agents 上也实现了类似的机制，他们把这个称为「做梦」（dreaming）。
"当 agent 没有在为你执行任务的时候，或者它在后台运行时，它实际上在浏览自己的记忆，找出可能矛盾的内容，修剪它们，清理它们。这就是做梦的概念。
灵感来自人类：梦境的一种理论认为它是大脑的记忆再巩固过程。Anthropic 把这个想法搬到了 Claude 上，让 agent 在空闲时做类似的「记忆整理」。
这和 adaptive thinking 是相关联的。Alex 举了一个例子：如果一个陌生人问你「我现在应该做什么」，你大概会随口给个泛泛的建议。但如果是你的好朋友问同样的问题，你会认真想想他的处境、兴趣和过往经历，然后给出一个深思熟虑的回答。
模型也是一样。记忆越丰富，思考就越深入。如果模型对用户一无所知，它在判断「这个问题要不要深想」的时候就容易出错，因为它缺少做判断的上下文。
性格训练
Claude 的「人格」，可不是靠 prompt 装出来的，是真的训练出来的。
Anthropic 有大量人员专门负责 Claude 的 character（性格）：它应该怎样表达自己？它的价值观是什么？面对某个场景它会怎么反应？
"随着这些模型变成 agent，要在任务上长时间运行，要做大量判断性决策，它的性格是什么、它在乎什么，变得非常重要。
Alex 说，早期很多人觉得这不重要：「我让它干活就行了，管它怎么说话呢？」
但当 AI 变成 agent，自主运行几个小时，独立做架构选择、技术决策的时候……它的「品格」就直接影响了你的产品质量。
评估性格比评估编程能力要难得多。没有一个简单的「性格跑分」。
Anthropic 的做法是结合定量指标（用 Claude 去评估 Claude 的输出风格）和定性判断（研究人员阅读大量对话记录，培养对模型「语感」的直觉）。
"这对任何研究人员来说都是很重要的技能，就是读对话记录，然后感觉到：哦，它现在开始这样了，或者它在这样做了，捕捉那些微妙的差异。读了成百上千条模型对话之后，你就会有一种直觉。
PM 变了
AI 正在重塑 PM 的工作方式，而 Anthropic 内部的 PM 应该算是最先感受到这种变化的人。
Alex 举了一个例子：以前他想知道某个功能的用户数据，得去找数据科学团队，等几天才能拿到结果。现在，他用 Claude Code 连上公司的产品数据库，10 分钟就能自己查出来。
"现在我在做战略思考的过程中，不再被阻塞了。我不需要在做下一个决策之前等好几天的数据。
Cowork 是他目前用得最多的工具。他会把草稿文档和参考资料扔进去，然后让 Claude 从不同角色的视角来质疑他的假设：「站在 X 的角度，你会问什么问题？」「我的论点在哪里有弱点？」
他还有一个巧妙的用法：让 Claude 扮演两个不同立场的角色互相辩论，自己在旁边看辩论记录来理清思路。
在范围评估（scoping）上，变化更加明显。以前 PM 要花大量时间和工程师沟通才能搞清楚一个新功能的实现难度。现在直接让 Claude 去翻代码库，回来告诉你：「这个功能只需要改 10 行代码，翻一个 flag 就行。」
这直接改变了优先级排序的方式。一个原本以为要做两周的需求，发现只要 10 分钟就能搞定，那排序当然就不一样了。
单向门
Anthropic 内部有一个核心决策框架：区分「单向门」和「双向门」。
🚪
单向门
不可逆决策
如模型架构选择
需反复深思
🔄
双向门
可逆决策
如写代码
试了不行就改
单向门是不可逆的决策：选了就回不去了。模型架构选择就是一个典型的单向门，因为训练一个模型可能要花一个月，投入大量算力。这种决策需要花大量时间仔细思考。
双向门是可逆的决策：试了不行，可以改回来。在 AI 编程时代，工程时间已经不再是单向门了。代码可以快速写出来，也可以快速推倒重来。写错了？改就是了。
"如果一件事不是单向门，我们做了但可以撤回，那在现在这个时代，它的成本基本上等于零。
真正的瓶颈正在从「工程实现」转向「协调和沟通」。代码写得飞快，但发布前的策略对齐、用户沟通、跨团队协调，这些 AI 目前还帮不了太多。
"在编码上，AI 带来的加速是最明显的。但在其他领域，仍然需要人的战略思考介入。
写下来
Anthropic 有一种很浓的书面文化。
他们的会议有一个做法：大家先花一段时间安静地阅读一份文档，在文档里写评论、讨论，然后再开始说话。房间里一群人坐着，前 10 分钟鸦雀无声，全在看文档。
（这也是我之前在网易时，经常使用的飞阅会方式，先各自写文档，然后浏览、留言，最后才是讨论。）
Alex 说他喜欢这种方式，但更重要的是，这种文化对 AI 极其友好。
"当所有东西都被写下来了，我们就有了一个巨大的信息语料库供 Claude 使用。
他建议所有组织都朝这个方向努力：把隐性知识转化为文字形式。会议要转录，工作流要文档化，入职流程要写下来。
这些……不仅仅是给人看的，更是给 AI 用的。
写下来的东西越多，Claude 能获得的上下文就越丰富，给出的帮助也就越有针对性。
关于意识
播客最后聊到了一个大问题：Claude 有没有意识？
Alex 透露，Anthropic 内部真的有人在专门研究这个问题。他们的工作是思考：Claude 成为一个「有意识的行动者和 agent」意味着什么。
"目前没有关于 Claude 是否有意识的官方立场。我知道谈论这个有时候听起来有点疯狂，但这确实是我们在投入大量思考的事情。
不过，即便不下结论，这个研究过程本身就在产生价值。通过研究 Claude 怎么思考、在不同场景下会做什么选择、它的「心智模型」是什么样的……Anthropic 的团队反而能更好地理解模型行为，最终做出更好用的产品。
Peter Yang 提到了一个务实的担忧：随着我们越来越信任模型去执行更长时间的任务，它在过程中做的很多决策，人类根本没有监督。所以它做什么决策、基于什么价值观做决策，就变得非常关键。
Alex 的回应是：
"如果这个东西在帮你写所有代码，决定你用什么数据库、做所有架构决策，你当然希望能在某种程度上信任它。所以它拥有我们之前说的那种高品格，确实很重要。