--- title: Fable 5 的信号:Agent 开始拼 Runtime — 架构师若飞的 Runtime Contract 框架 source_url: https://mp.weixin.qq.com/s/NzDdZyo9kwW8HwcLh-CPfA author: 若飞 (架构师 JiaGouX) publisher: 架构师 (公众号) publish_time: 2026-06-14 22:46 related_first_source: claude-fable-5-prompt-leak (VibeCoder 2026-06-12 安全工程视角) ingested: 2026-06-15 type: raw sources: [] review_value: 8 review_confidence: 7 review_recommendation: strong review_stars: 4 char_count: 11050 sha256: 4792b1245eb72f4f06c50f51f1a03d1211dfe6f76068a3388c8992de54f7ffdd notes: | 架构师若飞 2026-06-14 22:46 长文,借 Claude Fable 5 提示词泄漏事件提出 Agent Runtime 四层架构, 核心创新: Runtime Contract 概念(Task Brief 9 字段 / 能力路由 8 维度 / 执行状态账本 / 治理层), 标志着 Agent 竞争从"模型能不能答"走向"系统能不能跑完任务"。 --- # Fable 5 的信号:Agent 开始拼 Runtime **公众号**: 架构师 JiaGouX (作者: 若飞) | **发布时间**: 2026-06-14 22:46 --- **导语**: Claude Fable 5 上线没几天,就被按下了暂停键。 Anthropic 先发布 Fable 5 和 Mythos 5。没过几天,Pliny 在 X 和 GitHub 上放出一份自称来自 Claude Fable 5 的系统提示词,CL4R1T4S 仓库里的文件一共 1585 行。随后,Anthropic 在 2026-06-12 发布说明:**美国政府以国家安全为由发出出口管制指令,要求暂停任何外国公民访问 Fable 5 和 Mythos 5**。Anthropic 表示,为了合规,只能暂时对所有客户关闭这两个模型,其他 Claude 模型不受影响。 新模型发布、系统提示词公开、访问被暂停,这**三件事挤在一起,很容易让人只盯着热闹看**。 但放到 Agent 产品里,真正值得停一下的,是另一个问题:**强模型开始接长任务之后,系统到底要补哪一层?** ## Runtime 不只是模型背后的基础设施 这里的 Runtime,不只是模型背后的基础设施。它更像一套 **Agent 运行协议**: - 任务怎么交代 - 工具怎么路由 - 状态怎么保存 - 产物怎么验证 - 风险怎么降级 - 什么时候需要把人拉回来 借 Fable 5 这次风波,我们可以把问题拉回工程里: > **当 Agent 从回答问题走向接手任务,我们到底要设计什么?** ## 边界声明 - CLAUDE-FABLE-5.md 来自第三方公开仓库,Anthropic **没有确认它完整、未改动** - 它更接近 Claude.ai / Claude App 这类产品界面的系统提示词,**不**等于 Claude API 的默认系统提示词,也**不**等于 Claude Code 的完整运行规则 - Anthropic 官方文档确认,Fable 5 面向更复杂、更长时的 Agentic Work - 截至 2026-06-14,Fable 5 / Mythos 5 的访问状态已经发生变化(2026-06-12 因美国政府指令暂停) **结论**: Fable 5 现在更适合作为观察样本,而**不**是一个可以直接套用的模板。 ## 核心论点 1:Prompt 不能复制 Runtime **网上的分歧**: - 看法 A: 既然 Fable 5 提示词公开,套到老模型(例如 Opus 4.8)也能跑出接近效果 - 看法 B (本文立场): **Prompt 能迁移规则,迁移不了底层权重、训练数据和完整 Agent 架构** **Prompt 可复制的"表层协议"** (放到别的模型上也有帮助): - 遇到新信息先搜索 - 做文件任务先读 Skill - 交付物要放到用户可见的位置 - 长任务要留下进度、绕过项和证据 - 第三方连接器要让用户授权 - 进度声明要能回到工具结果 **Prompt 难以复制的 4 件事**: 1. 模型权重里学到的推理能力 2. 训练数据里覆盖过的工具使用模式 3. 产品侧真实存在的工具、文件系统、存储和权限 4. 长任务运行中对成本、安全、拒答、降级的工程处理 > **Prompt 是合同文本,合同能不能执行,还要看模型能力、工具实现、权限系统、上下文管理、验证流程和产品交互。** ## 核心论点 2:Runtime Contract 而非 Prompt **Fable 5 提示词的真正突破**: 它**不是"让模型表现更好"的提示词**,而是 **Agent Runtime 的运行契约**。 具体在提示词里定义了 9 类规则: | 类别 | 内容 | |------|------| | **Artifact 跨会话存储** | window.storage 怎么用 | | **MCP App 路由** | 什么时候查 registry,什么时候建议连接器 | | **计算机使用环境** | 哪些目录是用户上传,哪些目录是最终输出 | | **Skill 触发** | 创建文件或运行代码前,为什么要先读相关 SKILL.md | | **搜索工具** | 什么时候需要用 | | **引用与版权合规** | 怎么引用才合规 | | **交付呈现** | present_files 什么时候调用 | | **工具 schema** | web_search / web_fetch / bash_tool / create_file / str_replace 等 | | **Claudeception** | Artifact 里怎样再调用 Anthropic API | > 这不是"告诉模型尽量聪明一点"。这是告诉模型: **你运行在哪个产品表面 / 你有哪些内置能力 / 哪些能力需要用户授权 / 哪些文件只是输入 / 哪些文件才是交付 / 哪些动作需要证据 / 哪些来源不能直接复述 / 什么时候该查实时信息 / 什么时候该把结果呈现给用户 / 什么时候要承认边界**。 ## 核心论点 3:任务协议(Task Brief)9 字段模板 Mike Krieger 和 Every 团队给出的 Fable 5 prompt library,核心是 **任务简报** 而非文案技巧。**长任务 Agent 常见的问题,往往不在第一步,而在中途: 它不知道什么叫"完成"**。 **可执行的任务边界模板**: | 字段 | 要写清什么 | |------|----------| | **背景** | 这件事属于哪个项目、哪个阶段、为什么现在要做 | | **目标** | 产出什么,不产出什么 | | **Done means** | 什么证据能说明完成 | | **上下文包** | repo、文档、接口、历史决策、账号、测试数据 | | **权限边界** | 能读什么、能改什么、不能碰什么 | | **验证方式** | 单测、构建、截图、日志、真实流程、人工复核点 | | **阻塞处理** | 哪些可以用假设继续,哪些需要停下来问 | | **交付物** | 补丁、报告、文档、PR、截图、运行记录 | | **降级策略** | 模型被拒、工具不可用、成本过高、访问不可用时怎么办 | > **对长任务来说,边界比热情更重要。** ## 核心论点 4:能力路由 8 维度 **Agent Runtime 要回答的问题,不止是"有没有工具"**: 1. 什么时候用内置工具 2. 什么时候查外部网页 3. 什么时候用 MCP 4. 什么时候需要让用户授权 5. 什么时候读 Skill 6. 什么时候开子代理 7. 什么时候生成 Artifact 8. 什么时候只回答,不动文件 **没有路由层,工具越多,Agent 越容易乱**。 **Fable 5 提示词里的路由思想**: - **MCP**: 不是随便调的,第三方连接器要先发现 → 再建议 → 再等待用户选择 - **Skills**: 不是知识库摆设,创建文件和运行代码前**必须**先读相关 Skill - **搜索**: 不是最后补救,遇到快速变化或不认识的新实体**主动**搜索 - **交付文件**: 不是聊天里贴完就算,要放到可见输出区并呈现给用户 - **Artifact**: 不是单纯页面,还可以绑定存储和模型 API,形成更复杂工作流 ## 核心论点 5:执行状态 — 不能只靠聊天记录 长任务 Agent **不能只靠聊天记录记住自己做过什么**。 **Fable 5 的状态账本设计**: - memory(跨会话长期记忆) - Artifact storage(窗口内结构化存储) - 文/文件账本 - 工具调用历史 - 进度声明必须回到本轮工具结果校验 **Anthropic 官方 prompting 文档的建议**: - 给 Fable 5 **任务原因**,而不只是请求 - 长任务汇报进度前,要把每个进度声明**回到本轮工具结果**上检查 - 深度长会话里,模型偶尔会提前停止或把计划当成结果,所以需要明确"**能行动时就行动,完成或确实阻塞再结束**" ## 核心论点 6:适合长任务 Agent 的判断表 | 任务特征 | 是否适合长任务 Agent | |---------|------------------| | 只需要一句问答 | ❌ 不适合,用便宜模型或普通搜索 | | 输入清楚、输出短、风险低 | ❌ 不一定适合,先用普通模型 | | 多阶段、跨文件、需要工具 | ✅ 适合试 | | 有明确 Done means | ✅ 适合试 | | 能提供验证证据 | ✅ 适合试 | | 失败成本高但可回滚 | ⚠️ 适合,但要沙箱和人工复核 | | 涉及生产、资金、权限、敏感数据 | ⚠️ 谨慎,先把治理层补齐 | | 供应商不可用会中断业务 | ⚠️ 需要准备 fallback | > **长任务 Agent 更适合先用在"人也需要坐下来认真做"的任务上。** ## 核心论点 7:设计对象变了 **过去我们设计 Agent 系统,常常先问**: - 用哪个模型 - prompt 怎么写 - 要不要 RAG - 接哪些工具 - 做不做 memory **这些问题仍然重要,但不够了**。 **如果 Agent 要进入真实团队,我们还要问另一组问题**: - 任务协议是否统一 - 工具路由是否可控 - 状态是否可接手 - 产物是否能验证 - 权限是否可审计 - 成本是否可解释 - 拒答和降级是否有预案 - 模型供应商不可用时,业务会不会停 > 放在一起看,这就是 **Agent Runtime 的架构问题**。 ## 结论:工程责任换了形态 > **我自己目前的看法比较保守: 短期内,优秀工程师不会被长任务 Agent 替代,但工作重心会前移。** 以前我们花很多时间亲手写实现。现在会越来越多地花时间: - 定义任务 - 准备上下文 - 设置边界 - 检查证据 - 评审取舍 **这不是工作减少。这是工程责任换了形态。** > Fable 5 这次值得研究的地方,不是那份 1585 行文件里有没有某句"神奇提示词"。我会把它看成一个信号: **Agent 产品正在把过去藏在产品代码、工具网关、权限系统、文件系统和人工习惯里的运行规则,逐步显性化**。 > 能把这些规则沉淀成稳定的 Runtime,复杂任务才有机会持续交付。 > **模型能力当然重要。对要落地的团队来说,下一步要补的,可能是这些很朴素的东西: 任务 brief、状态账本、证据目录、工具路由、权限清单、成本阈值和 fallback 预案**。 > 这些东西没有发布会那么热闹。但 Agent 能不能进团队,常常就卡在这里。 ## 参考资料 - Anthropic:《Claude Fable 5 and Claude Mythos 5》 - Anthropic:《Prompting Claude Fable 5》 - Anthropic:《Statement on the US government directive to suspend access to Fable 5 and Mythos 5》 - Pliny / CL4R1T4S: ANTHROPIC/CLAUDE-FABLE-5.md - AlphaSignal: Claude Fable 5 prompt leak - Simon Willison:《Initial impressions of Claude Fable 5》《Claude Fable is relentlessly proactive》《If Claude Fable stops helping you, you'll never know》 - Every:《How to Get the Most Out of Fabl...