--- title: "Claude Fable 5 提示词泄漏:安全工程露出了底牌" source: wechat-mp source_url: https://mp.weixin.qq.com/s/vsvqHXCBHWJJFRDOviIj2w author: VibeCoder (Vibe编码) published: 2026-06-12 ingested: 2026-06-12 type: article-summary tags: [claude-fable-5, mythos-5, prompt-leak, cl4r1t4s, runtime-control-plane, attack-surface, mcp, agent-security, harness-security, prompt-engineering, system-prompt] sha256: 96dfda14dec99ca2376611fc0094e1a806b487412f6cef5384b2859fbed711b9 --- # Claude Fable 5 提示词泄漏 (VibeCoder / Vibe编码) ## 一、事件背景 2026-06-09 Anthropic 发布 **Claude Fable 5** + **Mythos 5**(Mythos-class)。几天后,**CL4R1T4S 仓库**出现 `CLAUDE-FABLE-5.md`,**1585 行 / 120,040 字符**。第三方媒体(Pliny the Liberator)声称绕过了 Fable 5 安全分类器。本文章不评价截图真伪,专注**这份提示词为什么变成高价值目标**。 ## 二、Fable 5 安全结构(官方设计) - **Fable 5** = 面向一般用户版本 - **Mythos 5** = 同底层模型,高风险领域限制更少,只给受信组织 - **新安全分类器**:高风险主题触发拒绝 / 转交低风险配置 - **API 拒答**:可以 HTTP 200 返回,`stop_reason=refusal` - **开发者必须处理**:新 refusal + fallback + billing 逻辑 ## 三、CLAUDE-FABLE-5.md 6 层架构 把 1585 行提示词翻成中文,是一套**分层产品运行时控制平面**: ### 第 1 层:行为宪法 - Claude 自我介绍规则 - Fable vs Mythos 产品差异处理 - 何时搜索官方文档 - 高风险场景拒答口径:网络安全 / 恶意代码 / 有害物质 / 违禁药物具体用法 / 法律金融 / 心理健康 / 自伤 / 饮食失调 / 政治争议 / 用户批评 ### 第 2 层:产品说明 - Claude Code / Claude Cowork / Claude in Chrome / Claude in Excel / Claude in PowerPoint - 回答产品问题时携带官方口径 ### 第 3 层:能力系统 - **Memory system**:用户记忆存在性 - **Artifact 持久化存储**:键值存储 / 个人 vs 共享数据 / key 限制 / 失败处理 - **Claude 不只回答问题,也能生成有状态小应用** ### 第 4 层:computer use - 创建文件 / 写代码 / 做文档 / 做幻灯片 / 处理 PDF/表格 前**先读对应 SKILL.md** - 真实文件 vs 对话回答 vs 交付物的判定 ### 第 5 层:搜索与版权 - 近期事件 / 陌生产品 / 当前职位 / 价格 / 天气 / 体育 / 法律政策 / 版本信息 → **先搜索** - 限制长引用 → 用自己的话转述 - 安全规则也管搜索:不能帮用户定位危险信息源 ### 第 6 层:工具和环境 - **完整工具 schema**:bash / web search / web fetch / 文件创建 / 地图 / 消息撰写 / 天气 / 体育 / MCP registry / 连接器推荐 - 环境配置:当前日期 / 用户位置占位符 / 可用 skills / **网络白名单** / **只读目录** ## 四、10 大设计亮点 1. Fable / Mythos 差异 = **产品口径** 2. 高风险拒答:**不能因为公开可得就放行** 3. 搜索规则按"**信息是否会变**"决策 4. **Artifact 有持久化存储** 5. **MCP 推荐带用户 opt-in**(商业边界:用户点名 connector 处理 / 第三方消费 app 让用户确认选择) 6. **Skills 要先读再执行** 7. 文件产物有独立工作流 8. 版权规则嵌入搜索和生成流程 9. **完整工具 schema 进入上下文** 10. **网络和目录边界显式可见** ## 五、核心论点:Prompt 不能继续当保险箱 ### 5.1 风险判断应拉到工作流层 **能写进 prompt 的** = 用户体验规则(语气 / 格式 / 解释方式 / 工具最小说明 / 错误沟通) **应放在服务端策略层的** = 高风险分类 / 权限判定 / 工具授权 / 用户数据边界 / fallback 路由 / 内部策略开关 > "prompt 可以告诉模型如何礼貌地说不。真正决定能不能做、能不能调用工具、能不能访问数据,应该由模型外侧的系统来判定。" ### 5.2 攻击面像系统(不是文本) | 模型能力 | 攻击边界 | 风险类型 | |----------|----------|----------| | 只能聊天 | 文本输出 | 内容风险 | | 搜索 + 读写文件 + bash + artifact + MCP + 外部 app | **动作** | **系统风险** | **MCP 联网 → SaaS 权限系统**: - 推荐连接器 / 选择供应商 / 读取用户数据 / 执行第三方动作 → **不能只靠模型自觉** ### 5.3 分类器要处理组合风险 攻击者**把危险意图拆成低风险问题**: - 上下文埋进长文档 - 目标伪装成小说 / 课程 / 论文 / 测试题 - 多个模型 / Agent 串起来 **每一步不一定触发分类器,最终输出可能越界。** **分类器需要从单点判断 → 状态判断**: - 跨轮意图 - 工具调用链 - 生成产物 - 用户反复试探的轨迹 - **任务级别预算 + 中断机制**:发现偏离合法研究 / 合法防御时停止继续提供细节 ### 5.4 分层(不是全封) - 普通解释 → 给 - 防御建议 → 给 - 检测和加固 → 给 - **可执行攻击 / 武器化步骤 / 违禁合成 / 绕过安全系统的操作细节** → 挡在模型外侧 ## 六、3 个开发者判断 ### 6.1 系统提示词会越来越像基础设施配置 - 过去:泄漏 prompt = 看角色人设和口癖 - 现在:泄漏 prompt = **产品能力 + 工具协议 + 权限设计 + 安全策略** - 已经接近**架构文档** ### 6.2 Agent 安全会从模型层挪到 harness 层 模型拒答只是一环,**真正要管的**: - 执行环境 - 工具权限 - 上下文压缩 - 日志审计 - 回滚恢复 - 连接器授权 - 服务端策略 ### 6.3 红队实验要讲决策价值 看到一种绕过方式 ≠ 穷举 100 种变体。**更好的实验问题**: - 这类绕过说明**分类器要改**还是**工具权限要改**? - 说明 prompt 需要**移出敏感规则**还是需要**跨轮风险聚合**? - 如果某组实验只是在重复确认"还能绕",**边际信息就很低** ## 七、对 Agent 设计的核心原则 > "以后所有 system prompt、AGENTS.md、skill、tool schema,**都应该按会被公开来写**。**能公开的放进去,不能公开的搬到服务端**。模型可以参与决策,但**不要让模型单独保管边界**。" **8 个具体动作**: 1. Agent 提示词 / AGENTS.md / skills / 工具 schema → **不要放秘密** 2. 工具按最小权限设计(能只读就只读 / 限制目录 / 用户确认 / 危险动作进 sandbox) 3. 日志记录:模型为什么调工具 / 工具返回什么 / 哪些上下文被带进下一轮 4. MCP 联网 → 按 SaaS 权限系统设计 5. 风险判断放到**工作流层**(请求 + 历史 + 工具输出 + 计划 + 产物 = 同一条审计链) 6. 分类器从**单点 → 状态**(跨轮 + 工具链 + 产物 + 试探轨迹) 7. 任务级别预算 + 中断机制 8. 分层放行(普通解释给 / 防御给 / 攻击细节挡) ## 八、引用源 - 原文:https://mp.weixin.qq.com/s/vsvqHXCBHWJJFRDOviIj2w - 关联:[[raw/articles/claude-fable-5-and-new-ai-safety-fables|Claude Fable 5 安全寓言 (Nathan Lambert)]] - 关联:[[raw/articles/anthropic-claude-fable-5-on-aws内置保护措施的-mythos-级功能现已推出|Fable 5 on AWS Bedrock]] - 关联:[[raw/articles/aliyun-cloud-native-safety-guardrails-evolution|阿里云云原生 安全护栏三域演进]] - 关联:[[raw/articles/claude-fable-5-mollick-patron-vs-wizard|Mollick Fable 5 patron vs wizard]] - 关联:[[raw/articles/anthropic-mythos-bug-hunting-marketing|Mythos bug hunting 营销]] - 关联:[[raw/articles/system-over-model-tested-reproducing-mythoss-freebsd-find-on-20260606|System over Model tested]] - 关联:[[raw/articles/nathan-lambert-claude-mythos-open-weights|Nathan Lambert Mythos open weights]] - 关联:[[raw/articles/anthropic-12-mcp-production-patterns|Anthropic 12 MCP 生产模式]] - 关联:[[raw/articles/anthropic-14-skill-patterns-best-practices|Anthropic 14 Skill 模式]] - 关联:[[raw/articles/skill-issues-compromising-claude-code-with-malicious-skills-agents|Skill Issues Claude Code]]