--- title: Anthropic 上线「做梦」功能,让 Agent 越睡越聪明 source_url: https://mp.weixin.qq.com/s/ovZ5v7jJkqDKSu9xmxwt8w] publish_date: 2026-05-07 tags: [wechat, article, claude, agent, harness, rag, multi-agent] review_value: 7 review_confidence: 7 review_recommendation: neutral sha256: cf1df9001ea56fba395033808693206a78209fa5d649dce8bc1adedd94bb4935 --- # Anthropic 上线「做梦」功能,让 Agent 越睡越聪明 > Source: https://mp.weixin.qq.com/s/ovZ5v7jJkqDKSu9xmxwt8w > Archived: 2026-05-07 > Tags: #Anthropic #Claude #ManagedAgents #Dreaming #Memory #MultiAgent #Outcomes #Harness ## 核心功能 ### 1. Dreaming(做梦)— 记忆整理 **问题背景:** Agent 在每次 session 中会往 memory store 写东西,记住自己学到了什么。但时间长了,memory 里会堆满重复条目、过时信息和相互矛盾的记录。 **解决方案:** Dreaming 是一个在 session 之间运行的异步任务,读取现有的 memory store 和过去的 session 记录(最多 100 个),然后生成一个全新的、整理好的 memory store: - 重复的合并 - 过时的替换成最新值 - 还能从多个 session 的交叉分析中发现新模式 **关键约束:** - 处理过程中**不会修改原始数据**。输入的 memory store 保持原样,输出写到一个新的 store 里。不满意可以直接丢掉,不影响原始数据 - 支持 claude-opus-4-7 和 claude-sonnet-4-6 两个模型 - 耗时通常几分钟到几十分钟,按标准 API token 费率计费 - 目前是 research preview,需单独申请访问权限 **官方定位:** memory 让 Agent 在工作中记住学到了什么,dreaming 让 Agent 在工作间隙想明白这些经验意味着什么。一个是即时学习,一个是反思整理。 ### 2. Outcomes(成果评估) **用途:** 把"干完了需要人工检查"这个环节自动化。 **工作流程:** 1. 写一份评分标准(rubric)— 按维度列出什么算合格 2. Agent 干完活后,一个独立的 grader 会对着 rubric 逐项打分 3. Grader 运行在独立的上下文窗口里,不影响原 Agent 上下文 4. Grader 判定某些条目没达标,会把具体差在哪里反馈给 Agent 5. Agent 拿着反馈改,改完再评,直到全部达标或迭代次数用完(默认 3 次,最多 20 次) **Anthropic 内部测试数据:** - Outcomes 比标准 prompting loop 的任务成功率高了最多 **10 个百分点** - 在文件生成任务上:docx 成功率 +8.4%,pptx 成功率 +10.1% - 越难的任务提升越明显 **Rubric 示例(DCF 模型场景):** - 营收预测要用过去 5 年的历史数据 - WACC 计算要标注假设来源 - 敏感性分析必须包含在内 **集成方式:** 配合 Webhooks,定义好 outcome,让 Agent 去干,干完了 webhook 通知你。不用盯着看。 ### 3. Multi-Agent(多 Agent 协作) **架构:** - Lead agent 把任务拆成几块,分给不同的 specialist agent 并行处理 - 每个 specialist 有自己的模型、prompt 和工具集 - 在自己的 session thread 里工作,上下文互相隔离 - **共享同一个文件系统**:一个 agent 写了文件,另一个 agent 能读到 **可见性:** Claude Console 里的多 Agent session 追踪界面,每个 agent 做了什么一目了然。 **持久化:** 线程是持久的 — lead agent 可以回头找之前调用过的 agent 继续聊,那个 agent 还记得之前做了什么。 **有意的限制:只支持一层委托。** Lead agent 可以调用其他 agent,但被调用的 agent 不能再调用下一层。这是为了防止 agent 链式调用失控。 --- ## 真实用户案例 | 公司 | 场景 | 效果 | |------|------|------| | **Harvey**(法律科技) | 用 Managed Agents 协调长文法律文书起草。加了 dreaming 之后,Agent 能记住上次 session 里学到的文件格式技巧和工具使用模式 | 完成率涨了约 **6 倍** | | **Netflix** 平台工程 | 日志分析 agent,处理几百个 build 在不同来源的日志。用 multiagent 并行分析各批日志,只浮出反复出现的问题模式,忽略一次性的噪音 | — | | **Spiral(by Every)** | 写作工具。模型分层方案:Haiku 当领队接需求,然后把写作任务分给 Opus 的子 agent 干。多稿件并行跑,用 outcomes 对着编辑标准和用户个人风格打分 | 不达标不交 | | **Wisedocs**(医疗文档) | 用 outcomes 的 rubric 对照内部质检标准审核文档。AI + 人类协作比纯人类审核快了 **50%**,多抓了 **30%** 的错误。但 pipeline 处理速度是 Managed Agents 的 7 倍、成本只有十分之一 | 只把 Managed Agents 用在 QA 审核环节 | --- ## 技术接入 - 官方博客:https://claude.com/blog/new-in-claude-managed-agents - 开发文档:https://platform.claude.com/docs/en/managed-agents/overview - 申请访问 Dreaming:https://claude.com/form/claude-managed-agents --- ## 关联概念 - [[concepts/harness-engineering-framework|Harness Engineering 框架]] — Managed Agents 是 Anthropic 官方 Harness 产品 - [[concepts/memory-not-rag|Memory 不是 RAG]] — Dreaming 解决的是 memory store 的质量问题 - [[concepts/mcp-model-context-protocol|MCP (Model Context Protocol)]] — MCP 是连接外部能力的协议层