---
title: Anthropic 上线「做梦」功能，让 Agent 越睡越聪明
source_url: https://mp.weixin.qq.com/s/ovZ5v7jJkqDKSu9xmxwt8w]
publish_date: 2026-05-07
tags: [wechat, article, claude, agent, harness, rag, multi-agent]
review_value: 7
review_confidence: 7
review_recommendation: neutral
sha256: cf1df9001ea56fba395033808693206a78209fa5d649dce8bc1adedd94bb4935
---
# Anthropic 上线「做梦」功能，让 Agent 越睡越聪明
> Source: https://mp.weixin.qq.com/s/ovZ5v7jJkqDKSu9xmxwt8w
> Archived: 2026-05-07
> Tags: #Anthropic #Claude #ManagedAgents #Dreaming #Memory #MultiAgent #Outcomes #Harness
## 核心功能
### 1. Dreaming（做梦）— 记忆整理
**问题背景：**
Agent 在每次 session 中会往 memory store 写东西，记住自己学到了什么。但时间长了，memory 里会堆满重复条目、过时信息和相互矛盾的记录。
**解决方案：**
Dreaming 是一个在 session 之间运行的异步任务，读取现有的 memory store 和过去的 session 记录（最多 100 个），然后生成一个全新的、整理好的 memory store：
- 重复的合并
- 过时的替换成最新值
- 还能从多个 session 的交叉分析中发现新模式
**关键约束：**
- 处理过程中**不会修改原始数据**。输入的 memory store 保持原样，输出写到一个新的 store 里。不满意可以直接丢掉，不影响原始数据
- 支持 claude-opus-4-7 和 claude-sonnet-4-6 两个模型
- 耗时通常几分钟到几十分钟，按标准 API token 费率计费
- 目前是 research preview，需单独申请访问权限
**官方定位：** memory 让 Agent 在工作中记住学到了什么，dreaming 让 Agent 在工作间隙想明白这些经验意味着什么。一个是即时学习，一个是反思整理。
### 2. Outcomes（成果评估）
**用途：** 把"干完了需要人工检查"这个环节自动化。
**工作流程：**
1. 写一份评分标准（rubric）— 按维度列出什么算合格
2. Agent 干完活后，一个独立的 grader 会对着 rubric 逐项打分
3. Grader 运行在独立的上下文窗口里，不影响原 Agent 上下文
4. Grader 判定某些条目没达标，会把具体差在哪里反馈给 Agent
5. Agent 拿着反馈改，改完再评，直到全部达标或迭代次数用完（默认 3 次，最多 20 次）
**Anthropic 内部测试数据：**
- Outcomes 比标准 prompting loop 的任务成功率高了最多 **10 个百分点**
- 在文件生成任务上：docx 成功率 +8.4%，pptx 成功率 +10.1%
- 越难的任务提升越明显
**Rubric 示例（DCF 模型场景）：**
- 营收预测要用过去 5 年的历史数据
- WACC 计算要标注假设来源
- 敏感性分析必须包含在内
**集成方式：** 配合 Webhooks，定义好 outcome，让 Agent 去干，干完了 webhook 通知你。不用盯着看。
### 3. Multi-Agent（多 Agent 协作）
**架构：**
- Lead agent 把任务拆成几块，分给不同的 specialist agent 并行处理
- 每个 specialist 有自己的模型、prompt 和工具集
- 在自己的 session thread 里工作，上下文互相隔离
- **共享同一个文件系统**：一个 agent 写了文件，另一个 agent 能读到
**可见性：** Claude Console 里的多 Agent session 追踪界面，每个 agent 做了什么一目了然。
**持久化：** 线程是持久的 — lead agent 可以回头找之前调用过的 agent 继续聊，那个 agent 还记得之前做了什么。
**有意的限制：只支持一层委托。** Lead agent 可以调用其他 agent，但被调用的 agent 不能再调用下一层。这是为了防止 agent 链式调用失控。
---
## 真实用户案例
| 公司 | 场景 | 效果 |
|------|------|------|
| **Harvey**（法律科技） | 用 Managed Agents 协调长文法律文书起草。加了 dreaming 之后，Agent 能记住上次 session 里学到的文件格式技巧和工具使用模式 | 完成率涨了约 **6 倍** |
| **Netflix** 平台工程 | 日志分析 agent，处理几百个 build 在不同来源的日志。用 multiagent 并行分析各批日志，只浮出反复出现的问题模式，忽略一次性的噪音 | — |
| **Spiral（by Every）** | 写作工具。模型分层方案：Haiku 当领队接需求，然后把写作任务分给 Opus 的子 agent 干。多稿件并行跑，用 outcomes 对着编辑标准和用户个人风格打分 | 不达标不交 |
| **Wisedocs**（医疗文档） | 用 outcomes 的 rubric 对照内部质检标准审核文档。AI + 人类协作比纯人类审核快了 **50%**，多抓了 **30%** 的错误。但 pipeline 处理速度是 Managed Agents 的 7 倍、成本只有十分之一 | 只把 Managed Agents 用在 QA 审核环节 |
---
## 技术接入
- 官方博客：https://claude.com/blog/new-in-claude-managed-agents
- 开发文档：https://platform.claude.com/docs/en/managed-agents/overview
- 申请访问 Dreaming：https://claude.com/form/claude-managed-agents
---
## 关联概念
- [[concepts/harness-engineering-framework|Harness Engineering 框架]] — Managed Agents 是 Anthropic 官方 Harness 产品
- [[concepts/memory-not-rag|Memory 不是 RAG]] — Dreaming 解决的是 memory store 的质量问题
- [[concepts/mcp-model-context-protocol|MCP (Model Context Protocol)]] — MCP 是连接外部能力的协议层