--- title: "State of Memory in Agent Harness — mem0 视角的九大 harness 横评" source_url: https://mp.weixin.qq.com/s/2c2MV0b1biv71WdX2gCt_A original_source: https://x.com/mem0ai/status/2061822612398014782 account: 烟花星空 AI author: mem0 published: 2026-06-11 ingested: 2026-06-12 sha256: 048fb1b6e6f477fa825e8049e76d57793032d6c3db24dac25eca791bfd3d4d1b type: source tags: [agent, harness, memory, mem0, comparison, landscape, survey] review_value: 9 review_confidence: 9 --- # State of Memory in Agent Harness > 作者: mem0 > 原文链接 (X 原帖): https://x.com/mem0ai/status/2061822612398014782?s=46 > 转载: 烟花星空 AI (微信公众号), 2026-06-11 ## 核心判断现在真正"发货"的，越来越是 agent harness，模型本身退到后面了。 Cursor、Devin、Claude Code、Codex 这些环境，负责上下文、工具编排、agent 协调，也越来越负责 memory。这篇文章的重点，是把各家 harness 的 memory 机制拆开看，再看看它们到底还缺什么。 ## Memory 到底分几种作者先把"memory"这个词拆成三层，因为它们的失败模式完全不同。 - **Working memory**: 会话中的上下文窗口内容。会话结束就重置，窗口满了之后怎么压缩，是它的难点。 - **External memory**: weights 之外的持久化内容，比如 vector store、knowledge graph、文件。它能跨 session 保存，2026 年几乎所有 production memory 都在这里。 - **Parametric memory**: 通过训练更新到 weights 里的知识。它靠 generalized rules 工作，而非检索样例。2026 年基本没有 production 部署。认知科学里的 semantic / episodic / procedural，说的是"存什么"；这三层说的是"存在哪里"。 ## 各家 Harness 怎么做 ### Claude Code 两条线： - `CLAUDE.md`：人写的配置和约定，session 开始时读取 - Auto-memory：后台 extraction agent 生成的笔记，放在 `~/.claude/projects//memory/`，外面再套一个 `MEMORY.md` 索引读取阶段：每轮额外调用一个小模型，让它根据文件名和描述选要加载的文件。 **问题**：靠文件名选文件，不靠语义搜索；再加上文件数上限和静默截断，相关内容很容易被漏掉。 ### Anthropic Managed Agents Anthropic 托管的 agent runtime，和 Claude Code 这种本地产品不同。 - Session 是 append-only event log，不会被原地修改。 - Memory store 挂在 `/mnt/memory/`，每个 workspace 最多 8 个 store，单个大约 100KB。 - 多个 agent 可以共享同一 store，历史可审计。 **短板**：偏 workspace 级协作，不太像长期个人记忆；容量也不大。 ### OpenAI Codex Memory 很"朴素"： - markdown 目录：`~/.codex/memories/` - `memory_summary.md` 先读 - `MEMORY.md` 按需 grep - 还有 `raw_memories.md`、`skills/`、`rollout_summaries/` 走的是 substring grep 这一路，语义搜索没有真正做起来。摘要也有固定 token budget，容易被截断得很安静。 ### GitHub Copilot 特点是 **just-in-time citation verification**。Memory 项是结构化对象，带 subject、事实内容、文件行引用和 reasoning。真正使用前，会验证引用是否和当前分支一致，不一致就重写。还有一个 **staleness 机制：28 天自动过期**。这是作者认为目前最强的"过时处理"方案之一，且有真实 A/B 结果。 ### OpenClaw Native memory 看起来很强： - markdown - 本地 MEMORY.md - 每日日志 - SQLite 索引 - embedding + hybrid retrieval 但问题出在"写进去什么"。当上下文快满时，触发一次内部 turn，让模型自己决定该写什么到磁盘里。结果就是：**长期记忆的质量，强依赖那一轮模型的判断**。 ### Hermes Agent 三层 memory： - working memory：MEMORY.md 和 USER.md - skills：工具调用多轮后沉淀出的 procedural docs - session search：SQLite FTS5 也能接 Mem0 这类外部 provider，补 semantic retrieval 和更好的持久化。 ### AWS Bedrock AgentCore AWS 的托管 agent 平台。Memory service 会跑三种异步提取： - semantic facts - preferences - narrative summary 还会把变更事实标成 INVALID，保留 lineage。 **短板**：AWS 生态锁定，且公开分数不算顶尖。 ### Windsurf Memory 由 Cascade 生成和管理，本地 workspace-scoped 存在于 `~/.codeium/windsurf/memories/`。能记住 codebase 模式和约定，但范围被 workspace 限住了，跨项目和跨设备都很弱。 ### Devin 两类 memory： - **Knowledge**：人工审核后写入的触发性事实 - **DeepWiki**：参考文档优点是质量控制强，缺点是门槛高 — 没人审，很多东西就不会沉淀下来。 ## Benchmark 也有问题作者判断：大多数 memory benchmark 不好。它们多数在测"能不能回忆过去对话里的事实"，已经接近饱和，且高分不等于能做出更好的决策。 ### LoCoMo (最常见的问题) - 只有十段对话，比较不稳定 - 很多题目根本不需要 memory - adversarial 问题和目标太像，容易靠表面模式蒙对 ### LongMemEval (还算可以) 覆盖： - information extraction - multi-session reasoning - temporal reasoning - knowledge updates - abstention 但仍然更偏 recall，离 task utility 还很远。 ### 更深一层 MemoryArena 和 Anatomy of Agentic Memory 这类工作，已经把问题说得更清楚了：**真正该测的是 memory 能不能指导行动**。还有一个现实问题是规模。标准 benchmark 往往卡在 1.5M tokens 左右，而 production agents 会跑到 10M+。**BEAM 是少数真正在那个量级上设计的 benchmark**。 ## 研究里还没解决的坑作者归纳了三类常见短板： - **稳定性 vs 可塑性**：外部 memory 并没有消灭 catastrophic forgetting - **选择性遗忘**：删掉过时事实，同时保住结构，仍然很难 - **安全性**：memory 本身也会变成攻击面，存在 cross-user contamination 和 poisoning 风险外部 memory 只是把问题从 weights 挪到了检索层，问题并没有被消掉。 ## 共同短板这几家系统的缺口其实很像： - 存储是 bounded 和 local 的 - 检索大多还是 keyword 式 - memory 常常只属于某个 harness - staleness 处理很弱 - isolation 也不够 **这些限制，本质上是 harness boundary 的限制。** ## Mem0 想填什么坑 Mem0 走另一条路：把 memory 做成一层基础设施，定位比某个 harness 内部的小功能更高。混合架构： - vector store 做 semantic retrieval - knowledge graph 做 relational reasoning - key-value 做元数据和快速访问 **v3 算法（2026 年 4 月升级）走向**： - single-pass ADD-only extraction - multi-signal retrieval - entity linking inside the vector store 作者想解决的是：portable、semantically searchable、cross-agent、能吃下 production token volume 的 memory。 ## 结论 Memory 现在已经是 harness 的核心能力之一。但今天大多数实现，还停留在"本地、有限、关键词式、难共享"的阶段。真正能跨 harness、跨 agent、跨会话稳定工作的 memory layer，还是行业里最难的一块底座。