--- title: "harness技术手册-AI 记忆的两种范式:从向量检索到上下文积累" source: wechat url: https://mp.weixin.qq.com/s/Zr4MPCWCNGV9hyYTBwguKQ ingest_date: 2026-07-04 vxc: 64 stars: 4 sha256: 1bead103541828007aad573bf70c649cfde8ad077d59b796ef550b107da6584a --- # harness技术手册-AI 记忆的两种范式:从向量检索到上下文积累 **来源**: Unknown **发布日期**: 2026-04-17 **原文链接**: https://mp.weixin.qq.com/s/Zr4MPCWCNGV9hyYTBwguKQ --- GitHub 上,450 多个仓库被标记为"智能体记忆",460 多个仓库被标记为"上下文管理"。表面看,这是一个工具泛滥的领域——人们可能预期会看到几十个功能相似、只是接口不同的产品。但深入其中会发现,这里存在着两种根本不同的技术范式,而业界尚未清晰地区分它们。 第一种范式被称为 记忆后端 。这类系统从对话中提取事实片段,将其编码后存入向量数据库,在需要时检索相关内容。它们的工作模式类似于自动化的笔记系统:将信息归档存储,并在查询时召回。核心问题是:"AI 应该记住什么?" 第二种范式是 上下文基底 。这类系统不追求"提取"或"编码",而是维护结构化、人类可读的上下文文件,这些文件在多次会话中持续积累。AI 直接读取这些文件,在其框架内工作,并将输出写回其中。核心问题是:"AI 应该在什么上下文中工作?" 当前生态中,绝大多数工具和关注度集中在记忆后端。但真正能够扩展到持续多会话、多项目协作的架构,正在上下文基底这一侧涌现。技术社区的话语体系,也开始向这一方向迁移。 本文将沿着这条分界线展开,首先深入记忆后端的技术实现,随后剖析上下文基底的设计哲学,最终呈现两种范式在工程实践中的本质差异。 ## 阵营 1:记忆后端的技术谱系 阵营 1 的核心思路是将记忆视为独立的后端服务。LLM 负责生成内容,记忆系统负责存储和检索。这一阵营的代表性工具在架构设计上呈现出明显的分层特征。 Mem0(5.31 万星) 是当前采用率最高的类别领导者。它定义了四项基本操作:添加、搜索、更新、删除。系统从对话中提取事实,将其存储在三个层级——用户级、会话级、代理级,并通过混合检索实现快速召回。 Mem0 的集成复杂度极低,提供 Python 和 TypeScript 两种 SDK,可与任意技术栈对接。然而其局限性同样明显:记忆以扁平条目存储,条目之间不存在关联关系。每次提取都需要调用一次 LLM,提取质量完全依赖于提示词的设计。更关键的是,记忆一旦存储便不再演化——一月的事实与四月的事实并列存放,系统无法识别后者可能已经取代前者。 MemPalace(4.62 万星) 选择了截然不同的路径。它采用本地优先策略,以原话形式存储对话内容,而非提取后的事实摘要。其组织架构模仿物理空间:翼楼对应实体,房间对应主题,抽屉存储原始内容,检索由 ChromaDB 完成。 在基准测试中,MemPalace 的数据表现突出:仅凭原始语义搜索即可在 LongMemEval 评测上达到 96.6% 的检索召回率,混合管线可达 98.4%,若加入 LLM 重排序则超过 99%。这一方案的核心局限在于线性扩展——存储量随对话量同步增长,无压缩、无合成。若需求是"找回三周前说过的某句话",这是最优工具;若需求是"概括五个项目的当前状态",则并非合适选择。 Supermemory(2.18 万星) 明确将自身定位为"记忆不是 RAG"。其核心差异在于引入时间感知:当用户声明"我刚搬到旧金山",系统会自动将旧城市信息标记为过期。过期事实会被自动遗忘,用户画像由稳定事实与近期活动组合而成,检索延迟约为 50 毫秒。 Supermemory 提供丰富的连接器,支持谷歌云盘、Gmail、Notion、OneDrive、GitHub 等多种数据源,并具备跨 PDF、图像、视频、代码的多模态处理能力。团队自建了基准测试框架 MemoryBench,声称在 LongMemEval、LoCoMo、ConvoMem 三项评测中均位列第一。阵营 1 的大多数工具将事实视为永久存在,Supermemory 则将其视为可演化的状态——这是该阵营最接近"思考"而非"存储"的设计。 Honcho(2400 星) 规模较小但架构独特。它将人类与 Agent 视为统一模型中的"peers",后台运行异步推理服务,从会话中推导每个 peer 的心理洞察。其目标不仅是记住用户说过什么,而是构建用户如何思考的模型。 Honcho 需要 PostgreSQL 加 pgvector 作为基础设施,采用 AGPL-3.0 许可证(限制性较强),部署复杂度高于同类工具。在阵营 1 中,它是最关注实体演化而非单纯事实存储的方案。 其余工具在技术路径上多为上述设计的变体。Cognee(1.54 万星)将向量搜索与图数据库结合,支持关系推理;Memori(1.33 万星)通过拦截 LLM API 调用捕获执行上下文,仅用全上下文 4.97% 的 token即可在 LoCoMo 评测上达到 81.95% 的得分;AgentScope、MemOS、EverOS、MIRIX、SimpleMem、Memobase 等,本质上都遵循同一循环模式。 这些工具的共同点在于:记忆是被动存储的客体,需要显式调用才能激活。它们解决了"记住"的问题,但尚未触及"理解"的层面。 ## 阵营 1 的共同局限 上述所有阵营 1 工具运行着完全相同的基础循环:对话发生时,系统提取事实或将内容存储下来,这些事实进入数据库——无论是向量数据库、图数据库,还是两者结合。下一次对话中,相关事实被检索并注入到上下文中。 智能体现在提取与检索的环节。人类与 Agent 交互,记忆系统在后台运转。用户从不直接接触记忆层,而是信任系统在对的时刻记住对的事情,并在需要时准确呈现。 这套机制确实在工作。基准测试结果已经证明了这一点。但它解决的只是一个特定问题:事实召回。"关于某事说过什么?""用户偏好什么配置?" 这引出了一个更深层的问题:记忆不仅仅是存储和检索事实。当对话跨越数周、涉及多个项目、积累大量上下文时,单纯的事实注入开始显得不够。系统记得说过的话,但它理解这些话之间的关联吗?它能基于长期观察提出主动建议吗? 这正是阵营 1 工具集体缺席的领域。它们擅长回答"是什么",却难以回应"为什么"和"接下来应该怎样"。 ## 阵营 2:上下文基底的技术谱系 在阵营 2 的谱系中,工具形态呈现出对"上下文作为基础设施"这一命题的不同回答。 OpenClaw(35.8 万星) 以规模成为最引人注目的案例。它完全摒弃向量数据库和提取管道,仅依赖纯 Markdown 文件:MEMORY.md 承载长期存储,按日期格式组织的日常笔记记录运行中的上下文,DREAMS.md 则负责整合摘要。系统的核心在于"梦境"机制——一个后台运行的三阶段整合流程。浅睡阶段筛选日常笔记,将语义相近的行聚类为连贯块;快速眼动阶段执行加权回忆提升,频繁访问的信息被晋升为"持久真相";深睡阶段将信息回放至 MEMORY.md,执行合并非复制策略。条目晋升需通过六重信号评分:相关性(30%)、频率(24%)、查询多样性(15%)、近期性(15%)、整合性(10%)、概念丰富性(6%),且必须满足最低分数 0.8、最低回忆次数 3、最低独立查询数 3 的阈值。这套机制不预判何为"事实",而是将持续涌现的相关性沉淀为系统记忆。 Zep(4400 星) 以明确的战略转向传递出强烈信号。该公司近期将品牌定位从"记忆"全面重述为"上下文工程"——在记忆工具赛道中,这是最清晰的市场定位迁移。技术层面,Zep 采用时序知识图谱(其 Graphiti 框架),为事实赋予生效时间和失效时间戳,自动抽取关系并返回预格式化的上下文块,检索延迟低于 200 毫秒,同时满足 SOC2 Type 2 和 HIPAA 合规要求。架构上,Zep 仍保留抽取与检索的能力,处于两阵营的边界地带;但其语言选择本身已表明立场:最接近分界线的成熟项目,主动拥抱了阵营 2 的叙事框架。 Thoth(145 星) 仅获 145 星,却是整个版图中架构最深的实现。它构建包含 10 种实体类型、67 种有向关系类型的个人知识图谱,在每次 LLM 调用前执行 FAISS 向量搜索并附加一跳图扩展。其梦境周期以夜间四阶段流程运行:在 93% 以上相似度阈值下合并重复项、基于对话语境丰富描述、推断共现实体间的关系、对超过 90 天的关系执行置信度衰减。三层防污染机制阻断跨实体事实渗漏。这套自动化记忆精炼系统的复杂度远超同类,但 145 星的现实也揭示了一个门槛:阵营 2 的完整形态要求用户为自身上下文搭建知识图谱——多数人尚未准备好接受这一前提。 TrustGraph(2000 星) 提出"上下文核心"概念:可移植、版本化的上下文包,内含领域模式、知识图谱、向量嵌入、证据源和检索策略。它将上下文视为代码——可版本化、可测试、可晋升、可回滚。与阵营 1 工具将记忆视为对话副产品的逻辑不同,TrustGraph 将上下文提升为具身份、版本和生命周期的一等公民。用户可将 Context Core 交付给新 agent,使其继承完整操作上下文;亦可为实验创建一个分支副本,再合并回主干。这是当前版图最接近"可打包、可移植上下文单元"概念的实现,尽管其实现依赖 Cassandra 加 Qdrant 的重型架构,概念模型本身却指向正确的方向。 MemSearch(1200 星) 由 Milvus 背后的 Zilliz 团队推出,采用 Markdown 优先设计。记忆以 Markdown 文件存储,人类可读、可编辑、可版本控制;Milvus 作为"影子索引"从文件派生,支持完全重建。文件是真相源,向量搜索仅是访问层。系统提供三层渐进披露:语义块→完整章节→原始转录,并执行混合搜索(稠密向量+BM25+RRF 重排序)。值得注意的是,这套设计来自一家向量数据库公司——Zilliz 在其记忆系统中将自己的产品置于文件的下游。这是对"真相源究竟何在"这一问题的实质性让步。 ## 两种范式的本质对比 至此,阵营 2 的工具已逐一拆解完毕。尽管它们的实现方式各异,但底层遵循着完全相同的工作循环。 阵营 2 的共同模式 在阵营 2 中,Agent 开始工作前,首先读取结构化的上下文文件;随后在该上下文中执行任务;完成后再将结果写回这些结构化文件。下一次会话启动时,Agent 读取的是经过累积、比之前更丰富的上下文。 这个循环不断重复,系统的"记忆"通过文件持续积累。 上下文即记忆 阵营 2 的智能不在于单次调用的输出质量,而在于信息的可累积性。由于上下文以文件形式存在(Markdown 文档、知识图谱、上下文容器),人类可以直接阅读、编辑、纠正,确切地知道 Agent 掌握了哪些信息。 这种透明性带来了一个关键优势:人类与 Agent 共享同一份可追溯的记忆,双方对任务状态的理解始终对齐。 两种优化目标 阵营 1 与阵营 2 的根本区别,在于它们优化的目标不同。 阵营 1 优化的是召回:系统能否从海量信息中找到正确的事实?它适用于一次性查询、事实检索类任务,追求的是单次交互的准确性。 阵营 2 优化的是复合:系统是否随着时间推移变得更好?它适用于长期项目、多会话协作、需要持续积累上下文的工作场景。 范式选择 这两种范式并非相互替代,而是对应不同的使用场景。对于简单的事实查询或一次性任务,阵营 1 的 RAG 方案更加高效;对于需要跨会话延续、多项目并行、知识持续沉淀的工作,阵营 2 的文件中心化架构提供了更可持续的解决方案。 从阵营 1 到阵营 2,并非简单的技术迭代,而是设计哲学的转变:前者将 AI 视为信息检索的延伸,后者将 AI 视为可积累、可成长的协作伙伴。理解这一区别,有助于在实际工作中选择更合适的工具范式。