---
title: "harness技术手册-AI 记忆的两种范式：从向量检索到上下文积累"
source: wechat
url: https://mp.weixin.qq.com/s/Zr4MPCWCNGV9hyYTBwguKQ
ingest_date: 2026-07-04
vxc: 64
stars: 4
sha256: 1bead103541828007aad573bf70c649cfde8ad077d59b796ef550b107da6584a
---

# harness技术手册-AI 记忆的两种范式：从向量检索到上下文积累

**来源**: Unknown

**发布日期**: 2026-04-17

**原文链接**: https://mp.weixin.qq.com/s/Zr4MPCWCNGV9hyYTBwguKQ

---

GitHub 上，450 多个仓库被标记为"智能体记忆"，460 多个仓库被标记为"上下文管理"。表面看，这是一个工具泛滥的领域——人们可能预期会看到几十个功能相似、只是接口不同的产品。但深入其中会发现，这里存在着两种根本不同的技术范式，而业界尚未清晰地区分它们。

第一种范式被称为 记忆后端 。这类系统从对话中提取事实片段，将其编码后存入向量数据库，在需要时检索相关内容。它们的工作模式类似于自动化的笔记系统：将信息归档存储，并在查询时召回。核心问题是："AI 应该记住什么？"

第二种范式是 上下文基底 。这类系统不追求"提取"或"编码"，而是维护结构化、人类可读的上下文文件，这些文件在多次会话中持续积累。AI 直接读取这些文件，在其框架内工作，并将输出写回其中。核心问题是："AI 应该在什么上下文中工作？"

当前生态中，绝大多数工具和关注度集中在记忆后端。但真正能够扩展到持续多会话、多项目协作的架构，正在上下文基底这一侧涌现。技术社区的话语体系，也开始向这一方向迁移。

本文将沿着这条分界线展开，首先深入记忆后端的技术实现，随后剖析上下文基底的设计哲学，最终呈现两种范式在工程实践中的本质差异。

## 阵营 1：记忆后端的技术谱系

阵营 1 的核心思路是将记忆视为独立的后端服务。LLM 负责生成内容，记忆系统负责存储和检索。这一阵营的代表性工具在架构设计上呈现出明显的分层特征。

Mem0（5.31 万星） 是当前采用率最高的类别领导者。它定义了四项基本操作：添加、搜索、更新、删除。系统从对话中提取事实，将其存储在三个层级——用户级、会话级、代理级，并通过混合检索实现快速召回。

Mem0 的集成复杂度极低，提供 Python 和 TypeScript 两种 SDK，可与任意技术栈对接。然而其局限性同样明显：记忆以扁平条目存储，条目之间不存在关联关系。每次提取都需要调用一次 LLM，提取质量完全依赖于提示词的设计。更关键的是，记忆一旦存储便不再演化——一月的事实与四月的事实并列存放，系统无法识别后者可能已经取代前者。

MemPalace（4.62 万星） 选择了截然不同的路径。它采用本地优先策略，以原话形式存储对话内容，而非提取后的事实摘要。其组织架构模仿物理空间：翼楼对应实体，房间对应主题，抽屉存储原始内容，检索由 ChromaDB 完成。

在基准测试中，MemPalace 的数据表现突出：仅凭原始语义搜索即可在 LongMemEval 评测上达到 96.6% 的检索召回率，混合管线可达 98.4%，若加入 LLM 重排序则超过 99%。这一方案的核心局限在于线性扩展——存储量随对话量同步增长，无压缩、无合成。若需求是"找回三周前说过的某句话"，这是最优工具；若需求是"概括五个项目的当前状态"，则并非合适选择。

Supermemory（2.18 万星） 明确将自身定位为"记忆不是 RAG"。其核心差异在于引入时间感知：当用户声明"我刚搬到旧金山"，系统会自动将旧城市信息标记为过期。过期事实会被自动遗忘，用户画像由稳定事实与近期活动组合而成，检索延迟约为 50 毫秒。

Supermemory 提供丰富的连接器，支持谷歌云盘、Gmail、Notion、OneDrive、GitHub 等多种数据源，并具备跨 PDF、图像、视频、代码的多模态处理能力。团队自建了基准测试框架 MemoryBench，声称在 LongMemEval、LoCoMo、ConvoMem 三项评测中均位列第一。阵营 1 的大多数工具将事实视为永久存在，Supermemory 则将其视为可演化的状态——这是该阵营最接近"思考"而非"存储"的设计。

Honcho（2400 星） 规模较小但架构独特。它将人类与 Agent 视为统一模型中的"peers"，后台运行异步推理服务，从会话中推导每个 peer 的心理洞察。其目标不仅是记住用户说过什么，而是构建用户如何思考的模型。

Honcho 需要 PostgreSQL 加 pgvector 作为基础设施，采用 AGPL-3.0 许可证（限制性较强），部署复杂度高于同类工具。在阵营 1 中，它是最关注实体演化而非单纯事实存储的方案。

其余工具在技术路径上多为上述设计的变体。Cognee（1.54 万星）将向量搜索与图数据库结合，支持关系推理；Memori（1.33 万星）通过拦截 LLM API 调用捕获执行上下文，仅用全上下文 4.97% 的 token即可在 LoCoMo 评测上达到 81.95% 的得分；AgentScope、MemOS、EverOS、MIRIX、SimpleMem、Memobase 等，本质上都遵循同一循环模式。

这些工具的共同点在于：记忆是被动存储的客体，需要显式调用才能激活。它们解决了"记住"的问题，但尚未触及"理解"的层面。

## 阵营 1 的共同局限

上述所有阵营 1 工具运行着完全相同的基础循环：对话发生时，系统提取事实或将内容存储下来，这些事实进入数据库——无论是向量数据库、图数据库，还是两者结合。下一次对话中，相关事实被检索并注入到上下文中。

智能体现在提取与检索的环节。人类与 Agent 交互，记忆系统在后台运转。用户从不直接接触记忆层，而是信任系统在对的时刻记住对的事情，并在需要时准确呈现。

这套机制确实在工作。基准测试结果已经证明了这一点。但它解决的只是一个特定问题：事实召回。"关于某事说过什么？""用户偏好什么配置？"

这引出了一个更深层的问题：记忆不仅仅是存储和检索事实。当对话跨越数周、涉及多个项目、积累大量上下文时，单纯的事实注入开始显得不够。系统记得说过的话，但它理解这些话之间的关联吗？它能基于长期观察提出主动建议吗？

这正是阵营 1 工具集体缺席的领域。它们擅长回答"是什么"，却难以回应"为什么"和"接下来应该怎样"。

## 阵营 2：上下文基底的技术谱系

在阵营 2 的谱系中，工具形态呈现出对"上下文作为基础设施"这一命题的不同回答。

OpenClaw（35.8 万星） 以规模成为最引人注目的案例。它完全摒弃向量数据库和提取管道，仅依赖纯 Markdown 文件：MEMORY.md 承载长期存储，按日期格式组织的日常笔记记录运行中的上下文，DREAMS.md 则负责整合摘要。系统的核心在于"梦境"机制——一个后台运行的三阶段整合流程。浅睡阶段筛选日常笔记，将语义相近的行聚类为连贯块；快速眼动阶段执行加权回忆提升，频繁访问的信息被晋升为"持久真相"；深睡阶段将信息回放至 MEMORY.md，执行合并非复制策略。条目晋升需通过六重信号评分：相关性（30%）、频率（24%）、查询多样性（15%）、近期性（15%）、整合性（10%）、概念丰富性（6%），且必须满足最低分数 0.8、最低回忆次数 3、最低独立查询数 3 的阈值。这套机制不预判何为"事实"，而是将持续涌现的相关性沉淀为系统记忆。

Zep（4400 星） 以明确的战略转向传递出强烈信号。该公司近期将品牌定位从"记忆"全面重述为"上下文工程"——在记忆工具赛道中，这是最清晰的市场定位迁移。技术层面，Zep 采用时序知识图谱（其 Graphiti 框架），为事实赋予生效时间和失效时间戳，自动抽取关系并返回预格式化的上下文块，检索延迟低于 200 毫秒，同时满足 SOC2 Type 2 和 HIPAA 合规要求。架构上，Zep 仍保留抽取与检索的能力，处于两阵营的边界地带；但其语言选择本身已表明立场：最接近分界线的成熟项目，主动拥抱了阵营 2 的叙事框架。

Thoth（145 星） 仅获 145 星，却是整个版图中架构最深的实现。它构建包含 10 种实体类型、67 种有向关系类型的个人知识图谱，在每次 LLM 调用前执行 FAISS 向量搜索并附加一跳图扩展。其梦境周期以夜间四阶段流程运行：在 93% 以上相似度阈值下合并重复项、基于对话语境丰富描述、推断共现实体间的关系、对超过 90 天的关系执行置信度衰减。三层防污染机制阻断跨实体事实渗漏。这套自动化记忆精炼系统的复杂度远超同类，但 145 星的现实也揭示了一个门槛：阵营 2 的完整形态要求用户为自身上下文搭建知识图谱——多数人尚未准备好接受这一前提。

TrustGraph（2000 星） 提出"上下文核心"概念：可移植、版本化的上下文包，内含领域模式、知识图谱、向量嵌入、证据源和检索策略。它将上下文视为代码——可版本化、可测试、可晋升、可回滚。与阵营 1 工具将记忆视为对话副产品的逻辑不同，TrustGraph 将上下文提升为具身份、版本和生命周期的一等公民。用户可将 Context Core 交付给新 agent，使其继承完整操作上下文；亦可为实验创建一个分支副本，再合并回主干。这是当前版图最接近"可打包、可移植上下文单元"概念的实现，尽管其实现依赖 Cassandra 加 Qdrant 的重型架构，概念模型本身却指向正确的方向。

MemSearch（1200 星） 由 Milvus 背后的 Zilliz 团队推出，采用 Markdown 优先设计。记忆以 Markdown 文件存储，人类可读、可编辑、可版本控制；Milvus 作为"影子索引"从文件派生，支持完全重建。文件是真相源，向量搜索仅是访问层。系统提供三层渐进披露：语义块→完整章节→原始转录，并执行混合搜索（稠密向量+BM25+RRF 重排序）。值得注意的是，这套设计来自一家向量数据库公司——Zilliz 在其记忆系统中将自己的产品置于文件的下游。这是对"真相源究竟何在"这一问题的实质性让步。

## 两种范式的本质对比

至此，阵营 2 的工具已逐一拆解完毕。尽管它们的实现方式各异，但底层遵循着完全相同的工作循环。

阵营 2 的共同模式

在阵营 2 中，Agent 开始工作前，首先读取结构化的上下文文件；随后在该上下文中执行任务；完成后再将结果写回这些结构化文件。下一次会话启动时，Agent 读取的是经过累积、比之前更丰富的上下文。

这个循环不断重复，系统的"记忆"通过文件持续积累。

上下文即记忆

阵营 2 的智能不在于单次调用的输出质量，而在于信息的可累积性。由于上下文以文件形式存在（Markdown 文档、知识图谱、上下文容器），人类可以直接阅读、编辑、纠正，确切地知道 Agent 掌握了哪些信息。

这种透明性带来了一个关键优势：人类与 Agent 共享同一份可追溯的记忆，双方对任务状态的理解始终对齐。

两种优化目标

阵营 1 与阵营 2 的根本区别，在于它们优化的目标不同。

阵营 1 优化的是召回：系统能否从海量信息中找到正确的事实？它适用于一次性查询、事实检索类任务，追求的是单次交互的准确性。

阵营 2 优化的是复合：系统是否随着时间推移变得更好？它适用于长期项目、多会话协作、需要持续积累上下文的工作场景。

范式选择

这两种范式并非相互替代，而是对应不同的使用场景。对于简单的事实查询或一次性任务，阵营 1 的 RAG 方案更加高效；对于需要跨会话延续、多项目并行、知识持续沉淀的工作，阵营 2 的文件中心化架构提供了更可持续的解决方案。

从阵营 1 到阵营 2，并非简单的技术迭代，而是设计哲学的转变：前者将 AI 视为信息检索的延伸，后者将 AI 视为可积累、可成长的协作伙伴。理解这一区别，有助于在实际工作中选择更合适的工具范式。