--- title: 智能体编排层中的上下文管理架构 source_url: https://mp.weixin.qq.com/s/kZVSwdC4I8tQmUkessHBxA publish_date: 2026-05-01 tags: [wechat, article, claude, agent, llm] review_value: 7 review_confidence: 7 review_recommendation: neutral ingested: 2026-05-16 sha256: 2f87051bbbf4f4f6f92909d78679e279b6e6d33b1dda8268fb1ed3ce0d99c2a7 --- # 智能体编排层中的上下文管理架构 > 千沐尘 | 2026-05-01 | 多框架代码级横向对比 ## 核心矛盾 上下文窗口永远不足以容纳模型可能需要记住的一切。框架必须做三个关键决策:**保留什么、压缩什么、留待后续检索什么**。 ## 信任模型自主管理 vs 框架主动约束 三种代表性实现: 1. **框架优先**:硬性保护上下文,教导模型学会分页。文件读取设置严格上限(行/字节),截断后附带继续提示,工具描述强化分页行为 2. **纵深防御**:在基础截断上叠加额外预算层。启动文件独立上限 → 所有文件总预算 → 首尾保留中间裁剪 → 工具输出独立预算 3. **双层门控**:第一层文件打开前通过元数据检查大小→超出拒绝。第二层读取后 token 计数,捕获字节小但 token 密度高的文件。两层支持远程动态调整 去重:相同参数下重复读取同一文件且未变化 → 返回存根,避免重复 token。 持久化记忆层:版本控制文件系统的内存文件系统,特定子目录固定到系统提示,目录外文件仅名称和描述可见直到主动读取。 **关键发现**:所有框架收敛到:先检查再读取、行数限制、offset/limit 分页、继续提示、溢出到磁盘。差异在是否引入持久化记忆层及开放程度。 ## 会话裁剪四种方案 | 方案 | 触发条件 | 压缩方式 | 保护机制 | |------|----------|----------|----------| | 1 - LLM 摘要 | 上下文超过预留阈值 | 保留尾部固定 token,旧消息送 LLM 摘要 | 工具调用-结果配对完整性保护 | | 2 - 分层压缩 | 历史超过上下文固定比例 | 历史分割为等 token 块→最旧块丢弃→其余保留→多阶段多通道 LLM 摘要 | 压缩前静默代理轮次将状态持久化到记忆文件 | | 3 - 预查询优化 + LLM | 每 API 调用前运行优化管线 + 上下文压力达阈值时触发压缩 | 大工具结果持久化到磁盘换精简预览 + 结构化多段提示词摘要 | 草稿/摘要分离、头部丢弃机制、文件重新附加 | | 4 - 服务器+客户端双层 | 压缩事件或消息计数阈值 | 服务器端 LLM 摘要 + 客户端流式接收 + **反射子代理**编辑版本控制记忆仓库 | 反射提示有预算上限,完成后触发系统提示重新编译 | **方案 4(反射子代理)**:最具雄心——反射子代理接收父对话转录+记忆快照→编辑版本控制记忆仓库→触发系统提示重新编译。核心思想:**将重要状态从临时对话迁移到持久记忆文件**。 ## 子代理上下文隔离 - 所有框架都隔离子代理会话——不传递父完整历史 - **简方案**:独立进程 + 空白内存会话,仅任务描述 - **分支模式**:父转录复制到子代理(限同类型代理),工作空间上下文过滤到最小允许列表 - **复杂方案**:默认类型化代理(空白对话)+ 分支路径(完整父消息历史,用于提示词缓存共享)+ 异步代理(显式工具允许列表) - Claude Code 分类:分支子代理(完整对话轨迹)、非分支子代理(全新无头实例)、技能可预加载 ## 设计收敛点 所有框架的一致实现: - 文件读取硬性上限 ✅ - offset/limit 分页 ✅ - 工具结果大小限制 ✅ - 子代理会话隔离 ✅ - 由 token 阈值触发的 LLM 压缩 ✅ - 上下文使用率估算和压力检测 ✅ 超越编码 Agent:为数据探索构建的产品独立收敛到了相同设计——工具结果独立 token 预算 + 二分搜索最大数据集切片 + 去重幂等调用 + 首尾截断 + 字符除以常数的 token 估算 + 检查点状态摘要。 ## 核心洞察 > 五十年的计算历史告诉我们:最好的内存管理是程序从不需要思考的那种。寄存器、缓存行、页表、交换区——每一层都由系统管理,每一层对上层都不可见。程序只需运行。 **上下文管理正在从"如何装入更多信息"转向"如何在恰当的时机披露恰当的信息"。**