--- title: "yidian tianxia context engineering agentic ai qcon" source_url: https://mp.weixin.qq.com/s/tK0rmfOYRC7SoWGggAT4lg tags: [wechat, article, claude, openai, gpt, agent, harness, openclaw] ingested: 2026-05-08 sha256: 32fd802097dffe29d26a68fda89ac5bc3febf14d70907608f1ae0cdfedaa6c99 --- # 易点天下 Agentic AI 工程化实践:上下文工程 + 五道防线 **来源:** QCon 2026 全球软件开发大会·北京站 **演讲者:** 何宇航(易点天下 中台研发总监) **主题:** 企业级 Agentic AI 的工程化落地:Context Engineering + 安全防御体系 ## 背景命题 > "如何在一个确定性要求极高的复杂企业架构中,有效驯服 Agent 固有的'幻觉'与'遗忘',让概率性的智能稳定地跑在确定性的生产系统之上?" ## 一、底层支撑:多云共生的确定性架构 易点天下核心业务覆盖全球 230+ 国家和地区,底层 **Cycor 平台**采用 Multi-cloud 战略: - 无缝接入 AWS、GCP、阿里云、腾讯云、华为云 - 统一资源调度,实际纳管大量 K8s 集群 - 跨云、跨地域的统一控制面 **战略价值:** 规避供应商锁定 + 大模型算力调度的成本/效果/可控性动态平衡。 ## 二、V1 → V2 技术演进 ### V1 问题(低代码线性 Workflow) 运行三个月后暴露的问题: - **分类器极不稳定**:错误率长期维持在 **15%**,"修复 A 场景却破坏 B 场景" - **记忆局限于单次窗口**:缺乏跨会话持久化,同一故障在不同会话被反复从零推理 - **固定编排无法协同**:各 Agent 各自为战,无法处理跨域链路问题 ### V2 方案:Agent Loop + Context Engineering > "从'怎么措辞(Prompt)'彻底切换到'每一步该给什么信息(Context)'" - 单轮对话内最多 **15 轮工具调用循环** - 核心问题:信息如何进得来 / 无关信息如何挡得住 / Token 预算如何花在刀刃上 ## 三、六层上下文体系(L1–L6) | 层级 | 名称 | 技术实现 | 作用 | |------|------|---------|------| | L1 | Session Memory | PostgreSQL(session_id 硬隔离)| 当前会话毫秒级读写 | | L2 | Short-Term | 24小时跨会话窗口 | 识别短期故障复发 | | L3 | Long-Term | 记忆引擎 + 向量存储 | 高价值对话→客观事实持久化 | | L4 | Knowledge Graph | LLM 抽取三元组 + 图数据库 | 微服务网络拓扑认知 | | L5 | Experience | 高频故障模式聚类 + 经验标签 | "遇到 OOM 先查 limits" 类自动注入 | | L6 | Skill | 人工验证 → 标准化 Markdown | **个人经验 → 团队资产** | ## 四、主动注入:Hook 化的主动推送 传统"按需自取"模式的根本缺陷:**模型不知道自己不知道什么**。 ### 三类检索钩子 | 钩子 | 触发时机 | 作用 | |------|---------|------| | **UserMessage 钩子** | 用户提问进入 Agent Loop **之前** | 意图过滤 + 关键词/语义双路召回,分层注入 System Prompt | | **PreToolUse 钩子** | 写文件/改配置等敏感工具调用**之前** | 按精确资源 ID 匹配历史变更记录与已知风险 | | **ErrorSignal 钩子** | 检测到 timeout/OOM/ImagePullBackOff 等错误关键字**时** | 自动按 bugs/errors 维度拉取历史解法并分层注入 | **效果**:把"记忆"从被动资料库升级为主动副驾驶——知识在真正需要之前就已到位。 ## 五、Token 预算治理 ### 问题 一次粗放塞入 3 条知识 × 500 tokens = 约 **10% 可用窗口**被吞掉,Lost in the Middle 效应放大。 ### 三级内容分层(L0/L1/L2) | 级别 | 分辨率 | Token 数 | 注入条件 | |------|--------|---------|---------| | L0 Abstract | 一句话摘要 | ~100 | 相关度 score ≤ 0.8 | | L1 Overview | 详细要点 | ~300 | 相关度 score > 0.8 | | L2 Full | 完整 Markdown | 全量 | 用户/Agent 主动 Read 时 | ### 动态注入策略 - **短会话直通**:整段会话在预算内 → 零压缩,零信息损失 - **长会话采样**:超预算 → 优先截断单条 assistantText(不整段丢弃问答对),保住推理链完整性 - **硬预算 + 软降级**:UserMessage 注入 3 秒超时、PreToolUse 注入 100 毫秒 → 超时走降级路径 **效果**:单次注入 Token 消耗下降约 **80%**,L2 完整内容始终"一键可达"。 ## 六、渐进式工具加载(Deferred Tool Registry) **问题**:全部 Tool Schema 一次性塞入 Prompt → Token 浪费 + Lost in the Middle → 工具选择错乱 **方案**: - 初始态仅激活 list_pods 等**核心工具** - 长尾工具仅在 Prompt 中保留**极简描述** - 模型推理需要时,通过内部 tool_search **按需动态唤醒** **效果**: - 工具调用准确率:**70% → 90%** - 重复性问题处理时间:**60 秒 → 5 秒以内** ## 七、压缩续接(PreCompact Hook) 当上下文窗口接近阈值时: - 将既有对话按"**问题—行动—观察—结论**"结构化摘要格式压缩 - 生成 `{ overview, steps, todos }` 三段式会话摘要 - 下一轮启动时作为 **Warm 层**(最近 10 次会话摘要,FIFO 淘汰)注入 **效果**:Agent 跨越数小时的多阶段任务,仍能"记得上次做到哪一步、还有哪些 TODO 没闭环"。 ## 八、五道纵深安全防线 > "AI 是加速器,而不是刹车。加速器必须跑在有护栏的赛道上。" | 层级 | 名称 | 规则 | LLM 参与 | |------|------|------|---------| | 1 | **白名单准入(NamespaceGuard)** | kube-system 等核心命名空间在中间件层面直接屏蔽 | ❌ | | 2 | **试执行 + 人工介入(Dry Run + HITL)** | LLM 生成指令先空跑校验;敏感操作强制人工审批 | ⚠️ **唯一 LLM 参与验证判断的层级** | | 3 | **资源锁与爆炸半径限制** | 代码硬编码单次操作资源配额,防止级联雪崩 | ❌ | | 4 | **规则校验(不轻信 LLM)** | 执行后重新调用系统接口对比实际状态是否符合预期 | ❌ | | 5 | **强制回滚机制** | 所有修改类工具必须附带降级与回滚逻辑 | ❌ | **效果**:复杂集群操作误执行率接近零。 ## 九、未来洞察 > "在 2026 年的 AI Coding 时代,开发者的工作姿势将被彻底重构——'由 AI 负责执行,人负责 Taste(审美与逻辑判断)'。" **真正技术壁垒建立在三件事上:** 1. 企业对上下文工程的理解深度 2. 多云架构的掌控力 3. 把组织经验沉淀为可执行 Skill 的能力 **当前规模:**近百个不同职能 Agent 活跃运行,覆盖营销业务、技术运维、客户服务等多个维度。 --- *评审:Value 8 × Confidence 7 = 56 | ★★★★ | 推荐入库*