--- sha256: 5a13d42437525e9194758433f1d4cb6d5084522dab85f17c7eea1700ce0582f6 title: 从多智能体编排到AI自主决策:资损防控体系的架构演进 source: wechat source_url: https://mp.weixin.qq.com/s/kwM5w3LNurraRHr0dxS__A tags: [wechat, article, claude, openai, gpt, agent, harness, openclaw] ingested: 2026-05-16 --- # 从多智能体编排到AI自主决策:资损防控体系的架构演进 这是2026年的第 11 篇文章 ( 本文阅读时间:30分钟 ) # 前言 本文是 [ 《基于智能体的资损防控系统》 ]() 的续篇,聚焦于我们在实践中发现的问题、架构演进的思考过程,以及新方案带来的核心突破。V2方案借鉴了OpenSpec的规范驱动开发理念——通过结构化的规范文档(Spec)定义AI的行为边界和操作流程,让AI在明确的规范约束下自主决策,而非依赖硬编码的编排逻辑。 # 01 # 多智能体编排方案的成效与瓶颈 在上一篇文章中,我们构建了一套多智能体资损防控系统(以下简称“V1”),通过5个专业化Agent(知识抽取、资损分析、核对布防、产出监控、指标监控)的协同编排,实现了从需求分析到布防部署的全链路自动化。 V1验证了一个核心命题: AI可以像资深风控专家一样,从需求文档中识别资损风险并自动生成防控措施。 截至V1阶段,系统已分析多个需求,累计发现数百个资损点,但准确率和召回率仍有较大提升空间。 随着实践的深入,我们发现V1的架构设计存在几个根本性问题,这些问题并非简单优化能解决,而是需要 架构层面的重新思考 : 简单来说,V1的核心问题在于: 每个Agent只负责一道工序,但没有一个Agent能看到全貌、理解全局、做出自主判断。 # 02 # 从「多Agent编排」到「单Agent自主决策」 从架构的演进趋势看,大模型正在经历三个关键方向的快速迭代: 1)上下文窗口持续扩展: 从4K→128K→1M+,模型能够处理的上下文信息量呈数量级增长; 2)指令遵循能力跃升: 模型在复杂指令遵循、多步骤任务规划和工具调用上的表现大幅提升; 3)自主执行能力成熟: 模型从“被动应答”走向“自主执行”,具备了目标分解、动态调整、异常处理等能力。 那么, 这些趋势对Agent系统的架构设计意味着什么? V1的多Agent编排架构,本质上是在用 工程复杂度弥补模型能力的不足 。 因为早期模型上下文窗口有限、指令遵循不稳定,所以需要将任务拆分为多个子任务,由不同Agent分别处理。 但随着模型能力的跃升,这种拆分反而成了瓶颈: 编排层引入的信息损耗和协调开销,已经超过了它所解决的问题本身。 更关键的是,多Agent编排架构无法享受模型快速迭代的红利:编排逻辑和Agent间的消息协议是硬编码的,即使底层模型的上下文窗口从4K扩展到1M+,上层的编排层仍然在做固定粒度的信息裁剪和流程约束,模型能力的提升被架构设计所“截断”。 【 一个洞察: 更强的模型意味着更薄的编排层。系统的复杂度应当由模型能力来消化,而非由繁琐的流程设计来弥补。】 相比简单的“合并Agent”,这是一次架构范式的根本转变:从5个专业Agent+编排引擎的分布式架构,转向1个全能Agent+工具链+域知识库的集中式架构。 核心变化体现在 四个方面 : 上下文管理: 从各Agent独立上下文、通过消息传递,转向单一完整上下文,AI全程持有所有信息; 知识获取: 从被动的向量召回,转向AI自主决定读什么、搜什么的主动探索模式; 决策模式: 从预设流程按步骤执行,转向AI根据实际情况自主规划和动态调整; 知识沉淀: 从依赖人工标注的离线回流,转向分析即沉淀的零成本自动更新。 效果提升十分显著:V1的准确率为42.9%、召回率为63%,V2在多个需求项目的平均统计中, 准确率提升至86%,召回率提升至90% 。 ## 为什么“少即是多”? V1的隐含假设 是 单个 AI 无法同时处理知识提取、风险分析、SQL 编写等多种任务,所以需要拆分为多个专业 Agent。 V2的核心发现 则在于, 当前大模型(尤其是长上下文模型)完全有能力在单次会话中完成全链路任务,而拆分反而引入了信息损耗。 关键不在于Agent的数量,而在于以下 几个方面 : 给AI足够的 上下文 ——让它看到全貌 给AI足够的 工具 ——让它能主动获取信息 给AI足够的 规范 ——让它知道什么该做、什么不该做 给AI足够的 决策权 ——让它自主判断而非机械执行 # 03 # V2的核心技术突破 ## 那么问题来了,V2的核心技术突破究竟有哪些?一共六大方面。 ## 一是上下文的连续性,V2实现了从“信息传递”到“全局视野”的转变。 V1的问题在于 知识抽取Agent从文档中提取关键信息后,以结构化摘要的形式传递给资损分析Agent。 这个过程中,大量的上下文细节(如文档中的流程图、计算公式的推导过程、边界条件的描述等)被丢失。 资损分析Agent只能基于“二手信息”做判断。 V2的方案则在这方面有所优化。 AI Agent在整个分析过程中始终持有完整的原始文档,可以随时回溯任何细节。 当分析到某个风险点时,AI可以直接引用文档原文作为依据,而不是依赖上游Agent的摘要。 实际效果证明, V2的分析报告中,每个风险点都能追溯到文档中的具体段落或流程图,用户可以直接验证分析结论的依据,大幅提升了可信度。 ## 突破二在于主动探索式知识获取,实现从“被动召回”到“AI自主检索”的转变。 V1的 三轮渐进式匹配虽然比单轮召回效果好,但本质上仍然是“被动”检索:AI只能从预构建的向量库中获取信息,无法根据分析过程中的发现动态调整检索策略。 而在V2的方案中, AI Agent拥有完整的工具链,可以 自主决定何时搜索、搜索什么、读取哪些文件 。 也就是说,V2的知识获取是 主动探索式 的,AI自主遍历全量已有布防资产并逐一阅读理解核对逻辑,按需调用MCP工具针对性查询表结构,自主读取域知识库中的案例索引并深入阅读相关分析报告。 整个过程中,AI根据分析进展 动态调整检索方 向。比如在分析权益发放风险时,AI可能发现需要关联结算域的数据,于是自主去读取结算域的知识库和布防资产,这种 跨域关联能力 在固定编排架构中是无法实现的。 【零门槛使用: 用户只需提供产品方案和技术方案文档,AI 即可基于域知识库的索引引导,自主完成全链路分析,无需人工维护任何知识库。】 ## 三是结构化SOP,从“自由发挥”进阶到“工程化约束”。 V1的 资损分析Agent的分析过程相对自由,虽然有对抗Agent做审核,但分析的 系统性和一致性难以保证;不同需求的分析质量波动较大 。 V2的方案中 设计了一套结构化的分析方法论,将资损分析从“自由发挥”变为 有章可循的工程化流程 。 核心分析思路如下: 数据先行: 分析前从平台同步布防数据,确保看到的是实时全量的布防资产,而非 过时的向量库快照; 知识导航: 通过域知识库获取该业务域的分析方向、重点关注领域和历史经验,而非盲目分析; 深度比对: AI 不是搜索“相似”,而是逐一阅读已有布防资产的核对逻辑,真正理解每条规则覆盖了什么,避免重复布防; 事实驱动: 每个风险点都必须追溯到文档原文,无法追溯的标注“待确认”,杜绝编造; 交互确认 :遇到文档模糊、矛盾或信息缺失时,强制暂停向用户确认,禁止自行假设; 知识自沉淀: 分析完成后自动更新域知识库,零人工成本,形成持续迭代的知识飞轮。 ## 突破四是自我迭代的域知识库,从“碎片化召回”升级到到“Index模式”。 V1的 四维度知识源(历史事件、防控手段、域特性、业务知识)存储在通用向量数据库中,召回时“语义相似但业务不相关”的噪音严重。知识库的维护完全依赖人工标注和手动更新,成本高且容易滞后。 V2的方案中为每个业务域构建独立的域知识库,采用Index模式,即 域知识库不存储海量原始数据,而是作为一个结构化的索引层,为AI提供分析的思路、方向和重点—— 分析思路引导: 告诉AI该域常见的资损类型有哪些,应该重点关注什么方向; 数据表导航: 索引该域的关键数据表及其核心字段,AI可以按需通过MCP查询详细信息; 核对模式库: 从已有布防资产中归纳出的通用核对逻辑模式,指导AI编写新的布防规则; 历史案例索引: 精确索引到具体的分析报告文件路径,AI可以自主深入阅读。 以权益域的知识库为例,其实际结构如下: 这个结构的精妙之处在于,它既不是大而全的知识百科,也不是碎片化的向量片段,而是一个 恰到好处的导航层 。 这意味着AI读完后知道“该域有哪些典型风险、用什么表、按什么模式写SQL、有哪些历史案例可参考”,然后自主决定深入哪个方向。 本质差异在于, V1的向量库试图“存储一切”然后“召回相关”,结果是碎片化的信息拼凑;V2的域知识库是一个智能导航系统,不回答具体问题,但是告诉AI“去哪里找答案、重点看什么”。 自我迭代机制方面,域知识库不依赖任何人工维护 。 每次分析完成后,AI会自动将新发现的风险模式、核对逻辑、业务规则等回写到域知识库中,形成“分析越多→ 知识越丰富→ 下次分析越准确”的正向飞轮。 ## 五是事实驱动的硬约束,从“尽力而为”到“宁缺毋滥”。 V1的 多Agent编排中,每个Agent都会“尽力”产出结果,即使信息不足也会基于推测给出答案。这导致了大量缺乏文档依据的“幻觉”输出,用户需要花费大量时间逐一甄别。 V2的方案中 设计了一系列不可绕过的硬约束, 从架构层面杜绝“编造”—— ·表结构校验: 编写SQL前强制调用MCP查询表结构,未经确认的表名和字段禁止使用; ·信息不足暂停: 遇到文档描述模糊或信息缺失时,强制暂停并向用户确认,禁止自行假设; ·事实追溯: 每个风险点必须追溯到文档原文,无法追溯的标注“待确认”,杜绝编造; ·二次校验过滤:对识别出的风险点进行二次校验,严格过滤非资损内容和过度发散的推测; 这一套架构的设计哲学是, 宁可漏掉一个不确定的风险点,也不输出一个编造的结论。 ·当前资产覆盖与未来拓展: 当前版本以SQL核对规则(准实时数据核对+离线数据核对)为切入点验证整体方案的可行性,后续将逐步拓展至BCP规则、产出监控等更多资产类型。 ## 突破六在于布防资产的版本化管理,从“平台孤岛”到“AI自主管理”。 V1的 布防资产生成后直接部署到平台,本地无留存,无法进行版本管理、变更追溯和Code Review。 而在V2的方案中, 所有布防资产 以文件形式存储在Git仓库中,AI在OpenSpec规范框架下自主完成数据同步、布防编写、平台推送等全链路操作 ,用户只需在关键节点进行确认: 在OpenSpec规范的约束下,AI自主判断何时需要同步数据、何时需要推送新规则,并自动执行。用户不需要手动操作任何同步工具,只需在AI 提交变更时进行审查确认。这种 “AI决策+人工兜底” 的模式,既充分发挥了AI的自主能力,又保证了安全可控。 具体的核心优势如下。 主干即白皮书: Git仓库的主干分支天然就是整个业务的资损布防白皮书,所有业务域的布防资产、分析报告、域知识库都以结构化的方式组织在仓库中,任何人都可以系统性地查看所有项目的布防变更情况,形成完整的资损防控全景视图; 变更可追溯: 每次修改都有 Git 提交记录,可以精确知道谁、什么时候、为什么修改了某条规则; Code Review: 布防资产的变更可以通过 CR 流程审查,多人协作更安全; 防止 AI 污染: 借助 Git 的版本管理能力,AI 对域知识库和布防资产的每一次修改都有完整的变更记录和 diff 对比。如果 AI 产出了不准确的内容,可以通过 Git 精确回滚到任意历史版本,避免 AI 的错误输出污染整个知识库; AI可读: 全量布防资产文件直接存储在仓库中,AI Agent可以随时读取任意一条规则的完整内容,而不是依赖向量检索的“摘要”。 # 04 # 项目组织设计 ## 如果用一句话概括V2的设计哲学,或许可以称之为“文档即代码”。 V2最大的架构创新之一在于不构建独立平台,而将整个资损防控体系构建在一个Git仓库中: 为什么选择仓库而非平台? 这是因为Git仓库天然具备版本管理和协作审查能力,无需额外建设;Markdown是AI最擅长处理的格式,域知识库可被AI直接读取,无需向量数据库;整个方案完全可迁移,不绑定任何特定平台。 ## 在文档闭环设计方面,V2的方案中, 每个需求从输入到产出形成完整闭环,且知识自动沉淀: 设计要点如下。 知识自动沉淀: 每次分析完成后,AI自动将新发现的风险模式和核对逻辑回写到域知识库,零人工成本; 布防双向可追溯: 布防资产先写入Git,再由AI自主推送平台,借助Git的版本管理能力防止 AI 污染知识库; 方案与代码分离: 方案文档只描述策略,布防SQL以独立文件存放,便于分别审查和管理。 # 05 # 使用体验:低门槛、对话式交互 架构设计的最终价值体现在 用户体验 上。 因此,基于上述“文档即代码”的设计,用户日常使用的IDE、Git、代码协作流程,都可以直接服务于资损防控,无需学习任何新工具。 V2的整个方案 完全基于三个现有工具的组合,无需任何专门的基础设施建设 : 用户只需安装IDE插件、克隆仓库、配置MCP服务地址,即可开始使用, 整个环境准备过程不超过10分钟。 工具可替换性: 上表中的Aone Copilot仅为我们当前使用的AI交互入口。由于整个方案的核心是Git仓库中的规范文件和域知识库,而非绑定特定的AI工具,因此AI交互入口可以替换为、或其他支持工具调用和MCP协议的AI编程助手,只要它能读取仓库中的规范文件并遵循其中定义的SOP,即可驱动整个资损防控流程。 ## 工作流也趋于极简。 整个资损防控的工作流程被精简为 5个步骤: 准备文档 → 发起分析 → 审查方案 → 实施布防 → 确认推送。 用户全程在IDE中完成所有操作,无需切换到任何独立平台。 与此同时,AI在分析过程中如果遇到文档描述模糊或信息缺失的情况,会主动暂停并向用户确认,而不是基于猜测继续推进。这种“中断-确认-继续”的对话式交互,确保了分析结果的可靠性。 # 06 # 同一需求的V1 vs V2分析效果 为了验证上述架构设计的实际效果,我们选取了一个 真实需求「混合货盘下单抽奖」 ,分别用V1和V2进行分析,展示新方案在风险识别、布防方案、知识依赖等维度的实际表现。 该需求是一个典型的电商营销活动:用户在特定频道页面下单满X元后获得抽奖机会,可抽中低价购买资格或折扣商品购买资格,中奖后通过渠道价格跳转实现优惠购买。 这个过程的需求涉及多个复杂环节—— 订单金额聚合 :一次下单可能拆分为多个主单,需要按批次ID聚合统计总金额; 抽奖资格管控: 满足金额门槛后发放抽奖机会,每次下单满X元获得1次; 奖品发放控制: 低价购和折扣商品每天各限中1次,全周期有总上限; 逆向退款处理: 退款到门槛以下需取消资格或失效奖品,多次退款加入黑名单; 风控拦截: 接入安全码校验,黑名单用户只能抽中安慰奖。 输入差异: V1 需要人工维护的知识库(历史事件、防控手段、域特性、业务知识四个维度)作为分析基础;V2仅需要产品方案和技术方案两份文档,零人工信息输入,AI 基于域知识库的索引引导自主完成全链路分析。 ## 核心差异总结如下。 ## 值得一提的是,在实战中,我们有了以下四大方面的关键发现。 发现一:事实驱动带来的精准聚焦 此前,V1采用“广撒网”策略,基于知识库中的通用风险模式尽可能多地识别潜在风险,产出了10个风险点,覆盖面较广。 V2则采用 事实驱动 策略,即每个风险点都必须追溯到产品方案或技术方案中的具体描述,最终产出9个风险点。 两种策略各有侧重。 V1的广覆盖有助于 发现潜在的系统性风险 ,但用户需要投入时间筛选与本需求直接相关的风险点。 V2的精准聚焦使得每个风险点都直接可用,例如R7(订单金额未达门槛即获得抽奖资格)直接源于技术方案中“按订单时间区间查询并按批次ID统计”的实现细节这类深入技术方案后识别出的本需求特有风险,是 V2 全局上下文优势的直接体现。 发现二:全量阅读带来的精确布防匹配 V1通过向量召回识别出4条相关存量核对,V2通过逐一阅读已有布防资产的SQL逻辑,精确识别出6条通用布防可通过channel动态覆盖本需求。 关键差异在于 匹配的精确度和可解释性 。 V2不仅识别出哪些布防可以覆盖,还详细说明了覆盖机制(通过channel + award_id动态关联配置表)以及需要确认的配置项(如perUserDailyWinLimit、totalInventoryLimit等),用户可以直接据此完成配置确认,无需再去逐条阅读SQL理解覆盖逻辑。 发现三:已有布防资产分析+MCP二次校验带来的高可用性 在布防 SQL 编写环节,V1在部分场景下因缺乏表结构信息而使用了占位符,需要用户人工补充。 V2则采用了 两阶段校验策略 :首先通过逐一阅读已有布防资产的SQL逻辑,分析出核对所依赖的数据表和关键字段;然后通过MCP工具对表结构进行二次校验,确认表名、字段名和数据类型的准确性。 这种先分析、再校验的机制,既充分利用了已有布防资产中沉淀的领域知识,又通过工具化手段保障了最终产出的可用性。 发现四:无需人工维护知识库带来的低门槛和可重复性 V1的知识库质量直接影响分析效果,需要 持续投入人力维护覆盖度和时效性 。 V2完全无需人工维护知识库:AI基于域知识库索引自主完成信息获取,域知识库本身也在分析过程中自动迭代。 这带来了 两个核心优势 :低使用门槛(用户只需提供需求文档即可启动分析)和可重复性(相同输入产出一致的分析结果,不受知识库状态影响)。 # 07 # 技术思考 ## 基于V1和V2的差异,我们产出以下几点技术思考。 ## 第一,充分发挥 AI 的上下文优势。 单Agent架构的核心思路是让AI看到全貌:完整的需求文档、域知识库、已有布防资产和历史分析案例。 当AI拥有全局视野时,它能做出更准确的判断,比如在分析权益发放风险时,可以同时考虑结算域的扣款逻辑,识别出跨域的级联风险。 这也是V2相比V1最本质的架构差异: 不再人为切割AI的上下文,让模型能力直接作用于完整的问题空间。 ## 第二,自主决策权的价值。 将AI从执行者转变为决策者,给它目标、工具和规范,让它自主规划执行路径,这也带来了几个关键优势: 动态调整: AI可以根据分析过程中的发现,动态调整检索方向和分析深度; 异常处理: 遇到文档模糊或信息缺失时,AI可以自主决定暂停确认,而非输出低质量结果; 跨域关联: AI可以自主决定是否需要参考其他业务域的知识,不被限制在预设的编排流程中。 ## 第三,“知识飞轮”效应。 如图所示,知识沉淀应该是 分析流程的自然产物,而不是额外的人工工作 : 这是一个 零成本的正向飞轮 :每次分析都在为下次分析积累知识,用得越多,效果越好。 域知识库在这个飞轮中扮演着索引层的关键角色,即以结构化的方式组织知识,让AI在面对新需求时能够快速定位最相关的分析方向和历史经验。 ## 第四,Git版本管理——知识库的安全护栏。 将域知识库和布防资产纳入Git管理,既是技术选型的便利,也是AI安全治理的关键手段。 防止 AI 污染: AI对知识库的每一次修改都会生成Git diff,人工可以在Code Review中审查 AI 的产出质量,拒绝不合理的变更; 精确回滚: 如果AI在某次分析中产出了不准确的知识沉淀,可以通过Git精确回滚到上一个正确版本,而不会影响其他域的知识库; 变更审计: 完整的Git提交历史提供了知识库演进的全过程审计能力,可以追溯每一条知识是何时、因何被添加或修改的; 多人协作安全: 多个分析师可以在不同分支上并行工作,通过Merge Request合并,避免相互覆盖。 ## 第五,可信度优先。 在资损防控场景中,一个错误的布防规则比没有布防更危险,其可能掩盖真实风险,给用户带来虚假的安全感。 因此V2在架构层面贯彻可信度优先的原则:通过表结构强制校验、信息不足暂停确认、事实追溯等硬约束(详见3.5节),确保每一条产出都经得起验证,让用户可以直接基于分析报告做决策,而非花大量时间筛选“噪音”。 # 08 # 未来方向 1.布防资产类型拓展: 逐步拓展至BCP 规则、产出监控等更多资产类型,构建多层次的防控体系。 2.自动化程度提升: 探索从“人工触发分析”到“需求变更自动触发分析”的演进。 3.布防效果度量: 建立核对规则的告警命中率、误报率等指标体系,将度量数据回写到域知识库中,用数据驱动布防质量的持续优化,形成布防→度量→优化→再布防的闭环。 4.跨域风险关联: 利用V2的全局上下文优势,识别跨业务域的级联风险。 5.方法论复用: 域知识库+SOP+单Agent+Git的核心方法论并不局限于资损防控,还是一套可迁移的通用范式。只要能定义清楚“域知识库”和“分析SOP”,就能迁移至测试用例生成、需求评审辅助、变更影响分析等场景。目前,我们已将这套方法论应用于测试用例生成并取得了不错的效果,验证了该范式的可迁移性。 # 09 # 总结 从V1到V2,我们完成了一次架构范式的根本转变。 这次演进的核心洞察是: 在资损防控这样需要深度理解和精准判断的场景中,与其让多个Agent各管一段,不如给一个Agent足够的上下文、工具和决策权,让它像一个真正的资深专家一样思考和行动。 总的来说, 我们没有造一个更复杂的多 Agent 系统,而选择回归本质,用结构化的规范约束AI 行为、用Git保障知识库安全、用域知识库的自我迭代实现知识飞轮,最终以更简单的架构、更完整的上下文、更大的AI自主权,实现了更好的效果。 Less is More。 *注:封面图由ai生成。