--- title: "Agent 技能夜间自进化——阿里开源 SkillClaw,最高提升 88%" source_url: https://mp.weixin.qq.com/s/FVrhYid99NNsBbYaw3N8iw source_platform: wechat author: "Hyman的杂货铺" publish_date: 2026-04-11 created: 2026-05-19 type: raw tags: [skillclaw, amap, alibaba, agent, skill-evolution, collective-intelligence, wildclawbench] review_value: ★★★★☆ review_confidence: ★★★★☆ sha256: 14f5e720c8f856e27da749c909de4c13d8dc8c64ed3fff779b8f4d09a4f23c22 --- --- # Agent 技能夜间自进化——阿里开源 SkillClaw,最高提升 88% > 来源:Hyman的杂货铺,2026-04-11 > 论文:https://arxiv.org/abs/2604.08377 > 代码:https://github.com/AMAP-ML/SkillClaw ## 一句话 阿里 DreamX 团队提出 SkillClaw,一个让多用户 Agent 生态中的技能库持续自动进化的框架——用户正常使用 Agent,系统在后台收集交互轨迹、夜间进化技能、次日同步给所有用户,不需要人工介入。 ## 技能库僵化:Agent 系统的隐性瓶颈 大语言模型 Agent 的能力,很大程度上依赖"技能"(Skill)——那些编码了工具调用顺序、错误处理逻辑、工作流步骤的可复用程序片段。然而在实际部署中,这些技能一旦安装就基本不再变化。 这就是现有 Agent 系统的核心问题:**每个用户都在独立重新发现同样的解决方案,知识无法在系统层面积累。** 现有方法的局限性: - **记忆类方法**(如 Reflexion、ExpeL):把轨迹存储下来用于检索,但记忆仍绑定在特定实例上,难以泛化成可复用的通用技能 - **技能类方法**(如 SkillRL、MemEvolve):把经验压缩成结构化技能,但技能库一旦构建便保持静态,不随使用而进化 - **局部精炼**:只对单个 Agent 实例做改进,改进结果无法传播给其他用户 ## SkillClaw:集体进化的闭环系统 SkillClaw 的核心架构是一个**闭环进化流水线**: 多用户交互 → 会话收集 → 技能进化 → 技能同步 形式化来看,设共享技能集为 S = {s₁, ..., s_M},每次用户交互产生会话轨迹 τ,记录了完整的因果链:提示词 → Agent 动作 → 环境反馈 → 最终响应。系统的目标是更新共享技能集,使得在某个用户交互中发现的改进,能够惠及未来的所有用户。 ### 从孤立会话到共享证据 SkillClaw 的处理分两阶段: **第一阶段:结构化单次会话。** 系统记录完整的因果链,包括中间工具调用的参数、工具返回的错误信息等。这个细节至关重要,因为大多数技能层面的失败是**过程性的**——错误的参数格式、缺失的验证步骤、顺序错误的工具调用——这些都不会出现在最终响应里,只能从中间轨迹中诊断。 **第二阶段:按技能分组聚合。** 对于每个技能 s,收集所有调用了该技能的会话,形成证据组 G(s);没有调用任何技能的会话则归入单独的组 G(∅)。 这个分组机制有一个微妙但重要的作用:当多个用户在不同任务、不同环境下调用同一个技能,得到不同结果时,这种比较本身就构成了一种**自然消融实验**——技能本身是受控变量,由此可以判断哪些场景下技能有效、哪些场景下会失败。 ### 自主进化器:开放式推理驱动的技能更新 SkillClaw 的核心是**自主进化器(Agentic Evolver)**——一个配备了结构化输入框架的 LLM Agent,负责对共享技能库进行更新。 不同于预定义规则驱动的更新机制,进化器采用开放式推理。对于每个技能 s 及其关联的会话组 G(s),进化器分析成功和失败的执行案例,并从三个动作中选择一个: - **Refine(精炼)**:根据观察到的失败模式,修正技能错误或增强鲁棒性 - **Create(新建)**:当会话组揭示出某些反复出现的子流程没有被任何现有技能覆盖时,新建技能 - **Skip(跳过)**:当可用证据不足以支持修改时,保持技能不变 进化器始终**同时分析成功和失败的会话**。成功案例定义了技能的**不变量**——那些有效且不能被破坏的部分;失败案例定义了**优化目标**——需要纠正的具体行为。这种联合视角避免了朴素进化的一个典型陷阱:修复了一个问题,却不小心破坏了原本有效的流程。 **完整算法:自主集体技能进化** 1. 将 T 转化为结构化证据 E 2. 按引用的技能分组,得到各技能的证据组 {G(s)} 和无技能组 G(∅) 3. 对每个证据组 G(s):用进化器分析成功/失败模式,从 {精炼, 新建, 跳过} 中选择动作,生成候选技能更新,保守编辑后合并入新技能库 4. 分析 G(∅),发掘缺失的可复用流程,将通过验证的新技能加入 5. 将更新后的技能库同步回所有 Agent ### 夜间验证:单调改进的部署保证 技能更新不是直接上线的。验证在夜间进行,使用真实用户环境中的空闲资源——确保评估反映实际部署条件。 对于当前技能 s 和候选更新版本 s',系统从白天收集的交互数据中抽取相关任务,让两个版本在相同环境下运行。LLM 对比执行结果,基于整体任务成功率和执行稳定性做判断:更优则标记为 **Accept**,否则为 **Reject**。 这个验证机制引入了一个重要的**单调性保证**:由于只有更好的版本才会被接受,用户实际使用的技能池不会随时间退化。整个系统形成闭环:**交互 → 证据 → 进化 → 验证 → 部署** ## WildClawBench:真实环境下的 60 个复杂任务 WildClawBench 是论文使用的评测基准,包含 60 个真实世界 Agent 任务,覆盖六个能力领域: | 类别 | 示例任务 | 核心挑战 | |------|---------|---------| | 生产力工作流 | arXiv 分类、日程安排、SCP | 多步骤流水线 | | 代码智能 | 调试、益智解题 | 执行正确性 | | 社交互动 | 谈判、聊天分析 | 多轮推理 | | 搜索与检索 | 学术搜索、冲突解决 | API 使用 | | 创意合成 | 视频笔记、海报生成 | 多模态生成 | | 安全对齐 | 提示注入检测 | 约束满足 | 与以往基准不同,WildClawBench 要求在真实 Linux 容器环境中完整执行,支持文本、代码、图像、视频多模态输入,每个任务涉及 3-27 个聚合指标,任务步骤长达 15-50 步,且存在硬约束(关键错误直接导致零分)。 ### 核心实验结果:6 天内持续单调提升 | 类别 | Day 1 | Day 2 | Day 3 | Day 4 | Day 5 | Day 6 | 绝对提升 | 相对提升 | |------|-------|-------|-------|-------|-------|-------|---------|---------| | 社交互动 | 54.01% | 60.34% | 60.34% | 60.34% | 60.34% | 60.34% | +6.33 | +11.72% | | 搜索与检索 | 22.73% | 30.00% | 30.00% | 34.55% | 34.55% | 34.55% | +11.82 | +52.00% | | 创意合成 | 11.57% | 21.80% | 21.80% | 21.80% | 21.80% | 21.80% | +10.23 | +88.41% | | 安全对齐 | 24.00% | 24.00% | 24.00% | 24.00% | 32.00% | 32.00% | +8.00 | +33.33% | **关键规律**: - **社交互动**:早期爆发,快速稳定——从 54.01% 在 Day 2 跳升至 60.34%。背后是高影响力的工作流瓶颈——跨部门 Slack 消息汇总技能从"描述性指令"改写为"显式过程性工作流"后性能立刻大幅提升。 - **搜索与检索**:阶梯式改进,先从 22.73% 升至 30.00%,再升至 34.55%(+52%)——改进来自一系列递进修复:先解决文件存在性验证和路径解析,再升级到约束感知的检索规划。 - **创意合成**:最大早期跳升(+88.41%)——主要瓶颈不是内容生成本身,而是执行环境的搭建(工作目录配置、输入文件验证、多模态流水线初始化)。 - **安全对齐**:可靠性驱动的延迟改进——关注 Git 认证失败的回退策略、目录克隆流程的修正。 ## 受控验证:Skill Evolve Lite 针对三个定制查询的受控实验: | 查询 | 基线 | 进化后 | 提升 | |------|------|--------|------| | 基本提取 | 21.7% | 69.6% | +47.8% | | 截止日期解析 | 41.1% | 48.0% | +6.9% | | 保存报告 | 28.3% | 100.0% | +71.7% | | 平均 | 30.4% | 72.5% | +42.1% | 结论:技能进化对"缺失或错误的过程性知识"导致的失败最有效,对纯推理类失败效果有限。 ## 四个真实案例 **案例一:Slack 消息分析** - 进化前:Agent 检索所有消息,遭遇 API 端口配置错误时反复试错 - 进化后:新技能分三步——先用消息预览过滤相关内容,再按需检索全文,最后提取行动项;同时把正确的 API 配置固化进技能 **案例二:ICCV 2025 论文分析** - 问题:原始 Agent 依靠大学名称的启发式匹配导致误计 - 解法:进化后的技能基于 PDF 首页结构严格定义"第一机构",与 OpenAccess 记录对齐后再解析机构块 **案例三:SAM3 推理任务(不完整环境)** - 问题:原始 Agent 假设所有文件和执行条件都已就绪,一旦路径缺失或 CUDA 不可用就会失败 - 解法:进化后先做轻量级工作区检查,把"缺少输出目录"当成可忽略的非阻塞条件,主动搜索附近的相关资源,遇到 CUDA 依赖就降级为 CPU 执行 **案例四:多条件产品筛选** - 问题:原始 Agent 依赖松散匹配,找到一个"看起来合理"的候选就停止 - 解法:进化后的技能对每个需求都去权威来源核实;当没有候选能满足全部约束时,明确告知用户并给出逐条匹配分析 ## 三大系统属性 - **集体进化(Collective Evolution)**:个体交互中发现的知识汇聚成共享技能生态,改进不再局限于单个用户 - **全自动运行(Full Automation)**:从会话录制到技能同步,整个流水线无需人工干预 - **自主适应性(Agentic Adaptability)**:技能更新通过开放式推理产生,而非预定义规则 ## 局限性 这是一个小规模测试——8 个用户,6 天,有限的交互深度和反馈信号。但系统仍然展现了稳定的性能提升。论文中提到了"数据飞轮"效应:更好的技能 → 更好的轨迹 → 更高质量的下一轮技能。 框架目前兼容 OpenClaw、CoPaw、IronClaw、PicoClaw、ZeroClaw、NanoClaw、NemoClaw 等 Claw 系列 Agent 系统,并支持阿里云 OSS、Amazon S3 和本地文件系统三种存储后端。