--- title: 阿里SkillClaw:让 Agent 技能在真实使用中集体进化 source_url: https://mp.weixin.qq.com/s/NunzqJYxpt5Gc_NmpL1U1Q publish_date: 2026-04-25 tags: [wechat, article, agent, rag] review_value: 7 review_confidence: 7 review_recommendation: neutral sha256: ece2238e722fa48e2e86e4d7f5be709a330ef7d9fe73a54b663c8f12ddb9d6bd --- # 阿里SkillClaw:让 Agent 技能在真实使用中集体进化 > 原文:https://mp.weixin.qq.com/s/NunzqJYxpt5Gc_NmpL1U1Q > 来源:PaperAgent | 2026-04-22 > 论文:https://arxiv.org/abs/2604.08377 > 代码:https://github.com/AMAP-ML/SkillClaw --- ## 核心问题 技能在部署后基本保持静态。当 Agent 在实际使用中遇到失败(参数格式错误、工具调用顺序不对、环境配置缺失),它可能通过多轮试错找到解决方案,但这些改进只停留在当前会话,不会被固化到技能库,也无法传递给其他用户。 本质上,每个用户都在独立地"重新发现"同样的解决方案,系统层面的知识无法累积。 ## 集体进化闭环 用户交互 → 会话采集 → 技能进化 → 验证 → 同步部署 → 下一轮交互 ### 从孤立会话到共享证据 SkillClaw 将每个交互会话转化为结构化轨迹(Trajectory),完整保留因果链: ``` 用户提示 → Agent 动作 → 环境反馈 → ... → 最终响应 ``` 关键洞察:当不同用户在不同场景下调用同一个技能时,产生的成功/失败模式构成了对该技能行为边界的"自然消融实验"。单个用户的数据不足以区分"通用改进"和"特例修复",但聚合多用户证据后,稳定的进化方向就会浮现。 会话按引用的技能分组: - **G(s)**:所有调用技能 s 的会话 - **G(∅)**:未调用任何技能的会话(用于发现缺失的可复用流程) ## Agentic Evolver 给定技能 s 及其会话组 G(s),Evolver 执行三种操作之一: | 操作 | 说明 | |------|------| | Refine(精炼) | 基于失败模式修正技能,提升鲁棒性 | | Create(创建) | 当发现现有技能未覆盖的可复用子流程时,创建新技能 | | Skip(跳过) | 证据不足时保持技能不变 | 关键设计:Evolver 始终联合分析成功和失败会话。成功会话定义技能的"不变量"(必须保留的有效部分),失败会话定义"目标"(需要修正的具体行为)。这防止了"修一个 bug 引入三个新 bug"的常见失败模式。 ## 夜间验证 进化后的候选技能不会直接上线,而是进入夜间验证阶段: 1. 从当日交互数据中选择相关验证任务 2. 在真实环境中同时执行旧技能 s 和新候选技能 s' 3. 比较整体任务成功率和执行稳定性 4. 仅当 s' 确实优于 s 时才接受,否则拒绝 这保证了单调部署行为——已部署的技能池不会随时间退化。 ## 实验数据(WildClawBench) - 基准:60 个跨 6 大领域的复杂真实任务 - 模型:Qwen3-Max - 用户:8 个并发用户 - 周期:6 天(6 轮昼夜循环) - 机制:白天用户交互 → 夜间进化+验证 → 次日部署 关键特性: - 真实执行环境:完整 Linux 容器 + 工具链 - 多模态输入:文本、代码、图像、视频 - 严格约束:关键错误 → 零分 - 长程任务:15-50 步交互 ### 关键发现 - 社交交互最早提升(Day 2 即达稳态) - 搜索检索呈阶梯式提升,先解决输入验证问题,再构建高层检索规划能力 - 创意合成早期跃升最大(+88%) - 安全对齐提升较晚,聚焦于真实环境下的执行可靠性 ### 受控验证结果 | 查询 | 基线 | 进化后 | 提升 | |------|------|--------|------| | 基础提取 | 21.7% | 69.6% | +47.8% | | 截止日期解析 | 41.1% | 48.0% | +6.9% | | 保存报告 | 28.3% | 100.0% | +71.7% | 单轮进化平均提升 **+42.1%** 洞察:当失败源于缺失或不正确的程序性知识时,技能进化特别有效;而依赖细微推理的任务对程序性更新较不敏感。 ## 案例 ### 案例2:ICCV 2025 论文统计 原始 Agent 依赖大学名称的启发式匹配,进化后的技能引入基于官方 PDF 首页结构的严格"第一单位"定义,并对模糊案例执行定向复核。 改进维度: - 精确任务定义:用严格结构定义替代模糊匹配 - 验证感知推理:对不确定案例显式复核 - 鲁棒提取:自动解析 + 定向验证结合 ### 案例4:多条件手机选购 原始 Agent 依赖松散搜索和启发式匹配,进化后的技能引入结构化约束感知工作流:系统验证每个条件 → 联合评估所有候选 → 无完全匹配时显式报告并拆解部分匹配。 改进维度: - 约束感知推理:基于显式多条件验证决策 - **grounded 检索**:优先权威来源而非通用结果 - 校准决策:承认不确定性,不过度解读部分匹配