---
title: 阿里SkillClaw：让 Agent 技能在真实使用中集体进化
source_url: https://mp.weixin.qq.com/s/NunzqJYxpt5Gc_NmpL1U1Q
publish_date: 2026-04-25
tags: [wechat, article, agent, rag]
review_value: 7
review_confidence: 7
review_recommendation: neutral
sha256: ece2238e722fa48e2e86e4d7f5be709a330ef7d9fe73a54b663c8f12ddb9d6bd
---
# 阿里SkillClaw：让 Agent 技能在真实使用中集体进化
> 原文：https://mp.weixin.qq.com/s/NunzqJYxpt5Gc_NmpL1U1Q
> 来源：PaperAgent | 2026-04-22
> 论文：https://arxiv.org/abs/2604.08377
> 代码：https://github.com/AMAP-ML/SkillClaw
---
## 核心问题
技能在部署后基本保持静态。当 Agent 在实际使用中遇到失败（参数格式错误、工具调用顺序不对、环境配置缺失），它可能通过多轮试错找到解决方案，但这些改进只停留在当前会话，不会被固化到技能库，也无法传递给其他用户。
本质上，每个用户都在独立地"重新发现"同样的解决方案，系统层面的知识无法累积。
## 集体进化闭环
用户交互 → 会话采集 → 技能进化 → 验证 → 同步部署 → 下一轮交互
### 从孤立会话到共享证据
SkillClaw 将每个交互会话转化为结构化轨迹（Trajectory），完整保留因果链：
```
用户提示 → Agent 动作 → 环境反馈 → ... → 最终响应
```
关键洞察：当不同用户在不同场景下调用同一个技能时，产生的成功/失败模式构成了对该技能行为边界的"自然消融实验"。单个用户的数据不足以区分"通用改进"和"特例修复"，但聚合多用户证据后，稳定的进化方向就会浮现。
会话按引用的技能分组：
- **G(s)**：所有调用技能 s 的会话
- **G(∅)**：未调用任何技能的会话（用于发现缺失的可复用流程）
## Agentic Evolver
给定技能 s 及其会话组 G(s)，Evolver 执行三种操作之一：
| 操作 | 说明 |
|------|------|
| Refine（精炼） | 基于失败模式修正技能，提升鲁棒性 |
| Create（创建） | 当发现现有技能未覆盖的可复用子流程时，创建新技能 |
| Skip（跳过） | 证据不足时保持技能不变 |
关键设计：Evolver 始终联合分析成功和失败会话。成功会话定义技能的"不变量"（必须保留的有效部分），失败会话定义"目标"（需要修正的具体行为）。这防止了"修一个 bug 引入三个新 bug"的常见失败模式。
## 夜间验证
进化后的候选技能不会直接上线，而是进入夜间验证阶段：
1. 从当日交互数据中选择相关验证任务
2. 在真实环境中同时执行旧技能 s 和新候选技能 s'
3. 比较整体任务成功率和执行稳定性
4. 仅当 s' 确实优于 s 时才接受，否则拒绝
这保证了单调部署行为——已部署的技能池不会随时间退化。
## 实验数据（WildClawBench）
- 基准：60 个跨 6 大领域的复杂真实任务
- 模型：Qwen3-Max
- 用户：8 个并发用户
- 周期：6 天（6 轮昼夜循环）
- 机制：白天用户交互 → 夜间进化+验证 → 次日部署
关键特性：
- 真实执行环境：完整 Linux 容器 + 工具链
- 多模态输入：文本、代码、图像、视频
- 严格约束：关键错误 → 零分
- 长程任务：15-50 步交互
### 关键发现
- 社交交互最早提升（Day 2 即达稳态）
- 搜索检索呈阶梯式提升，先解决输入验证问题，再构建高层检索规划能力
- 创意合成早期跃升最大（+88%）
- 安全对齐提升较晚，聚焦于真实环境下的执行可靠性
### 受控验证结果
| 查询 | 基线 | 进化后 | 提升 |
|------|------|--------|------|
| 基础提取 | 21.7% | 69.6% | +47.8% |
| 截止日期解析 | 41.1% | 48.0% | +6.9% |
| 保存报告 | 28.3% | 100.0% | +71.7% |
单轮进化平均提升 **+42.1%**
洞察：当失败源于缺失或不正确的程序性知识时，技能进化特别有效；而依赖细微推理的任务对程序性更新较不敏感。
## 案例
### 案例2：ICCV 2025 论文统计
原始 Agent 依赖大学名称的启发式匹配，进化后的技能引入基于官方 PDF 首页结构的严格"第一单位"定义，并对模糊案例执行定向复核。
改进维度：
- 精确任务定义：用严格结构定义替代模糊匹配
- 验证感知推理：对不确定案例显式复核
- 鲁棒提取：自动解析 + 定向验证结合
### 案例4：多条件手机选购
原始 Agent 依赖松散搜索和启发式匹配，进化后的技能引入结构化约束感知工作流：系统验证每个条件 → 联合评估所有候选 → 无完全匹配时显式报告并拆解部分匹配。
改进维度：
- 约束感知推理：基于显式多条件验证决策
- **grounded 检索**：优先权威来源而非通用结果
- 校准决策：承认不确定性，不过度解读部分匹配