---
title: "Agent 技能夜间自进化——阿里开源 SkillClaw，最高提升 88%"
source_url: https://mp.weixin.qq.com/s/FVrhYid99NNsBbYaw3N8iw
source_platform: wechat
author: "Hyman的杂货铺"
publish_date: 2026-04-11
created: 2026-05-19
type: raw
tags: [skillclaw, amap, alibaba, agent, skill-evolution, collective-intelligence, wildclawbench]
review_value: ★★★★☆
review_confidence: ★★★★☆
sha256: 14f5e720c8f856e27da749c909de4c13d8dc8c64ed3fff779b8f4d09a4f23c22
---
---
# Agent 技能夜间自进化——阿里开源 SkillClaw，最高提升 88%
> 来源：Hyman的杂货铺，2026-04-11  
> 论文：https://arxiv.org/abs/2604.08377  
> 代码：https://github.com/AMAP-ML/SkillClaw
## 一句话
阿里 DreamX 团队提出 SkillClaw，一个让多用户 Agent 生态中的技能库持续自动进化的框架——用户正常使用 Agent，系统在后台收集交互轨迹、夜间进化技能、次日同步给所有用户，不需要人工介入。
## 技能库僵化：Agent 系统的隐性瓶颈
大语言模型 Agent 的能力，很大程度上依赖"技能"（Skill）——那些编码了工具调用顺序、错误处理逻辑、工作流步骤的可复用程序片段。然而在实际部署中，这些技能一旦安装就基本不再变化。
这就是现有 Agent 系统的核心问题：**每个用户都在独立重新发现同样的解决方案，知识无法在系统层面积累。**
现有方法的局限性：
- **记忆类方法**（如 Reflexion、ExpeL）：把轨迹存储下来用于检索，但记忆仍绑定在特定实例上，难以泛化成可复用的通用技能
- **技能类方法**（如 SkillRL、MemEvolve）：把经验压缩成结构化技能，但技能库一旦构建便保持静态，不随使用而进化
- **局部精炼**：只对单个 Agent 实例做改进，改进结果无法传播给其他用户
## SkillClaw：集体进化的闭环系统
SkillClaw 的核心架构是一个**闭环进化流水线**：
多用户交互 → 会话收集 → 技能进化 → 技能同步
形式化来看，设共享技能集为 S = {s₁, ..., s_M}，每次用户交互产生会话轨迹 τ，记录了完整的因果链：提示词 → Agent 动作 → 环境反馈 → 最终响应。系统的目标是更新共享技能集，使得在某个用户交互中发现的改进，能够惠及未来的所有用户。
### 从孤立会话到共享证据
SkillClaw 的处理分两阶段：
**第一阶段：结构化单次会话。** 系统记录完整的因果链，包括中间工具调用的参数、工具返回的错误信息等。这个细节至关重要，因为大多数技能层面的失败是**过程性的**——错误的参数格式、缺失的验证步骤、顺序错误的工具调用——这些都不会出现在最终响应里，只能从中间轨迹中诊断。
**第二阶段：按技能分组聚合。** 对于每个技能 s，收集所有调用了该技能的会话，形成证据组 G(s)；没有调用任何技能的会话则归入单独的组 G(∅)。
这个分组机制有一个微妙但重要的作用：当多个用户在不同任务、不同环境下调用同一个技能，得到不同结果时，这种比较本身就构成了一种**自然消融实验**——技能本身是受控变量，由此可以判断哪些场景下技能有效、哪些场景下会失败。
### 自主进化器：开放式推理驱动的技能更新
SkillClaw 的核心是**自主进化器（Agentic Evolver）**——一个配备了结构化输入框架的 LLM Agent，负责对共享技能库进行更新。
不同于预定义规则驱动的更新机制，进化器采用开放式推理。对于每个技能 s 及其关联的会话组 G(s)，进化器分析成功和失败的执行案例，并从三个动作中选择一个：
- **Refine（精炼）**：根据观察到的失败模式，修正技能错误或增强鲁棒性
- **Create（新建）**：当会话组揭示出某些反复出现的子流程没有被任何现有技能覆盖时，新建技能
- **Skip（跳过）**：当可用证据不足以支持修改时，保持技能不变
进化器始终**同时分析成功和失败的会话**。成功案例定义了技能的**不变量**——那些有效且不能被破坏的部分；失败案例定义了**优化目标**——需要纠正的具体行为。这种联合视角避免了朴素进化的一个典型陷阱：修复了一个问题，却不小心破坏了原本有效的流程。
**完整算法：自主集体技能进化**
1. 将 T 转化为结构化证据 E
2. 按引用的技能分组，得到各技能的证据组 {G(s)} 和无技能组 G(∅)
3. 对每个证据组 G(s)：用进化器分析成功/失败模式，从 {精炼, 新建, 跳过} 中选择动作，生成候选技能更新，保守编辑后合并入新技能库
4. 分析 G(∅)，发掘缺失的可复用流程，将通过验证的新技能加入
5. 将更新后的技能库同步回所有 Agent
### 夜间验证：单调改进的部署保证
技能更新不是直接上线的。验证在夜间进行，使用真实用户环境中的空闲资源——确保评估反映实际部署条件。
对于当前技能 s 和候选更新版本 s'，系统从白天收集的交互数据中抽取相关任务，让两个版本在相同环境下运行。LLM 对比执行结果，基于整体任务成功率和执行稳定性做判断：更优则标记为 **Accept**，否则为 **Reject**。
这个验证机制引入了一个重要的**单调性保证**：由于只有更好的版本才会被接受，用户实际使用的技能池不会随时间退化。整个系统形成闭环：**交互 → 证据 → 进化 → 验证 → 部署**
## WildClawBench：真实环境下的 60 个复杂任务
WildClawBench 是论文使用的评测基准，包含 60 个真实世界 Agent 任务，覆盖六个能力领域：
| 类别 | 示例任务 | 核心挑战 |
|------|---------|---------|
| 生产力工作流 | arXiv 分类、日程安排、SCP | 多步骤流水线 |
| 代码智能 | 调试、益智解题 | 执行正确性 |
| 社交互动 | 谈判、聊天分析 | 多轮推理 |
| 搜索与检索 | 学术搜索、冲突解决 | API 使用 |
| 创意合成 | 视频笔记、海报生成 | 多模态生成 |
| 安全对齐 | 提示注入检测 | 约束满足 |
与以往基准不同，WildClawBench 要求在真实 Linux 容器环境中完整执行，支持文本、代码、图像、视频多模态输入，每个任务涉及 3-27 个聚合指标，任务步骤长达 15-50 步，且存在硬约束（关键错误直接导致零分）。
### 核心实验结果：6 天内持续单调提升
| 类别 | Day 1 | Day 2 | Day 3 | Day 4 | Day 5 | Day 6 | 绝对提升 | 相对提升 |
|------|-------|-------|-------|-------|-------|-------|---------|---------|
| 社交互动 | 54.01% | 60.34% | 60.34% | 60.34% | 60.34% | 60.34% | +6.33 | +11.72% |
| 搜索与检索 | 22.73% | 30.00% | 30.00% | 34.55% | 34.55% | 34.55% | +11.82 | +52.00% |
| 创意合成 | 11.57% | 21.80% | 21.80% | 21.80% | 21.80% | 21.80% | +10.23 | +88.41% |
| 安全对齐 | 24.00% | 24.00% | 24.00% | 24.00% | 32.00% | 32.00% | +8.00 | +33.33% |
**关键规律**：
- **社交互动**：早期爆发，快速稳定——从 54.01% 在 Day 2 跳升至 60.34%。背后是高影响力的工作流瓶颈——跨部门 Slack 消息汇总技能从"描述性指令"改写为"显式过程性工作流"后性能立刻大幅提升。
- **搜索与检索**：阶梯式改进，先从 22.73% 升至 30.00%，再升至 34.55%（+52%）——改进来自一系列递进修复：先解决文件存在性验证和路径解析，再升级到约束感知的检索规划。
- **创意合成**：最大早期跳升（+88.41%）——主要瓶颈不是内容生成本身，而是执行环境的搭建（工作目录配置、输入文件验证、多模态流水线初始化）。
- **安全对齐**：可靠性驱动的延迟改进——关注 Git 认证失败的回退策略、目录克隆流程的修正。
## 受控验证：Skill Evolve Lite
针对三个定制查询的受控实验：
| 查询 | 基线 | 进化后 | 提升 |
|------|------|--------|------|
| 基本提取 | 21.7% | 69.6% | +47.8% |
| 截止日期解析 | 41.1% | 48.0% | +6.9% |
| 保存报告 | 28.3% | 100.0% | +71.7% |
| 平均 | 30.4% | 72.5% | +42.1% |
结论：技能进化对"缺失或错误的过程性知识"导致的失败最有效，对纯推理类失败效果有限。
## 四个真实案例
**案例一：Slack 消息分析**
- 进化前：Agent 检索所有消息，遭遇 API 端口配置错误时反复试错
- 进化后：新技能分三步——先用消息预览过滤相关内容，再按需检索全文，最后提取行动项；同时把正确的 API 配置固化进技能
**案例二：ICCV 2025 论文分析**
- 问题：原始 Agent 依靠大学名称的启发式匹配导致误计
- 解法：进化后的技能基于 PDF 首页结构严格定义"第一机构"，与 OpenAccess 记录对齐后再解析机构块
**案例三：SAM3 推理任务（不完整环境）**
- 问题：原始 Agent 假设所有文件和执行条件都已就绪，一旦路径缺失或 CUDA 不可用就会失败
- 解法：进化后先做轻量级工作区检查，把"缺少输出目录"当成可忽略的非阻塞条件，主动搜索附近的相关资源，遇到 CUDA 依赖就降级为 CPU 执行
**案例四：多条件产品筛选**
- 问题：原始 Agent 依赖松散匹配，找到一个"看起来合理"的候选就停止
- 解法：进化后的技能对每个需求都去权威来源核实；当没有候选能满足全部约束时，明确告知用户并给出逐条匹配分析
## 三大系统属性
- **集体进化（Collective Evolution）**：个体交互中发现的知识汇聚成共享技能生态，改进不再局限于单个用户
- **全自动运行（Full Automation）**：从会话录制到技能同步，整个流水线无需人工干预
- **自主适应性（Agentic Adaptability）**：技能更新通过开放式推理产生，而非预定义规则
## 局限性
这是一个小规模测试——8 个用户，6 天，有限的交互深度和反馈信号。但系统仍然展现了稳定的性能提升。论文中提到了"数据飞轮"效应：更好的技能 → 更好的轨迹 → 更高质量的下一轮技能。
框架目前兼容 OpenClaw、CoPaw、IronClaw、PicoClaw、ZeroClaw、NanoClaw、NemoClaw 等 Claw 系列 Agent 系统，并支持阿里云 OSS、Amazon S3 和本地文件系统三种存储后端。