---
title: "浙大开源SkillX：全自动构建Agent技能知识库，即插即用提升10%性能"
source_url: https://mp.weixin.qq.com/s/TXRf_B4gzoEg32S_E-ShFQ
author: Hyman的杂货铺
publish_date: 2026-05-01
tags: [wechat, article, agent, skill, zjunlp, skillx, open-source]
created: 2026-05-19
sha256: c7b94490f95d66bff8b38dda771bc608ee31585fa681abefa740ed159624cb92
---
# 浙大开源SkillX：全自动构建Agent技能知识库，即插即用提升10%性能
## 核心结论
浙江大学ZJUNLP团队提出SkillX框架，从Agent执行轨迹中自动提炼「规划-功能-原子」三级技能知识库，插到弱模型上直接提升约10%任务成功率，且跨环境可复用。
## 为什么Agent需要"技能库"
LLM Agent已能完成API调用、网页导航、数据分析等复杂长程任务。但绝大多数Agent每次接到新任务都从零开始，依赖即时推理或少量示例，既昂贵又脆弱。
现有"自我进化"方案的三个结构性缺陷：
- **孤立学习**：每个Agent独立探索，提取相似经验，大量重复劳动
- **泛化能力弱**：高质量训练数据稀缺，技能难以迁移到新任务
- **能力天花板**：经验完全来源于Agent自身探索，受限于当前能力上限
**核心问题**：什么样的经验形式可以在不同能力的Agent之间、在不同环境中复用？
技能是一个更合适的抽象：封装了可复用的能力，直接支持任务执行。对比：Claude Skills采用长上下文渐进式披露（需要复杂沙箱），SkillX采用分层条目化表示（轻量检索模块一次性注入），更容易跨基座模型迁移。
## SkillX：三级技能分层 + 自动化流水线
### 多层级技能设计：规划-功能-原子三层架构
| 层级 | 职责 | 包含内容 |
|------|------|---------|
| 原子技能 | 与单个工具对齐 | 丰富后的描述、约束条件、使用模式、常见失败模式 |
| 功能技能 | 完成某个子任务的宏操作 | name + document（输入输出描述）+ content（工具调用模式）|
| 规划技能 | 子任务之间的组织结构 | 顺序、依赖关系、分支逻辑 |
三者组合：规划技能提供方向、功能技能提供方法、原子技能补充细节。
### 技能提取：从轨迹到结构化知识
1. **规划技能提取**：将成功轨迹压缩为有序高层步骤集合，过滤掉探索/回溯/试错行为，对过长环境反馈做摘要
2. **功能技能提取**：以规划技能为指导，迭代地提取与每个子任务目标对齐的功能技能
3. **原子技能提取**：从轨迹中蒸馏单个工具的调用模式、典型参数配置、使用注意事项（约束条件和常见失败模式）
### 迭代技能优化
**技能合并（Skills Merge）**：将语义相似的技能聚类合并，将合并方向聚合为，更新后的技能若过于复杂则进一步分解为更模块化的子技能。
**技能过滤（Skills Filter）**：两阶段严格过滤——第一阶段（通用过滤）去除不可移植、不可组合的技能；第二阶段（工具相关过滤）对照环境工具schema验证，拒绝引用不存在工具或无效参数的技能。
迭代更新包括三种操作：添加新技能、修改已有技能、保持不变。迭代直到测试集性能不再提升为止。
### 探索式技能扩展
仅依赖种子训练集提取的技能无法完全覆盖实际工具空间。采用经验引导探索：
1. 分析种子集rollout中各工具的使用情况——哪些用得好、哪些失败率高、哪些从未被调用
2. 优先探索未充分使用的或易失败的工具
3. 从探索交互轨迹中合成新任务
4. 在合成数据上重新运行技能获取和优化流水线
相比随机探索，经验引导的探索发现了更多样化的技能，有效扩展了技能库的覆盖范围。
## SkillX怎么用：检索注入一步到位
**第一步：规划技能检索与伪规划改写**
基于任务相似性检索规划技能，让模型基于当前任务和检索到的规划自我改写一个任务特定的伪规划。伪规划作为中间检索查询（不注入最终系统提示词，防止幻觉）。
**第二步：功能技能和原子技能检索**
将伪规划的每一步作为检索查询，检索相关技能并去重得到候选集，然后让LLM自筛选保留适用技能。最终将筛选后的技能集一次性注入系统提示词，Agent即可基于这些技能执行任务。
## 实验结果
**三个基准**：BFCL-v3（伯克利函数调用排行榜）、AppWorld（可控应用世界）、τ²-Bench（对话式Agent在双控制环境中）。
**核心发现**：
- SkillX显著提升弱模型性能：Qwen3-32B约+10个百分点，Kimi-K2在AppWorld上46.88%→56.40%，GLM-4.6自身60.27%→64.88%
- 多层级技能设计优于其他经验表示，无论自进化还是蒸馏模式都一致优于所有基线
- **经验表示形式比经验来源更关键**：即使用强模型提取经验给弱模型用，AWM和ExpeL仍落后于SkillX，说明经验表示形式甚至更加重要
**各层级技能效果**：
- 规划技能：一致减少所有模型的执行步数，对弱模型效果尤为显著
- 功能技能：对整体性能提升贡献最大
- 原子技能：为关键API提供补充说明，缺失时性能大幅下降
**最终配置**：GLM-4.6使用所有技能类型时收益最大；K2在功能+原子技能组合下最优；Qwen3-32B仅启用规划技能时最佳。
## 总结
SkillX将Agent的经验学习从"各自为战"推向"知识共享"：
- 分层技能表示方法（规划/功能/原子三层）
- 全自动可扩展框架（迭代精炼+探索式扩展）
- 开源技能库直接增强弱模型能力
师徒制类比：SkillX打破Agent之间的经验孤岛，让零散经验能被积累成可以互相传递的公共知识。
## 资源
- 论文：https://arxiv.org/abs/2604.04804
- 代码：https://github.com/zjunlp/SkillX