---
source_url: "https://mp.weixin.qq.com/s/7dXczdxxrVWPKyIhKM_0zg"
ingested: 2026-06-26
sha256: cacd460a4e34acb9
---
sha256: d18ea5ab70346c8e
---
title: "港中文 SLIM：动态技能生命周期管理，arXiv 2605.10923"
source: wechat
source_url: https://mp.weixin.qq.com/s/7dXczdxxrVWPKyIhKM_0zg
author: AI科技评论
feed_name: AI科技评论
original_source: 港中文 arXiv 2605.10923
original_title: "Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning"
date: 2026-06-01
created: 2026-06-09
updated: 2026-06-09
review_value: 8
review_confidence: 8
review_recommendation: strong
review_stars: 4
type: article
provenance_state: extracted
tags: [slim, skill-lifecycle, agentic-rl, cuhk, arxiv-2605-10923, retain-retire-expand, leave-one-skill-out, alfworld, searchqa, qwen3-4b, dynamic-skill-management, external-vs-internal-skill]
sha256: ab0904598123621cd79e029712470520ed917ac3bcb2952a7926c3c8fba0b439
---

# 港中文 SLIM：动态技能生命周期管理，arXiv 2605.10923

> AI科技评论 2026-06-01 10:04 报道，作者郑佳美。港中文团队《Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning》论文解读。

## 核心问题

**LLM agent 训练中，外部技能到底应该怎么变化？** 行业存在两派极端：
- **SkillRL 派**：技能持续累积，外部知识库越大越好
- **Skill0 派**：追求"零技能推理"，把技能全部内化进模型

两派都有问题：技能过多检索噪声、prompt 干扰；技能全删则丢失低频/长尾能力。

## SLIM 的三操作循环

### Retain (保留)
适用条件：技能仍然明显提高任务表现。适合步骤复杂、容易出错的流程。

### Retire (退休)
适用条件：技能贡献长期很低。可能原因：模型已学会 / 其他技能已覆盖 / 技能信息过时 / 技能干扰决策。**关键判据**：禁用后表现几乎不变 → 模型已学会；**禁用后表现变好** → 技能产生干扰。

### Expand (扩展)
适用条件：某些任务区域持续失败 → 当前技能库覆盖不足。从**失败案例中总结新技能**补足盲区。

## 核心方法：Leave-One-Skill-Out 验证

SLIM 用 **leave-one-skill-out 验证**量化技能边际贡献：临时禁用某个技能 → 比较禁用前后验证表现。

| 禁用后表现变化 | 含义 | 操作 |
|---------------|------|------|
| 明显下降 | 技能仍有价值 | Retain |
| 几乎不变 | 模型已学会 | Retire |
| **变好** | 技能产生干扰 | Retire (反例) |

这一方法比"使用频次"判据**更精确**——案例分析显示：有些技能使用频率高但贡献小（已被其他技能替代），有些技能使用频率不高但对特定任务关键。

## 实验结果 (Qwen3-4B)

**ALFWorld (长流程家庭任务)**：
- SLIM: **87.5% 成功率**
- SkillRL: 75.0% (最强基线)
- **提升 +12.5 个百分点**——任务步骤长、动作多、状态变化明显，**外部技能仍必要**

**SearchQA (搜索问答)**：
- SLIM 携带/不携带技能: **均 41.0%**
- Skill0 (零技能): 39.3% (最强非 SLIM 基线)
- **提升 +1.7**（远不如 ALFWorld 明显）——任务重点在搜索/推理组织，**技能可被模型吸收**

**关键数据**:
- **SLIM 平均超最佳对比方法 7.1 个百分点**
- **最终保留 21 个技能**（不是越多越好，不是越少越好）
- SkillRL 技能持续增加（过多导致噪声）
- Skill0 技能持续减少到 0（丢失低频能力）

## 消融实验

| 配置 | 性能 |
|------|------|
| SLIM 完整 | 最佳 |
| 去掉"退休"机制 | 明显下降（不删无效技能影响效果）|
| 去掉"扩展"机制 | 下降（只筛选不够，还要补盲区）|
| 随机管理技能 | 更差（增删不能随意）|
| 固定技能数量 | 不如 SLIM（关键不是控制数量，是按贡献）|

## 技能分类

- **通用技能**：适合多种任务中的策略
- **任务专属技能**：针对某类任务的具体操作方法

每次任务**只从当前 active skill set 里检索**——不是把全部技能塞进 prompt，减少无关技能干扰。

## 三种 Agent 训练范式对比

| 范式 | 思路 | 代表 | 问题 |
|------|------|------|------|
| 普通 RL | 训练 policy | GRPO | 外部技能使用粗糙 |
| 技能累积 | 持续增加外部技能 | SkillRL | 技能过多检索噪声 |
| 技能内化 | 逐渐删除外部技能 | Skill0 | 丢失低频/长尾能力 |
| **SLIM** | **动态 Retain/Retire/Expand** | **港中文** | **按贡献调整，最优保留 21 个技能** |

## 对比方法 (实验设置)

- **提示类**: Zero-Shot, Few-Shot
- **Agent 类**: ReAct, Reflexion
- **Memory 类**: Mem0, ExpeL
- **RL 类**: GRPO, EvolveR
- **技能类**: SkillRL, Skill0, **SLIM**

覆盖 4 大类方法，SLIM 在多种方法体系中都有竞争力。

## 核心论断

> "**SLIM 实际上是在学习'哪些能力放进模型，哪些能力留在外部'**。"

- 常见能力 → 适合参数化
- 重复出现的简单流程 → 适合逐渐内化
- 低频但重要的流程 → 适合外部保留
- 当前未覆盖的能力 → 适合新增技能

对 agentic RL 的启发：**传统 RL 只优化 policy；SLIM 同时优化 policy + 外部技能集合**——agent 不仅学会做任务，还学会**何时需要外部帮助**。

## 上线 / 论文

- **论文**: https://arxiv.org/pdf/2605.10923