--- source_url: "https://mp.weixin.qq.com/s/7dXczdxxrVWPKyIhKM_0zg" ingested: 2026-06-26 sha256: cacd460a4e34acb9 --- sha256: d18ea5ab70346c8e --- title: "港中文 SLIM:动态技能生命周期管理,arXiv 2605.10923" source: wechat source_url: https://mp.weixin.qq.com/s/7dXczdxxrVWPKyIhKM_0zg author: AI科技评论 feed_name: AI科技评论 original_source: 港中文 arXiv 2605.10923 original_title: "Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning" date: 2026-06-01 created: 2026-06-09 updated: 2026-06-09 review_value: 8 review_confidence: 8 review_recommendation: strong review_stars: 4 type: article provenance_state: extracted tags: [slim, skill-lifecycle, agentic-rl, cuhk, arxiv-2605-10923, retain-retire-expand, leave-one-skill-out, alfworld, searchqa, qwen3-4b, dynamic-skill-management, external-vs-internal-skill] sha256: ab0904598123621cd79e029712470520ed917ac3bcb2952a7926c3c8fba0b439 --- # 港中文 SLIM:动态技能生命周期管理,arXiv 2605.10923 > AI科技评论 2026-06-01 10:04 报道,作者郑佳美。港中文团队《Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning》论文解读。 ## 核心问题 **LLM agent 训练中,外部技能到底应该怎么变化?** 行业存在两派极端: - **SkillRL 派**:技能持续累积,外部知识库越大越好 - **Skill0 派**:追求"零技能推理",把技能全部内化进模型 两派都有问题:技能过多检索噪声、prompt 干扰;技能全删则丢失低频/长尾能力。 ## SLIM 的三操作循环 ### Retain (保留) 适用条件:技能仍然明显提高任务表现。适合步骤复杂、容易出错的流程。 ### Retire (退休) 适用条件:技能贡献长期很低。可能原因:模型已学会 / 其他技能已覆盖 / 技能信息过时 / 技能干扰决策。**关键判据**:禁用后表现几乎不变 → 模型已学会;**禁用后表现变好** → 技能产生干扰。 ### Expand (扩展) 适用条件:某些任务区域持续失败 → 当前技能库覆盖不足。从**失败案例中总结新技能**补足盲区。 ## 核心方法:Leave-One-Skill-Out 验证 SLIM 用 **leave-one-skill-out 验证**量化技能边际贡献:临时禁用某个技能 → 比较禁用前后验证表现。 | 禁用后表现变化 | 含义 | 操作 | |---------------|------|------| | 明显下降 | 技能仍有价值 | Retain | | 几乎不变 | 模型已学会 | Retire | | **变好** | 技能产生干扰 | Retire (反例) | 这一方法比"使用频次"判据**更精确**——案例分析显示:有些技能使用频率高但贡献小(已被其他技能替代),有些技能使用频率不高但对特定任务关键。 ## 实验结果 (Qwen3-4B) **ALFWorld (长流程家庭任务)**: - SLIM: **87.5% 成功率** - SkillRL: 75.0% (最强基线) - **提升 +12.5 个百分点**——任务步骤长、动作多、状态变化明显,**外部技能仍必要** **SearchQA (搜索问答)**: - SLIM 携带/不携带技能: **均 41.0%** - Skill0 (零技能): 39.3% (最强非 SLIM 基线) - **提升 +1.7**(远不如 ALFWorld 明显)——任务重点在搜索/推理组织,**技能可被模型吸收** **关键数据**: - **SLIM 平均超最佳对比方法 7.1 个百分点** - **最终保留 21 个技能**(不是越多越好,不是越少越好) - SkillRL 技能持续增加(过多导致噪声) - Skill0 技能持续减少到 0(丢失低频能力) ## 消融实验 | 配置 | 性能 | |------|------| | SLIM 完整 | 最佳 | | 去掉"退休"机制 | 明显下降(不删无效技能影响效果)| | 去掉"扩展"机制 | 下降(只筛选不够,还要补盲区)| | 随机管理技能 | 更差(增删不能随意)| | 固定技能数量 | 不如 SLIM(关键不是控制数量,是按贡献)| ## 技能分类 - **通用技能**:适合多种任务中的策略 - **任务专属技能**:针对某类任务的具体操作方法 每次任务**只从当前 active skill set 里检索**——不是把全部技能塞进 prompt,减少无关技能干扰。 ## 三种 Agent 训练范式对比 | 范式 | 思路 | 代表 | 问题 | |------|------|------|------| | 普通 RL | 训练 policy | GRPO | 外部技能使用粗糙 | | 技能累积 | 持续增加外部技能 | SkillRL | 技能过多检索噪声 | | 技能内化 | 逐渐删除外部技能 | Skill0 | 丢失低频/长尾能力 | | **SLIM** | **动态 Retain/Retire/Expand** | **港中文** | **按贡献调整,最优保留 21 个技能** | ## 对比方法 (实验设置) - **提示类**: Zero-Shot, Few-Shot - **Agent 类**: ReAct, Reflexion - **Memory 类**: Mem0, ExpeL - **RL 类**: GRPO, EvolveR - **技能类**: SkillRL, Skill0, **SLIM** 覆盖 4 大类方法,SLIM 在多种方法体系中都有竞争力。 ## 核心论断 > "**SLIM 实际上是在学习'哪些能力放进模型,哪些能力留在外部'**。" - 常见能力 → 适合参数化 - 重复出现的简单流程 → 适合逐渐内化 - 低频但重要的流程 → 适合外部保留 - 当前未覆盖的能力 → 适合新增技能 对 agentic RL 的启发:**传统 RL 只优化 policy;SLIM 同时优化 policy + 外部技能集合**——agent 不仅学会做任务,还学会**何时需要外部帮助**。 ## 上线 / 论文 - **论文**: https://arxiv.org/pdf/2605.10923