---
title: Memento-Skills：让 Agent 通过技能外部记忆持续进化
source_url: https://mp.weixin.qq.com/s/c-7wTItL7tubqVFCrMQPCA
publish_date: 2026-05-01
tags: [wechat, article, agent, llm]
review_value: 7
review_confidence: 7
review_recommendation: neutral
ingested: 2026-05-16
sha256: 9162cdaab8696b699f1138db55bd7ab5364c274c5b9afc9403755d401abfb764
---
# Memento-Skills：让 Agent 通过技能外部记忆持续进化
> AI热力论文社 | 2026-04-01 | arXiv 2603.18743
> 热力评分：91 分
## 核心问题
LLM 部署后无法继续学习——预训练依赖海量算力，微调成本高昂，生产环境积累的交互经验难以被模型吸收复用。
**Memento-Skills 的路径**：在完全冻结模型参数的前提下，通过持续进化的**技能内存（Skill Memory）**让 Agent 在真实任务中持续成长。
## 理论贡献
将状态从 `s_t`（当前任务）扩展为 `x_t = (s_t, M_t)`（任务状态 + 技能内存），**重新获得马尔可夫性**，保证系统收敛性。
## 读写反射学习五步循环
1. **Observe**：接收任务请求，结合提示内存形成增强输入
2. **Read**：路由最相关技能；必要时创建新技能
3. **Act**：LLM 根据选中技能 + 输入执行多步工作流
4. **Feedback**：Judge 模块判断结果，给出奖励信号
5. **Write**（关键进化步骤）：
   - 更新技能效用评分 = success / (success + failure)
   - 执行失败时：通用提示加入提示内存 → 失败归因定位错误技能
   - 若效用低于阈值且有足够样本 → 创建新技能补充到库
   - 反之原地优化现有技能（加防护逻辑/替换策略）
   - 所有修改要**经过单元测试门**验证，防止功能退化
## 行为对齐路由（核心方法贡献）
传统路由只看语义相似度 → 无法保证执行有效。
Memento 方案：**单步离线 RL 训练对比检索模型**，优化目标转为"技能成功概率"。
- 流程：合成正负任务样本 → LLM Judge 筛选 → 多正例 InfoNCE 训练行为对齐嵌入 → Boltzmann 策略平衡利用与探索
- 检索管道：BM25 + 稠密检索 + RRF 融合 + 重排序
## 实验结果
| 基准 | 指标 | 基线 (Read-Write) | Memento | 提升 |
|------|------|-------------------|---------|------|
| GAIA | 测试准确率 | 52.3% | **66.0%** | +13.7pp |
| HLE | 测试准确率 | 17.9% | **38.7%** | +20.8pp |
| Recall@1 | 路由离线评估 | 0.32 (BM25) | **0.60** | +87.5% |
| 端到端命中率 | 路由在线评估 | 0.29 | **0.58** | +29pp |
| Judge 成功率 | 路由结果质量 | 0.50 | **0.80** | +30pp |
## 技能库进化轨迹
- **初始**：5 个原子技能
- **GAIA 学习后**：41 个技能（分布紧凑，任务多样性有限）
- **HLE 学习后**：235 个技能（自动聚类成语义组，每个聚类对应一个领域能力）
t-SNE 投影显示：不是简单记忆积累，而是**能力结构的形成**。
## 架构
5 层模块化设计（从 3 万行单文件重构）：
1. 入口层：CLI + 桌面 GUI
2. 代理编排层：Memento-SAgent（意图识别/规划/执行/反射）
3. 工具调度层：内置工具 + 技能工具 + 安全检查
4. 技能系统：存储/召回/执行/进化引擎
5. 基础设施层：LLM 客户端/配置/数据库
## 链接
- arXiv: https://arxiv.org/abs/2603.18743
- GitHub: https://github.com/Memento-Teams/Memento-Skills