--- title: Memento-Skills:让 Agent 通过技能外部记忆持续进化 source_url: https://mp.weixin.qq.com/s/c-7wTItL7tubqVFCrMQPCA publish_date: 2026-05-01 tags: [wechat, article, agent, llm] review_value: 7 review_confidence: 7 review_recommendation: neutral ingested: 2026-05-16 sha256: 9162cdaab8696b699f1138db55bd7ab5364c274c5b9afc9403755d401abfb764 --- # Memento-Skills:让 Agent 通过技能外部记忆持续进化 > AI热力论文社 | 2026-04-01 | arXiv 2603.18743 > 热力评分:91 分 ## 核心问题 LLM 部署后无法继续学习——预训练依赖海量算力,微调成本高昂,生产环境积累的交互经验难以被模型吸收复用。 **Memento-Skills 的路径**:在完全冻结模型参数的前提下,通过持续进化的**技能内存(Skill Memory)**让 Agent 在真实任务中持续成长。 ## 理论贡献 将状态从 `s_t`(当前任务)扩展为 `x_t = (s_t, M_t)`(任务状态 + 技能内存),**重新获得马尔可夫性**,保证系统收敛性。 ## 读写反射学习五步循环 1. **Observe**:接收任务请求,结合提示内存形成增强输入 2. **Read**:路由最相关技能;必要时创建新技能 3. **Act**:LLM 根据选中技能 + 输入执行多步工作流 4. **Feedback**:Judge 模块判断结果,给出奖励信号 5. **Write**(关键进化步骤): - 更新技能效用评分 = success / (success + failure) - 执行失败时:通用提示加入提示内存 → 失败归因定位错误技能 - 若效用低于阈值且有足够样本 → 创建新技能补充到库 - 反之原地优化现有技能(加防护逻辑/替换策略) - 所有修改要**经过单元测试门**验证,防止功能退化 ## 行为对齐路由(核心方法贡献) 传统路由只看语义相似度 → 无法保证执行有效。 Memento 方案:**单步离线 RL 训练对比检索模型**,优化目标转为"技能成功概率"。 - 流程:合成正负任务样本 → LLM Judge 筛选 → 多正例 InfoNCE 训练行为对齐嵌入 → Boltzmann 策略平衡利用与探索 - 检索管道:BM25 + 稠密检索 + RRF 融合 + 重排序 ## 实验结果 | 基准 | 指标 | 基线 (Read-Write) | Memento | 提升 | |------|------|-------------------|---------|------| | GAIA | 测试准确率 | 52.3% | **66.0%** | +13.7pp | | HLE | 测试准确率 | 17.9% | **38.7%** | +20.8pp | | Recall@1 | 路由离线评估 | 0.32 (BM25) | **0.60** | +87.5% | | 端到端命中率 | 路由在线评估 | 0.29 | **0.58** | +29pp | | Judge 成功率 | 路由结果质量 | 0.50 | **0.80** | +30pp | ## 技能库进化轨迹 - **初始**:5 个原子技能 - **GAIA 学习后**:41 个技能(分布紧凑,任务多样性有限) - **HLE 学习后**:235 个技能(自动聚类成语义组,每个聚类对应一个领域能力) t-SNE 投影显示:不是简单记忆积累,而是**能力结构的形成**。 ## 架构 5 层模块化设计(从 3 万行单文件重构): 1. 入口层:CLI + 桌面 GUI 2. 代理编排层:Memento-SAgent(意图识别/规划/执行/反射) 3. 工具调度层:内置工具 + 技能工具 + 安全检查 4. 技能系统:存储/召回/执行/进化引擎 5. 基础设施层:LLM 客户端/配置/数据库 ## 链接 - arXiv: https://arxiv.org/abs/2603.18743 - GitHub: https://github.com/Memento-Teams/Memento-Skills