---
title: hermes-self-improving-overview-winty
source_url: https://mp.weixin.qq.com/s/KJwNgGFBXGUzjwCi2jMLwg
publish_date: 2026-05-12
tags: [wechat, article, openai, agent, rag]
review_value: 7
review_confidence: 7
review_recommendation: neutral
sha256: 8ad11e2d3ed96a7b75ec4ae8d1e5ab0a7dfdf7bd0761641a68396c767e2d4fbb
---
点击上方 前端Q，关注公众号
回复加群，加入前端Q技术交流群
我跟很多做 Agent 的朋友聊过一个话题：Agent 真的能"自我进化"吗？
大家给的答案多半是：
▸ "可以啊，模型越来越强嘛"
▸ "可以啊，prompt 越调越好啊"
▸ "可以啊，加点 RAG 不就行了"
听起来好像都对。但你仔细一想会发现，这些都是外部在帮 Agent 变强，不是 Agent 自己在变强。
模型迭代是 OpenAI 的事，prompt 调优是工程师的事，RAG 是知识库的事。Agent 自己呢？它一直在原地，每次任务都从零开始。
Hermes 的"Self-Improving"不一样。它说的是：Agent 自己能从工作中学到东西，自己写下来，自己下次复用，自己持续修补。
整个闭环不依赖人，也不依赖模型升级。
这一篇我把这个闭环拆开讲清楚。
## 先给"自进化"做一个工程定义
同一个用户，让同一个 Agent，在不同时间点做同类任务，后做的明显比先做的更准更快。
三个关键词：
- 同一个用户：排除 prompt 优化的影响
- 同一个 Agent 实例：排除模型版本升级的影响
- 同类任务：排除任务难度变化的影响
按这个标准，市面上 95% 的 Agent 不算自进化。Hermes 算。
## 自进化要靠 4 件事配合
第 1 件事：能记住事（Memory）— 事实级别的认知，写到 markdown 文件里，下次自动加载到 system prompt。
第 2 件事：能沉淀做法（Skill）— 操作级别的经验，写成有 step 的 markdown 文件，下次按攻略执行。
第 3 件事：能主动触发学习（Nudge Engine）— 到了某个时间点/事件/轮次，强制提醒"该学习了"。
第 4 件事：能客观地复盘（Review Agent）— 专门 fork 一个独立 Agent 来复盘，它没有完成任务的执念，只看快照判断什么值得记。
## 闭环是怎么转起来的
任务执行 (主 Agent + Trajectory 落盘) → Nudge 触发 (轮数/事件/时间) → Review Agent fork (读 Trajectory，做判断) → 落盘 (Memory 加事实 / Skill 创建或 Patch) → 下次任务 (Prompt Assembly 把 Memory + Skill 拽进 system prompt) → 执行更顺、更快、更准 → 回到任务执行
这是一个真正意义上的反馈环 (feedback loop)。
## 为什么闭环必须包含"主动触发"
被动学习有个致命问题：用户大多数时候不会反馈。用户的诉求是"把活干完"，不是"教 Agent 怎么干得更好"。
Nudge Engine 解决的就是这件事 —— 不依赖用户反馈，到时间了/轮次了/事件了，Agent 自己提醒自己复盘。
## 为什么"复盘"必须由独立 Agent 来做
主 Agent 自己 review 的偏差："刚才这事我做得不错" → 不学；"刚才那步有点尴尬，先别提" → 不记；"用户没说不满意" → 不改。
独立 Review Agent 没有"我做得好"的滤镜，只看快照不看情绪，唯一任务就是判断"什么值得保存"。
## "进化速度"不是越快越好
Memory 是有上限的，新事实进来要挤旧事实。Skill 是有触发条件的，无关任务不会触发新 Skill。Review Agent 是会"否决"的，没价值的快照不会变成新内容。
好的自进化系统不是"无限学习一切"，是只学真正有复用价值的东西，并且持续修剪。
## 自进化的"反例"
反例 1：所有对话都进 Memory → 几小时就爆了，模型注意力被无关聊天淹没
反例 2：让模型 fine-tune 进基模 → 成本巨高，时延巨长，rollback 不可能
反例 3：用大向量库存历史，每次检索 → 检索精度不够，Skill 不适合用 embedding 召回
反例 4：让用户每次手动告诉 Agent 学了啥 → 用户 99% 不会写
## 自进化的"加速度"
第 1 周：每完成 5-6 个任务，沉淀 1 个 Skill
第 2 周：Skill 之间"互相调用"，新 Skill 站在已有 Skill 上构建
第 3 周：Memory 和 Skill 开始对照，发现过时事实，自动 patch 修订
第 4 周：Agent 先扫现有 Skill 再看有没有可借鉴的
学习不是线性的，是复利的。
## 自进化和"模型升级"是两件事
模型升级是 OpenAI/Anthropic 给你的能力上限。自进化是你的 Agent 在你这个特定环境下的"熟练度增长"。
Hermes 不试图改基模，它试图让你这个 Agent 在你这个用户、团队、项目里越来越好用。
## 我的看法
真正的"自进化"不是一项能力，是一种结构。是由 4 个独立角色 (Memory、Skill、Nudge、Review) 协作出来的反馈环。
每个角色单看都很简单，组合起来才产生"持续变强"的效果。
Memory ≈ 团队 wiki，Skill ≈ 流程 SOP，Nudge Engine ≈ 周会复盘提醒，Review Agent ≈ 同事 code review。
Hermes 的设计哲学，不是 AI 哲学，是组织学。