--- title: hermes-self-improving-overview-winty source_url: https://mp.weixin.qq.com/s/KJwNgGFBXGUzjwCi2jMLwg publish_date: 2026-05-12 tags: [wechat, article, openai, agent, rag] review_value: 7 review_confidence: 7 review_recommendation: neutral sha256: 8ad11e2d3ed96a7b75ec4ae8d1e5ab0a7dfdf7bd0761641a68396c767e2d4fbb --- 点击上方 前端Q,关注公众号 回复加群,加入前端Q技术交流群 我跟很多做 Agent 的朋友聊过一个话题:Agent 真的能"自我进化"吗? 大家给的答案多半是: ▸ "可以啊,模型越来越强嘛" ▸ "可以啊,prompt 越调越好啊" ▸ "可以啊,加点 RAG 不就行了" 听起来好像都对。但你仔细一想会发现,这些都是外部在帮 Agent 变强,不是 Agent 自己在变强。 模型迭代是 OpenAI 的事,prompt 调优是工程师的事,RAG 是知识库的事。Agent 自己呢?它一直在原地,每次任务都从零开始。 Hermes 的"Self-Improving"不一样。它说的是:Agent 自己能从工作中学到东西,自己写下来,自己下次复用,自己持续修补。 整个闭环不依赖人,也不依赖模型升级。 这一篇我把这个闭环拆开讲清楚。 ## 先给"自进化"做一个工程定义 同一个用户,让同一个 Agent,在不同时间点做同类任务,后做的明显比先做的更准更快。 三个关键词: - 同一个用户:排除 prompt 优化的影响 - 同一个 Agent 实例:排除模型版本升级的影响 - 同类任务:排除任务难度变化的影响 按这个标准,市面上 95% 的 Agent 不算自进化。Hermes 算。 ## 自进化要靠 4 件事配合 第 1 件事:能记住事(Memory)— 事实级别的认知,写到 markdown 文件里,下次自动加载到 system prompt。 第 2 件事:能沉淀做法(Skill)— 操作级别的经验,写成有 step 的 markdown 文件,下次按攻略执行。 第 3 件事:能主动触发学习(Nudge Engine)— 到了某个时间点/事件/轮次,强制提醒"该学习了"。 第 4 件事:能客观地复盘(Review Agent)— 专门 fork 一个独立 Agent 来复盘,它没有完成任务的执念,只看快照判断什么值得记。 ## 闭环是怎么转起来的 任务执行 (主 Agent + Trajectory 落盘) → Nudge 触发 (轮数/事件/时间) → Review Agent fork (读 Trajectory,做判断) → 落盘 (Memory 加事实 / Skill 创建或 Patch) → 下次任务 (Prompt Assembly 把 Memory + Skill 拽进 system prompt) → 执行更顺、更快、更准 → 回到任务执行 这是一个真正意义上的反馈环 (feedback loop)。 ## 为什么闭环必须包含"主动触发" 被动学习有个致命问题:用户大多数时候不会反馈。用户的诉求是"把活干完",不是"教 Agent 怎么干得更好"。 Nudge Engine 解决的就是这件事 —— 不依赖用户反馈,到时间了/轮次了/事件了,Agent 自己提醒自己复盘。 ## 为什么"复盘"必须由独立 Agent 来做 主 Agent 自己 review 的偏差:"刚才这事我做得不错" → 不学;"刚才那步有点尴尬,先别提" → 不记;"用户没说不满意" → 不改。 独立 Review Agent 没有"我做得好"的滤镜,只看快照不看情绪,唯一任务就是判断"什么值得保存"。 ## "进化速度"不是越快越好 Memory 是有上限的,新事实进来要挤旧事实。Skill 是有触发条件的,无关任务不会触发新 Skill。Review Agent 是会"否决"的,没价值的快照不会变成新内容。 好的自进化系统不是"无限学习一切",是只学真正有复用价值的东西,并且持续修剪。 ## 自进化的"反例" 反例 1:所有对话都进 Memory → 几小时就爆了,模型注意力被无关聊天淹没 反例 2:让模型 fine-tune 进基模 → 成本巨高,时延巨长,rollback 不可能 反例 3:用大向量库存历史,每次检索 → 检索精度不够,Skill 不适合用 embedding 召回 反例 4:让用户每次手动告诉 Agent 学了啥 → 用户 99% 不会写 ## 自进化的"加速度" 第 1 周:每完成 5-6 个任务,沉淀 1 个 Skill 第 2 周:Skill 之间"互相调用",新 Skill 站在已有 Skill 上构建 第 3 周:Memory 和 Skill 开始对照,发现过时事实,自动 patch 修订 第 4 周:Agent 先扫现有 Skill 再看有没有可借鉴的 学习不是线性的,是复利的。 ## 自进化和"模型升级"是两件事 模型升级是 OpenAI/Anthropic 给你的能力上限。自进化是你的 Agent 在你这个特定环境下的"熟练度增长"。 Hermes 不试图改基模,它试图让你这个 Agent 在你这个用户、团队、项目里越来越好用。 ## 我的看法 真正的"自进化"不是一项能力,是一种结构。是由 4 个独立角色 (Memory、Skill、Nudge、Review) 协作出来的反馈环。 每个角色单看都很简单,组合起来才产生"持续变强"的效果。 Memory ≈ 团队 wiki,Skill ≈ 流程 SOP,Nudge Engine ≈ 周会复盘提醒,Review Agent ≈ 同事 code review。 Hermes 的设计哲学,不是 AI 哲学,是组织学。