--- title: "长期运行的 Agent 怎么管:Hermes 治理分层与 5 张卡" source_url: "https://mp.weixin.qq.com/s/DsJvu1qSpS0tQlrrcn-pCg" author: "若飞" feed_name: "架构师(JiaGouX)" publish_date: 2026-06-01 created: 2026-06-01 ingested: 2026-06-01 tags: - hermes - agent - governance - memory - skills - gepa - wechat type: article review_value: 8 review_confidence: 8 review_recommendation: strong review_stars: 4 sha256: c75bc5552c059e09d6db4dd6d78b152ef4ca9cb3d788aec287d2c2ded2c1a1d1 --- # 长期运行的 Agent 怎么管:Hermes 治理分层与 5 张卡 > 来源:[架构师(JiaGouX)](https://mp.weixin.qq.com/s/DsJvu1qSpS0tQlrrcn-pCg)|作者:若飞|2026-06-01 ## 核心论点:don't automate slop 若飞重看 Hermes Agent 时,开篇引用 Shann 转述 Teknium 的话:"don't automate slop"——流程还没跑明白,先别急着让 Agent 把它自动化。一个松散的流程接上 Agent 后,不会自动变严谨,只会跑得更快、产物更多、问题更容易被推到后面。 这构成了整篇文章的 thesis:当 Agent 开始长期运行并自己积累记忆、流程和技能时,**问题不是它能不能做事,而是做久了以后现场还能不能被人看懂、接手和修正**。 ## 治理视角:四层 setup 反着看 Hermes 的官方扩展路径是"主 Agent → 专职 Agent → orchestrator → cron + 事件",若飞认为这条路径很顺但**不能照抄**。他主张**反着看**: - 越往后越热闹,越要先回头看第一层 - 规模会放大质量:质量好,规模是杠杆;质量差,规模就是麻烦 - 决定系统能否成立的,是最开始的窄场景验证 ### Level 1 四个验收点 在让 Agent 进入多 Agent 编排之前,主 Agent 必须先在窄场景里跑稳: 1. **输入是否稳定**——竞品扫描、X 列表、固定站点?输入每次都变,输出不稳并不奇怪 2. **输出谁来收**——摘要 / 风险点 / 引用原文 / 公众号素材?收件人不同,格式就不同 3. **失败怎么留下来**——这次没抓到哪些站点、哪些链接打不开、哪些判断只是推测 4. **哪些动作要人点头**——读文档可放开;发消息、改配置、删文件、创建 cron 要慢 这四个验收点不是"Agent 能力问题",是**准入流程问题**。没有这一关,cron + subagents 只会把半成品定时推过来,把模糊流程拆成几个模糊流程。 ## 记忆预算:少放进 prompt,其余按需取 若飞引用 witcheer 的对比:OpenClaw 像"存很多再搜索",Hermes 像"少放进 prompt,其余按需取"。这是两种记忆观: - **OpenClaw 思路**:让 Agent 记得越多越好(项目偏好、聊天历史、临时结论、用户习惯) - **Hermes 思路**:常驻层很小(MEMORY.md 2,200 字符、USER.md 1,375 字符,frozen snapshot 进入 system prompt),历史放到 SQLite + FTS5 的 session search ### 关键洞察:记忆更像预算,不像仓库 每写进一条长期记忆,都在花未来的: - 注意力预算 - 上下文预算 - 判断预算 旧项目里的偏好会影响新项目里的判断;一次救火时的临时绕路可能被写成长期经验;过期命令半年后又翻出来继续用——这些都是"记忆太多"的具体代价。 ### 四层信息隔离 身份、项目规则、长期记忆、历史检索**不是一类东西**,必须分开: | 层 | 机制 | 回答的问题 | Herms 载体 | |----|------|----------|------------| | 身份层 | 长期风格、语气、边界 | "这个 Agent 是谁" | SOUL.md | | 项目规则层 | 架构约定、命令、端口、部署 | "这个项目怎么做事" | AGENTS.md | | 长期记忆层 | 少量事实 | "哪些信息下次自动带上" | MEMORY.md / USER.md | | 历史检索层 | 会话存档 | "以前聊过什么,需要时再查" | session_search (SQLite + FTS5) | **反例**:把一次项目救火的临时命令写进身份层 → 下一次变成长期偏好;把团队规范塞进用户偏好 → 换项目带偏;把所有历史压进常驻记忆 → 模型每次背着旧包袱做新判断。 ## Skill 库治理:过程资产也会变旧 Skill 一旦变多,最怕的不是"没有",而是"很多但没人敢信": - 旧 Skill 不知道还能不能用 - 两个 Skill 做同一件事步骤却互相冲突 - 临时救火的 Skill 被长期复用 - 第三方 Skill 里有危险命令或悄悄扩大权限边界 ### Skill 准入标准(若飞版) - 没有明确触发条件 → 先不沉淀 - 没有输入边界 → 先不沉淀 - 没有验证方式 → 先不沉淀 - 会改系统状态、发消息、删东西 → 先过权限审查 ### Hermes Curator 的工程价值 Curator 并不炫——它只是后台看 agent-created skills 的使用情况: - 默认 30 天不用进入 stale - 默认 90 天不用归档 但这个机制承认了一件事:**过程资产也会变旧**。一个会创建资产的系统,如果不会让资产退场,最后一定会被自己的资产拖慢。 ## GEPA 边界:让改 Skill 有证据链 GEPA(hermes-agent-self-evolution)的核心价值不在"Agent 自己变强了",而在**让改 Skill 这件事有了证据链**: - 读取执行轨迹 - 分析失败原因 - 生成候选变体 - 经过评估 + 约束门 + PR review ### 当前实现边界 - **已实现**:Phase 1(Skill files) - **还在计划**:tool descriptions、system prompt sections、tool implementation code、continuous improvement loop ### 可信度判据 若飞明确表态:"我不会直接相信它'学会了'。我会先看它改了什么、为什么改、评估怎么跑、失败样本在哪、人怎么审、怎么回滚。" 这与 Claude Code 自我修复的思路一致——错误要能被看见,反馈要能进入流程,修改要经过测试、权限和人工 review。 ## 5 张卡:团队 Agent 工作流的自检框架 这是本文**最核心的原创贡献**。若飞把团队自己的 Agent 工作流分成 5 张卡(不一定真写 5 个文件,但脑子里要分开): | 卡 | 内容 | |----|------| | **身份卡** | 这个 Agent 长期是什么角色、哪些语气/偏好/边界不能被项目污染 | | **项目卡** | 当前仓库、业务、命令、端口、部署和验收规则 | | **记忆卡** | 少量长期事实,能进来,也能被修正 | | **Skill 卡** | 可复用流程,有触发条件、步骤、坑和验证 | | **运行卡** | cron、消息入口、权限、日志、trace、失败重试和回滚 | ### 自检问题(5 个) 1. 身份、项目规则、任务状态、历史档案、过程资产,是不是分开放了? 2. Memory 有没有写入门槛?几类信息更新频率和风险完全不同 3. Skill 有没有准入和退场?3 个月没人用是继续挂着还是降权/合并/归档? 4. 自动化有没有先过 Level 1?主 Agent 跑不稳就拆专职 Agent + cron 5. 团队能不能看见 Agent 做了什么?工具调用摘要、权限审批、日志、trace、diff、测试结果是"可信度仪表盘" ## 4 周试跑路径 若飞给出的落地路径: - **第 1 周**:只让一个主 Agent 跑窄场景(输入固定 + 输出固定),不急着写 Skill,先看哪里犯错 - **第 2 周**:只沉淀一个 Skill,写小一点(触发条件、来源、链接、推测、验证) - **第 3 周**:再考虑 cron,cron 只拉起任务不替人做最终判断 - **第 4 周**:再决定是否拆子 Agent,能拆的前提是边界已稳定 > "主 Agent 跑不稳,就不写 Skill。Skill 没验证,就不上 cron。cron 没跑出稳定结果,就不拆子 Agent。" ## 收束 若飞最后把 Hermes 重新定位为"把长期 Agent 会遇到的麻烦一次性摊开的样本": - 要有身份,但身份不能被项目规则污染 - 要有记忆,但记忆不能无限膨胀 - 要有 Skills,但 Skills 不能只增不减 - 要能自动化,但自动化不能放大低质量流程 - 要能改进自己,但每一次改进都要留下证据 文章结尾的提醒:"别把低质量流程自动化放大。先把一个 Agent 养稳。再让它长大。" ## 参考来源 - Akshay Pachaar 原文:https://x.com/akshay_pachaar/status/2054564519280804028 - Shann / Teknium Hermes 四层 setup:https://digg.com/ai/beogxlbm - witcheer memory 取舍:https://x.com/witcheer/status/2035024543526359134 - Haseeb 迁移 Hermes 反馈:https://x.com/hosseeb/status/2043467761024942567 - Hermes 官方文档:https://hermes-agent.nousresearch.com/docs/ - Hermes Memory:https://hermes-agent.nousresearch.com/docs/user-guide/features/memory - Hermes Skills:https://hermes-agent.nousresearch.com/docs/user-guide/features/skills - Hermes Curator:https://hermes-agent.nousresearch.com/docs/user-guide/features/curator - Hermes SOUL.md / Personality:https://hermes-agent.nousresearch.com/docs/user-guide/features/personality - Hermes Security:https://hermes-agent.nousresearch.com/docs/user-guide/security - hermes-agent-self-evolution:https://github.com/NousResearch/hermes-agent-self-evolution - GEPA:https://github.com/gepa-ai/gepa