--- title: "Loop Engineering,从 Prompt 工程师到 Loop 架构师的 14 步路线图" source_url: https://mp.weixin.qq.com/s/QyqtI_Oe72DP2u1IpXJMaA publish_date: 2026-06-16 tags: [wechat, article, loop-engineering, harness, claude-code, codex, addy-osmani, 14-step-roadmap, 4-condition-test, 30-second-checklist, evaluator, three-tier-decision, ai-techliwen, route-map, 路线图] review_value: 7 review_confidence: 7 review_recommendation: ingest sha256: bbb08a2cb03b74a21db603ef7e33f7828d6e6e46bac74e206174676743d9e577 --- # Loop Engineering,从 Prompt 工程师到 Loop 架构师的 14 步路线图 > Source: https://mp.weixin.qq.com/s/QyqtI_Oe72DP2u1IpXJMaA > Author: AI技术立文 (浙江) > Date: 2026-06-16 12:31 > Collected: 2026-06-16 ## 一句话总结 **14 步路线图 = 3 层级**:先判断你是否真的需要循环(4 条件测试 + 30 秒检查清单)→ 再学习 5 个核心模块(自动化 / 工作区 / 验证 / 记忆 / 调度)→ 最后构建最小可用循环。来源:Anthropic 工程文档 + Addy Osmani + 近期效能研究。 ## 开篇定调 > "十个开发者里有九个,从未写过一个替自己向 Agent 发送提示词的循环。" > "杠杆点已经转移了,从'写提示词'变成了'设计一套替你写提示词的系统'。" Anthropic 工程师每天合并的代码量是 2024 年的八倍(**Anthropic 自己承认"几乎肯定夸大了真实的生产力提升"**)。数字有争议,机制没有争议:**杠杆点已从写提示词,转移到设计发送提示词的循环上**。 ## 第一部分:先判断你该不该做循环 ### 01. 循环 = 系统取代你写提示词 Addy Osmani 六组成部分:触发器 / 工作区 / 规则 / 连接器 / 验证者 / 记忆。 ### 02. 4 条件测试(缺一不可) - **任务重复**:搭建成本需多次运行摊薄,一次性任务用 prompt 更快 - **验证可自动化**:测试 / 类型检查 / Linter / 构建——没有自动门禁 = Agent 自我评分 - **Token 预算扛得住浪费**:循环反复读上下文、重试、探索——消费级套餐需评估 - **Agent 有高级工程师工具链**:日志 / 可复现环境 / 运行自己代码看错误 ### 03. 谁赢谁输:循环偏爱有预算的人 **受益**: - 有重复性 + 机器可检查工作 + 有预算的团队 - 测试套件完善的代码库(初级工程师按清单能完成 + 测试能覆盖错误) - 已在用多 Agent 异步协作的团队 **跳过**: - 消费级套餐独立开发者(Token 账单到得比生产力提升快) - 缺乏自动验证的代码库(Agent 反复确认自己产出 = 无纠错) - 瓶颈在 code review 而非编码速度的团队 ### 04. 30 秒循环检查清单(5 条任一不过 = 继续手写 prompt) 1. 任务至少**每周发生一次** 2. 测试 / 类型检查 / 构建 / Linter 能**自动否决**不合格产出 3. Agent **能运行自己修改的代码** 4. 循环有**硬性终止条件**(Token 预算 / 迭代上限 / 时间限制) 5. 合并 / 部署 / 依赖变更前**必须有人审核** **好的第一个循环**:CI 失败分诊 / 依赖升级 PR / Lint 修复 / Flaky 测试复现 / Issue 转 PR 草稿 **不适合做第一个循环**:架构重写 / 认证或支付代码 / 生产环境部署 / 模糊的产品需求 / "完成"需主观判断的工作 ## 第二部分:5 个核心模块 ### 05. 自动化:心跳 - **Codex**:Automations 面板配置(项目 / 提示词 / 频率 / 本地签出或 worktree),有发现进 Triage,无发现自动归档 - **Claude Code**:`/loop`(会话级定时) + 桌面端定时(重启后存活) + Routines(离线云端运行) + hooks(生命周期事件) **两个关键原语**: - `/loop`:固定频率重复 - `cron`:固定时间触发 ### 06. 工作区:隔离(待补充完整内容) ### 07. 验证:能说"不"的机制 **三种验证形态**: - 编译验证:类型 / Lint / 构建 - 测试验证:单元 / 集成 / E2E - 行为验证:截图比对 / Playwright 真实运行 ### 08. 记忆:plan.md / SPEC **两种状态文件**: - `plan.md`:当前目标 / 已尝试 / 已验证 / 禁止 / 下一步(与若飞第 4 来源 5 段式完全对应) - `SPEC.md`:目标 + 验收标准 + 边界条件 ### 09. 调度:从发现到行动的管道 **调度三要素**: - 触发器(何时) - 输入边界(什么算完成) - 输出路由(送到哪里) ## 第三部分:构建最小可用循环 ### 10-14. 5 步搭建法(待补充完整内容) > 备注:本文是 14 步路线图的"教学地图"性质,**不提供具体创新**,而是把现有 6 来源的核心概念(Addy 5 模块 / 4 条件测试 / 5 部件最小结构 / plan.md 状态记忆 / 30 秒检查清单)**重新组织为 14 步渐进路线**。价值是**教学清晰度**而非新洞见——可作为新人入门 Loop Engineering 的"导读地图"。 ## 与已有 6 来源的关系 | 来源 | 定位 | 本文相对位置 | |------|------|------------| | 第 1(Addy 2026-06-07) | 概念框架 + 5 模块 | **被本文的 5 核心模块部分引用** | | 第 2(InfoQ Boris+Peter) | 事件报道 + Claude Code Loops 规格 | **被本文的 Claude Code /loop 引用** | | 第 3(微信公众号教科书) | 4 阶段谱系 + 6 模块 | **被本文的 5 核心模块引用** | | 第 4(若飞 6/11 工程现场) | 5 项准入表 + 7 天试点 | **本文的 4 条件测试 = 若飞 5 项准入表的精简版** | | 第 5(TechFarrari) | 批判视角 + 跨域应用 | **未引用,但本文的"30 秒检查清单"是反方建议的可操作版本** | | 第 6(若飞 6/15 实用指南) | 6 部件 + 3 类型 + 18 字段 + 4 预算 | **被本文的"调度 / 验证 / 记忆"等模块部分引用** | | **第 7(本篇 AI技术立文 14 步路线图)** | **教学地图 + 渐进路线** | **从 0 到 1 的入门导读** | ## 关键独到判断 - **14 步 = 0 到 1 入门地图**:前 6 来源分布在不同深度,第 7 来源是把它们**按学习顺序串成一条路线**——这是 Loop Engineering 主题的"教学化整合" - **30 秒检查清单 = 工程伦理落地**:把"什么不该做"从"反方批判"变成"5 条可勾选检查项" - **4 条件测试 vs 5 项准入表**:若飞的 5 项 = 4 条件 + "权限可隔离"——本文的 4 条件更适合新手判断,若飞的 5 项更适合工程现场 - **教学价值 > 创新价值**:本文价值在**导读与渐进**,不在新洞见 ## 反方警示 - Anthropic 自己承认"代码合并量 8×" **几乎肯定夸大**——本文没有批判这数字 - 47 轮 loop 状态空间崩溃(多来源独立提及)——本文**未涉及**(这是 5 类试点场景应警惕的最大工程瓶颈) - Token 成本量化(单 Agent 5-20 万 / Fleet 50-200 万 / 数百万/周)——本文的"Token 预算扛得住浪费"只是定性判断,**未给具体数字** → 提示:本文适合**给未接触过 Loop Engineering 的工程师读入门**,深度使用应回到第 4 / 6 来源(若飞)。