---
title: "Loop Engineering，从 Prompt 工程师到 Loop 架构师的 14 步路线图"
source_url: https://mp.weixin.qq.com/s/QyqtI_Oe72DP2u1IpXJMaA
publish_date: 2026-06-16
tags: [wechat, article, loop-engineering, harness, claude-code, codex, addy-osmani, 14-step-roadmap, 4-condition-test, 30-second-checklist, evaluator, three-tier-decision, ai-techliwen, route-map, 路线图]
review_value: 7
review_confidence: 7
review_recommendation: ingest
sha256: bbb08a2cb03b74a21db603ef7e33f7828d6e6e46bac74e206174676743d9e577
---
# Loop Engineering，从 Prompt 工程师到 Loop 架构师的 14 步路线图

> Source: https://mp.weixin.qq.com/s/QyqtI_Oe72DP2u1IpXJMaA
> Author: AI技术立文 (浙江)
> Date: 2026-06-16 12:31
> Collected: 2026-06-16

## 一句话总结

**14 步路线图 = 3 层级**：先判断你是否真的需要循环（4 条件测试 + 30 秒检查清单）→ 再学习 5 个核心模块（自动化 / 工作区 / 验证 / 记忆 / 调度）→ 最后构建最小可用循环。来源：Anthropic 工程文档 + Addy Osmani + 近期效能研究。

## 开篇定调

> "十个开发者里有九个，从未写过一个替自己向 Agent 发送提示词的循环。"
> "杠杆点已经转移了，从'写提示词'变成了'设计一套替你写提示词的系统'。"

Anthropic 工程师每天合并的代码量是 2024 年的八倍（**Anthropic 自己承认"几乎肯定夸大了真实的生产力提升"**）。数字有争议，机制没有争议：**杠杆点已从写提示词，转移到设计发送提示词的循环上**。

## 第一部分：先判断你该不该做循环

### 01. 循环 = 系统取代你写提示词

Addy Osmani 六组成部分：触发器 / 工作区 / 规则 / 连接器 / 验证者 / 记忆。

### 02. 4 条件测试（缺一不可）

- **任务重复**：搭建成本需多次运行摊薄，一次性任务用 prompt 更快
- **验证可自动化**：测试 / 类型检查 / Linter / 构建——没有自动门禁 = Agent 自我评分
- **Token 预算扛得住浪费**：循环反复读上下文、重试、探索——消费级套餐需评估
- **Agent 有高级工程师工具链**：日志 / 可复现环境 / 运行自己代码看错误

### 03. 谁赢谁输：循环偏爱有预算的人

**受益**：
- 有重复性 + 机器可检查工作 + 有预算的团队
- 测试套件完善的代码库（初级工程师按清单能完成 + 测试能覆盖错误）
- 已在用多 Agent 异步协作的团队

**跳过**：
- 消费级套餐独立开发者（Token 账单到得比生产力提升快）
- 缺乏自动验证的代码库（Agent 反复确认自己产出 = 无纠错）
- 瓶颈在 code review 而非编码速度的团队

### 04. 30 秒循环检查清单（5 条任一不过 = 继续手写 prompt）

1. 任务至少**每周发生一次**
2. 测试 / 类型检查 / 构建 / Linter 能**自动否决**不合格产出
3. Agent **能运行自己修改的代码**
4. 循环有**硬性终止条件**（Token 预算 / 迭代上限 / 时间限制）
5. 合并 / 部署 / 依赖变更前**必须有人审核**

**好的第一个循环**：CI 失败分诊 / 依赖升级 PR / Lint 修复 / Flaky 测试复现 / Issue 转 PR 草稿

**不适合做第一个循环**：架构重写 / 认证或支付代码 / 生产环境部署 / 模糊的产品需求 / "完成"需主观判断的工作

## 第二部分：5 个核心模块

### 05. 自动化：心跳

- **Codex**：Automations 面板配置（项目 / 提示词 / 频率 / 本地签出或 worktree），有发现进 Triage，无发现自动归档
- **Claude Code**：`/loop`（会话级定时） + 桌面端定时（重启后存活） + Routines（离线云端运行） + hooks（生命周期事件）

**两个关键原语**：
- `/loop`：固定频率重复
- `cron`：固定时间触发

### 06. 工作区：隔离（待补充完整内容）

### 07. 验证：能说"不"的机制

**三种验证形态**：
- 编译验证：类型 / Lint / 构建
- 测试验证：单元 / 集成 / E2E
- 行为验证：截图比对 / Playwright 真实运行

### 08. 记忆：plan.md / SPEC

**两种状态文件**：
- `plan.md`：当前目标 / 已尝试 / 已验证 / 禁止 / 下一步（与若飞第 4 来源 5 段式完全对应）
- `SPEC.md`：目标 + 验收标准 + 边界条件

### 09. 调度：从发现到行动的管道

**调度三要素**：
- 触发器（何时）
- 输入边界（什么算完成）
- 输出路由（送到哪里）

## 第三部分：构建最小可用循环

### 10-14. 5 步搭建法（待补充完整内容）

> 备注：本文是 14 步路线图的"教学地图"性质，**不提供具体创新**，而是把现有 6 来源的核心概念（Addy 5 模块 / 4 条件测试 / 5 部件最小结构 / plan.md 状态记忆 / 30 秒检查清单）**重新组织为 14 步渐进路线**。价值是**教学清晰度**而非新洞见——可作为新人入门 Loop Engineering 的"导读地图"。

## 与已有 6 来源的关系

| 来源 | 定位 | 本文相对位置 |
|------|------|------------|
| 第 1（Addy 2026-06-07） | 概念框架 + 5 模块 | **被本文的 5 核心模块部分引用** |
| 第 2（InfoQ Boris+Peter） | 事件报道 + Claude Code Loops 规格 | **被本文的 Claude Code /loop 引用** |
| 第 3（微信公众号教科书） | 4 阶段谱系 + 6 模块 | **被本文的 5 核心模块引用** |
| 第 4（若飞 6/11 工程现场） | 5 项准入表 + 7 天试点 | **本文的 4 条件测试 = 若飞 5 项准入表的精简版** |
| 第 5（TechFarrari） | 批判视角 + 跨域应用 | **未引用，但本文的"30 秒检查清单"是反方建议的可操作版本** |
| 第 6（若飞 6/15 实用指南） | 6 部件 + 3 类型 + 18 字段 + 4 预算 | **被本文的"调度 / 验证 / 记忆"等模块部分引用** |
| **第 7（本篇 AI技术立文 14 步路线图）** | **教学地图 + 渐进路线** | **从 0 到 1 的入门导读** |

## 关键独到判断

- **14 步 = 0 到 1 入门地图**：前 6 来源分布在不同深度，第 7 来源是把它们**按学习顺序串成一条路线**——这是 Loop Engineering 主题的"教学化整合"
- **30 秒检查清单 = 工程伦理落地**：把"什么不该做"从"反方批判"变成"5 条可勾选检查项"
- **4 条件测试 vs 5 项准入表**：若飞的 5 项 = 4 条件 + "权限可隔离"——本文的 4 条件更适合新手判断，若飞的 5 项更适合工程现场
- **教学价值 > 创新价值**：本文价值在**导读与渐进**，不在新洞见

## 反方警示

- Anthropic 自己承认"代码合并量 8×" **几乎肯定夸大**——本文没有批判这数字
- 47 轮 loop 状态空间崩溃（多来源独立提及）——本文**未涉及**（这是 5 类试点场景应警惕的最大工程瓶颈）
- Token 成本量化（单 Agent 5-20 万 / Fleet 50-200 万 / 数百万/周）——本文的"Token 预算扛得住浪费"只是定性判断，**未给具体数字**

→ 提示：本文适合**给未接触过 Loop Engineering 的工程师读入门**，深度使用应回到第 4 / 6 来源（若飞）。