---
title: "Prompt Context Harness 三次演进"
source: ""
tags: [prompt, context, harness, evolution]
created: 2026-05-20
sha256: 2b2e36f7196ce55192b0305fea5ecc5652f4e832b456bbf063d3b396cac75fb4
---
---
# 从Prompt、Context到Harness，工程的三次进化与终局之战
> 原文：[从Prompt、Context到Harness，工程的三次进化与终局之战](https://mp.weixin.qq.com/s/b1VL28GX5d17sKPfkSbIsw)  
> 作者：李伟山  
> 来源：腾讯云开发者  
> 日期：2026-05-20  
## 核心洞察
**OpenAI 内部实验**：3-7人团队，5个月，AI生成近**100万行**生产级代码。全程没有工程师手写业务代码。
**三次进化的核心问题**：
| 阶段 | 回答什么问题 |
|------|------------|
| Prompt Engineering | "我该跟模型说什么？" |
| Context Engineering | "模型在回答时该知道什么？" |
| Harness Engineering | "整个AI系统该如何可靠地运转？" |
## 第一层：Prompt Engineering
**本质**：加约束的过程。大语言模型的底层逻辑是续写——"最有可能出现"不等于"真正想要"。
**技术武器库**：零样本提示、少样本提示、思维链（CoT）、角色扮演、提示链（Prompt Chaining）。
**繁荣与衰退**：2023-2024年Prompt Engineer炙手可热。但GPT-4/Claude 3后，模型语言理解能力足够强，写好Prompt的边际效益显著降低。
更深层问题浮现：即使模型听懂了，依然会给出错误答案——因为它根本不知道关键上下文。
## 第二层：Context Engineering
**核心比喻：金鱼助理**。记忆只有7秒，每次要从零建立对你情况的了解。解决方案：每次见面前把关键信息整理成简报递给他。
**上下文窗口包含的层次**：System Prompt、对话历史、检索知识、工具描述等。Token空间有限，各层争夺注意力。
**关键技术**：
- **RAG（检索增强生成）**：不存知识，存索引。需要什么，临时去检索精准注入。
- **上下文压缩**：滚动摘要、重要性评分、层次记忆（短/长期）
- **单一事实来源（Single Source of Truth）**：所有决策、规范、文档强制归档进代码仓库，确保AI信息来源唯一
## 第三层：Harness Engineering
**Harness = 马具**。没有马具的马骑起来横冲直撞，套上马具才能指哪打哪。
**公式**：`Agent = LLM + Harness`
Harness = **工具** + **验证** + **反馈** + **约束**
## OpenAI百万行代码实验
**实验结果**：5个月，3-7人团队，AI生成近100万行生产级代码，效率约为纯人工的**10倍**。
**初期问题**：Agent频繁跑偏、反复犯同类错误。
**三大Harness策略**：
| 策略 | 问题 | 解决方案 |
|------|------|---------|
| 上下文治理 | 巨型agent.md导致Agent什么都抓不住重点 | 压缩至百行只保留索引；强制所有决策迁移至代码仓库 |
| 验证闭环 | Agent声称测试通过但根本没运行 | Chrome DevTools截图验证UI + 可观测性工具 + Lint+自动化测试 |
| 技术债清理 | 重复命名、风格不一致、废弃文档 | 后台Codex任务定期扫描修复，像垃圾回收一样 |
## Anthropic F-Harness
**发现**：AI倾向于给自己的Bug打高分（"自恋问题"）。
**F-Harness三角色**：
- **Planner**：将模糊需求拆解为精细功能列表，解决"中途迷失"问题
- **Generator**：按功能列表逐项执行，完成一项才标记一项
- **Evaluator**：独立第三方审核，与Generator完全独立，不受生成偏见影响
**质量对比**：
| 维度 | 单Agent模式 | F-Harness三Agent模式 |
|------|------------|---------------------|
| 耗时 | ~20分钟 | ~6小时 |
| 成本 | ~$9 | ~$200 |
| 输出质量 | 逻辑残缺，勉强可用 | 生产环境级别，逻辑完整 |
**20倍时间代价，22倍成本代价，换来质的飞跃。**
## 三层嵌套关系
> **最大的误解**：认为Harness Engineering最高级，前两个过时了。
三者之间是**层层包裹、相互依存的嵌套关系**：
- 没有好的Prompt，Context注入的信息无法被正确理解
- 没有好的Context，Harness的Agent在信息真空中瞎跑
- 没有好的Harness，再好的Prompt和Context只是沙滩上的城堡
## Harness衰变定律
> **模型能力越强，所需的Harness越简单。**
Claude 3.0时代，需要极严格的Harness约束：逐个功能点执行、频繁重置上下文、大量硬编码检查规则。
Claude 3.5升级后，全局统筹能力、长上下文处理能力和自我校验能力大幅提升，许多 Harness规则自然变得不再必要。
**两层含义**：
1. **当下现实**：Harness是让AI系统在生产环境可靠运行的**必要条件**
2. **过渡性**：随着模型能力提升，今天需要精心设计的许多Harness规则未来会被自然吸收
**实践建议**：精力集中在两类场景：
- 模型短期内无法通过自身能力解决的**业务逻辑边界**（行业规则、合规要求）
- 即使模型能力再强也无法自行建立的**外部环境接口**（工具调用、API集成、权限控制）
## Human Steer, Agents Execute
OpenAI提出的时代工程哲学：
- **定方向（Steering）**：清楚知道要建什么、为什么建、最终形态是什么
- **搭架子（Harnessing）**：为Agent构建可靠的运行支架
- **做判别（Decision Making）**：在关键架构决策点进行人工干预
**新衡量标准**：
| 过去 | 新 |
|------|-----|
| 每天能写多少行代码 | Harness能支撑多高的代码产出率 |
| 能实现多复杂的业务逻辑 | 能设计多健壮的Agent系统 |
| 能处理多难的Bug | 能构建多完善的自动闭环机制 |
| 个人产出 | 系统杠杆 |
## 实践路线图
1. **打牢Prompt基础，但不要执着于它**：思维链、角色设定、结构化输出
2. **系统学习Context Engineering**：RAG设计、上下文窗口管理、记忆系统、知识库治理
3. **从系统视角思考Agent设计**：哪里可能跑偏？如何建立验证闭环？单Agent还是多Agent？
4. **培养动态Harness思维**：持续问自己"这个约束是因为模型能力不足，还是业务逻辑本身需要？"
---
## 来源
- 李伟山，"从Prompt、Context到Harness，工程的三次进化与终局之战"，腾讯云开发者，2026-05-20