--- title: "Prompt Context Harness 三次演进" source: "" tags: [prompt, context, harness, evolution] created: 2026-05-20 sha256: 2b2e36f7196ce55192b0305fea5ecc5652f4e832b456bbf063d3b396cac75fb4 --- --- # 从Prompt、Context到Harness,工程的三次进化与终局之战 > 原文:[从Prompt、Context到Harness,工程的三次进化与终局之战](https://mp.weixin.qq.com/s/b1VL28GX5d17sKPfkSbIsw) > 作者:李伟山 > 来源:腾讯云开发者 > 日期:2026-05-20 ## 核心洞察 **OpenAI 内部实验**:3-7人团队,5个月,AI生成近**100万行**生产级代码。全程没有工程师手写业务代码。 **三次进化的核心问题**: | 阶段 | 回答什么问题 | |------|------------| | Prompt Engineering | "我该跟模型说什么?" | | Context Engineering | "模型在回答时该知道什么?" | | Harness Engineering | "整个AI系统该如何可靠地运转?" | ## 第一层:Prompt Engineering **本质**:加约束的过程。大语言模型的底层逻辑是续写——"最有可能出现"不等于"真正想要"。 **技术武器库**:零样本提示、少样本提示、思维链(CoT)、角色扮演、提示链(Prompt Chaining)。 **繁荣与衰退**:2023-2024年Prompt Engineer炙手可热。但GPT-4/Claude 3后,模型语言理解能力足够强,写好Prompt的边际效益显著降低。 更深层问题浮现:即使模型听懂了,依然会给出错误答案——因为它根本不知道关键上下文。 ## 第二层:Context Engineering **核心比喻:金鱼助理**。记忆只有7秒,每次要从零建立对你情况的了解。解决方案:每次见面前把关键信息整理成简报递给他。 **上下文窗口包含的层次**:System Prompt、对话历史、检索知识、工具描述等。Token空间有限,各层争夺注意力。 **关键技术**: - **RAG(检索增强生成)**:不存知识,存索引。需要什么,临时去检索精准注入。 - **上下文压缩**:滚动摘要、重要性评分、层次记忆(短/长期) - **单一事实来源(Single Source of Truth)**:所有决策、规范、文档强制归档进代码仓库,确保AI信息来源唯一 ## 第三层:Harness Engineering **Harness = 马具**。没有马具的马骑起来横冲直撞,套上马具才能指哪打哪。 **公式**:`Agent = LLM + Harness` Harness = **工具** + **验证** + **反馈** + **约束** ## OpenAI百万行代码实验 **实验结果**:5个月,3-7人团队,AI生成近100万行生产级代码,效率约为纯人工的**10倍**。 **初期问题**:Agent频繁跑偏、反复犯同类错误。 **三大Harness策略**: | 策略 | 问题 | 解决方案 | |------|------|---------| | 上下文治理 | 巨型agent.md导致Agent什么都抓不住重点 | 压缩至百行只保留索引;强制所有决策迁移至代码仓库 | | 验证闭环 | Agent声称测试通过但根本没运行 | Chrome DevTools截图验证UI + 可观测性工具 + Lint+自动化测试 | | 技术债清理 | 重复命名、风格不一致、废弃文档 | 后台Codex任务定期扫描修复,像垃圾回收一样 | ## Anthropic F-Harness **发现**:AI倾向于给自己的Bug打高分("自恋问题")。 **F-Harness三角色**: - **Planner**:将模糊需求拆解为精细功能列表,解决"中途迷失"问题 - **Generator**:按功能列表逐项执行,完成一项才标记一项 - **Evaluator**:独立第三方审核,与Generator完全独立,不受生成偏见影响 **质量对比**: | 维度 | 单Agent模式 | F-Harness三Agent模式 | |------|------------|---------------------| | 耗时 | ~20分钟 | ~6小时 | | 成本 | ~$9 | ~$200 | | 输出质量 | 逻辑残缺,勉强可用 | 生产环境级别,逻辑完整 | **20倍时间代价,22倍成本代价,换来质的飞跃。** ## 三层嵌套关系 > **最大的误解**:认为Harness Engineering最高级,前两个过时了。 三者之间是**层层包裹、相互依存的嵌套关系**: - 没有好的Prompt,Context注入的信息无法被正确理解 - 没有好的Context,Harness的Agent在信息真空中瞎跑 - 没有好的Harness,再好的Prompt和Context只是沙滩上的城堡 ## Harness衰变定律 > **模型能力越强,所需的Harness越简单。** Claude 3.0时代,需要极严格的Harness约束:逐个功能点执行、频繁重置上下文、大量硬编码检查规则。 Claude 3.5升级后,全局统筹能力、长上下文处理能力和自我校验能力大幅提升,许多 Harness规则自然变得不再必要。 **两层含义**: 1. **当下现实**:Harness是让AI系统在生产环境可靠运行的**必要条件** 2. **过渡性**:随着模型能力提升,今天需要精心设计的许多Harness规则未来会被自然吸收 **实践建议**:精力集中在两类场景: - 模型短期内无法通过自身能力解决的**业务逻辑边界**(行业规则、合规要求) - 即使模型能力再强也无法自行建立的**外部环境接口**(工具调用、API集成、权限控制) ## Human Steer, Agents Execute OpenAI提出的时代工程哲学: - **定方向(Steering)**:清楚知道要建什么、为什么建、最终形态是什么 - **搭架子(Harnessing)**:为Agent构建可靠的运行支架 - **做判别(Decision Making)**:在关键架构决策点进行人工干预 **新衡量标准**: | 过去 | 新 | |------|-----| | 每天能写多少行代码 | Harness能支撑多高的代码产出率 | | 能实现多复杂的业务逻辑 | 能设计多健壮的Agent系统 | | 能处理多难的Bug | 能构建多完善的自动闭环机制 | | 个人产出 | 系统杠杆 | ## 实践路线图 1. **打牢Prompt基础,但不要执着于它**:思维链、角色设定、结构化输出 2. **系统学习Context Engineering**:RAG设计、上下文窗口管理、记忆系统、知识库治理 3. **从系统视角思考Agent设计**:哪里可能跑偏?如何建立验证闭环?单Agent还是多Agent? 4. **培养动态Harness思维**:持续问自己"这个约束是因为模型能力不足,还是业务逻辑本身需要?" --- ## 来源 - 李伟山,"从Prompt、Context到Harness,工程的三次进化与终局之战",腾讯云开发者,2026-05-20