--- title: Anthropic 实战分享:如何让 AI Agent 持续工作几天? author: xiaojianke(进化 AI 实验室) date: 2026-05-19 source: https://mp.weixin.qq.com/s/NNbzBdc4SkxoWIuUdqPcFA rating: 8.0 confidence: 8.0 review_value: 64 review_confidence: true tags: [agent, anthropic, Claude, long-running, adversarial-architecture, evaluation] abstract: Anthropic 工程师分享长时运行 Agent 架构——三大失败根因(上下文焦虑/规划缺陷/自我评判)+ Agent SDK 结构化管理 + GAN 风格对抗式架构 + 合同谈判机制 + 审美量化 + 6小时 RetroForge 案例 + 5条实战建议。 sha256: b14139792c51db9e2890e3d99b381ffa08a8b94bfd180d7d9d7289c069aa4d24 --- --- # Anthropic 实战分享:如何让 AI Agent 持续工作几天? > 进化 AI 实验室 | 2026-05-19 | 安徽 一年前,Claude 连写个 Bash 命令和转义字符串都费劲,每次任务顶多运行约 20 分钟;而现在,Claude Code 几乎所有的代码都是由它自己编写,且能有效运行数天。 ——Boris(Claude Code 之父) 在极简架构下,Agent 自主完成任务的连续运行时间,已经从一年前的 1 小时(Opus 3.7)提升到了现在的 12 小时(Opus 4.6)。仅仅一年左右,提升了 **10 倍以上**。 ## 为什么让 Agent 长时间运行这么难? Andrew 将这些失败归纳为三个工程问题: ### 1. 上下文(Context) 大语言模型拥有有限的注意力。随着会话推进,各种依赖关系层层叠加,智能体的逻辑连贯性会逐渐下降。当 Token 消耗接近上限时,模型会表现出一种「**上下文焦虑**」——它为了强行结束对话,会开始草率收尾并故意忽略技术细节。 ### 2. 规划(Planning) 基础模型在面对长周期任务时,很难自发进行多步规划。它们要么尝试一次性写完所有代码,要么在执行中途突然停滞,留下一个无法运行的半成品。 ### 3. 自我评判(Self-judgment) 模型并不擅长评判自己的工作。在软件开发中,它往往觉得自己写出的东西看起来挺美,就直接汇报说「任务已完成」,哪怕背后的逻辑根本没通。 ## Agent SDK:结构化管理 Anthropic 开发了一套 Agent SDK,核心思想是:**不要让模型在单一对话中裸奔,而是给它搭建一套结构化的管理系统**。 ``` +-------------------------------------------------------------+ | AGENT SDK | +-------------------------------------------------------------+ | [核心智能体循环] <---> [MCP 服务器工具] | | | | | +---> [子智能体委派系统] | | | | | +---> [渐进式披露技能] | | | | | +---> [确定性文件系统状态 / 权限] | +-------------------------------------------------------------+ ``` 关键组件: - **渐进式披露(Progressive Disclosure)**:节省 Token 的技巧——系统最初只加载技能定义,只有在真正需要时才加载完整说明,有效减缓上下文窗口的拥挤速度 - **程序化工具调用**:Agent 即时编写脚本来批量处理数据,不需要把海量原始信息全部塞进对话背景 - **文件系统 > 模型记忆**:对于长程智能体,本地磁盘上的 JSON 或 Markdown 文件记录进度比依赖上下文更可靠 ## 对抗式架构(Adversarial Architecture) 参考生成对抗网络(GAN)的思路,在 Agent 内部建立对抗压力。将任务分配给三个相互独立的人格: ``` +----------------+ 阶段性冲刺 (Sprints) +-----------------+ | 宏观规划者 |----------------------------->| 视觉评论家 | | (MACRO PLANNER)| | (Playwright / | +----------------+ | 隔离提示词) | | +-----------------+ | 合同谈判 (Contract Negotiation) ^ v | +----------------+ 自动化代码构建 +-----------------+ | 代码生成器 |------------------------------------>| | (CODE GENERATOR)| | +----------------+ | ``` **核心设计**: - 突破「谄媚效应」:调教一个严厉的批评者要比调教一个完美的创作者容易得多 - **合同谈判机制**:生成器和评估器在磁盘上反复协商,确定什么才叫"功能完成"。评估器认为有漏洞就直接拒绝签署合同。只有双方达成书面一致后,构建才会真正开始 ## 审美也是可以量化的 只要强迫自己把准则写下来,AI 就能执行。 评估器拿着涵盖设计、原创性、工艺和功能性的严格评分表。它不仅看代码,还会调用 Playwright 等工具实际启动应用,像真人一样点击按钮、查看截图,并对照参考网站进行对比。如果生成器写出的界面不好看,评估器会强制它推倒重来。 ## 案例研究:RetroForge 相同提示词(构建复古游戏制作工具)的两次运行对比: **普通循环**:界面拥挤,颜色选择器全是黑色块,方向键无反应。代码看起来写完了,但完全无法运行。 **对抗架构**(6小时): - 构建出完整应用 **RetroForge**,拥有 **54 色复古调色板**和完整物理引擎 - 自主集成了嵌套 AI 关卡助手 - 评估器捕捉到标准流水线无法发现的错误(路由顺序错误、逻辑漏洞) ## 5 条实战建议 1. **自我评估是一个陷阱**:永远不要让同一个 Agent 会话审查自己的代码。必须实现隔离的、拥有对抗压力的评估循环 2. **压缩不代表连贯**:完全依赖文本摘要来压缩上下文,会随时间推移引入逻辑漂移。对于核心状态,应当使用文件系统进行持久化存储 3. **使用结构化的交接**:利用本地磁盘存储配置细节和任务合同,让智能体在开启新会话时迅速找回状态 4. **固化主观标准**:对产品有特定的审美要求时,必须强迫自己写下细致的评分准则。清晰的评估指标能将主观品味转化为具体的可执行操作 5. **审计原始的执行记录**:构建高性能架构没有捷径。必须像调试传统程序一样,手动研究智能体的执行日志,发现智能体的技术判断在什么时候开始背离人类的真实意图 --- **相关链接**: - [《Build Agents That Run for Hours (Without Losing the Plot)》— Ash Prabaker & Andrew Wilson, Anthropic](https://www.youtube.com/watch?v=mR-WAvEPRwE)