---
title: Anthropic 实战分享：如何让 AI Agent 持续工作几天？
author: xiaojianke（进化 AI 实验室）
date: 2026-05-19
source: https://mp.weixin.qq.com/s/NNbzBdc4SkxoWIuUdqPcFA
rating: 8.0
confidence: 8.0
review_value: 64
review_confidence: true
tags: [agent, anthropic, Claude, long-running, adversarial-architecture, evaluation]
abstract: Anthropic 工程师分享长时运行 Agent 架构——三大失败根因（上下文焦虑/规划缺陷/自我评判）+ Agent SDK 结构化管理 + GAN 风格对抗式架构 + 合同谈判机制 + 审美量化 + 6小时 RetroForge 案例 + 5条实战建议。
sha256: b14139792c51db9e2890e3d99b381ffa08a8b94bfd180d7d9d7289c069aa4d24
---
---
# Anthropic 实战分享：如何让 AI Agent 持续工作几天？
> 进化 AI 实验室 | 2026-05-19 | 安徽
一年前，Claude 连写个 Bash 命令和转义字符串都费劲，每次任务顶多运行约 20 分钟；而现在，Claude Code 几乎所有的代码都是由它自己编写，且能有效运行数天。
——Boris（Claude Code 之父）
在极简架构下，Agent 自主完成任务的连续运行时间，已经从一年前的 1 小时（Opus 3.7）提升到了现在的 12 小时（Opus 4.6）。仅仅一年左右，提升了 **10 倍以上**。
## 为什么让 Agent 长时间运行这么难？
Andrew 将这些失败归纳为三个工程问题：
### 1. 上下文（Context）
大语言模型拥有有限的注意力。随着会话推进，各种依赖关系层层叠加，智能体的逻辑连贯性会逐渐下降。当 Token 消耗接近上限时，模型会表现出一种「**上下文焦虑**」——它为了强行结束对话，会开始草率收尾并故意忽略技术细节。
### 2. 规划（Planning）
基础模型在面对长周期任务时，很难自发进行多步规划。它们要么尝试一次性写完所有代码，要么在执行中途突然停滞，留下一个无法运行的半成品。
### 3. 自我评判（Self-judgment）
模型并不擅长评判自己的工作。在软件开发中，它往往觉得自己写出的东西看起来挺美，就直接汇报说「任务已完成」，哪怕背后的逻辑根本没通。
## Agent SDK：结构化管理
Anthropic 开发了一套 Agent SDK，核心思想是：**不要让模型在单一对话中裸奔，而是给它搭建一套结构化的管理系统**。
```
+-------------------------------------------------------------+
|                          AGENT SDK                           |
+-------------------------------------------------------------+
|   [核心智能体循环] <---> [MCP 服务器工具]                    |
|          |                                                     |
|          +---> [子智能体委派系统]                             |
|          |                                                     |
|          +---> [渐进式披露技能]                               |
|          |                                                     |
|          +---> [确定性文件系统状态 / 权限]                     |
+-------------------------------------------------------------+
```
关键组件：
- **渐进式披露（Progressive Disclosure）**：节省 Token 的技巧——系统最初只加载技能定义，只有在真正需要时才加载完整说明，有效减缓上下文窗口的拥挤速度
- **程序化工具调用**：Agent 即时编写脚本来批量处理数据，不需要把海量原始信息全部塞进对话背景
- **文件系统 > 模型记忆**：对于长程智能体，本地磁盘上的 JSON 或 Markdown 文件记录进度比依赖上下文更可靠
## 对抗式架构（Adversarial Architecture）
参考生成对抗网络（GAN）的思路，在 Agent 内部建立对抗压力。将任务分配给三个相互独立的人格：
```
+----------------+       阶段性冲刺 (Sprints)      +-----------------+
|   宏观规划者    |----------------------------->|    视觉评论家    |
| (MACRO PLANNER)|                                | (Playwright /    |
+----------------+                                |  隔离提示词)     |
        |                                             +-----------------+
        | 合同谈判 (Contract Negotiation)                    ^
        v                                                    |
+----------------+       自动化代码构建           +-----------------+
|    代码生成器    |------------------------------------>|
| (CODE GENERATOR)|                                    |
+----------------+                                    |
```
**核心设计**：
- 突破「谄媚效应」：调教一个严厉的批评者要比调教一个完美的创作者容易得多
- **合同谈判机制**：生成器和评估器在磁盘上反复协商，确定什么才叫"功能完成"。评估器认为有漏洞就直接拒绝签署合同。只有双方达成书面一致后，构建才会真正开始
## 审美也是可以量化的
只要强迫自己把准则写下来，AI 就能执行。
评估器拿着涵盖设计、原创性、工艺和功能性的严格评分表。它不仅看代码，还会调用 Playwright 等工具实际启动应用，像真人一样点击按钮、查看截图，并对照参考网站进行对比。如果生成器写出的界面不好看，评估器会强制它推倒重来。
## 案例研究：RetroForge
相同提示词（构建复古游戏制作工具）的两次运行对比：
**普通循环**：界面拥挤，颜色选择器全是黑色块，方向键无反应。代码看起来写完了，但完全无法运行。
**对抗架构**（6小时）：
- 构建出完整应用 **RetroForge**，拥有 **54 色复古调色板**和完整物理引擎
- 自主集成了嵌套 AI 关卡助手
- 评估器捕捉到标准流水线无法发现的错误（路由顺序错误、逻辑漏洞）
## 5 条实战建议
1. **自我评估是一个陷阱**：永远不要让同一个 Agent 会话审查自己的代码。必须实现隔离的、拥有对抗压力的评估循环
2. **压缩不代表连贯**：完全依赖文本摘要来压缩上下文，会随时间推移引入逻辑漂移。对于核心状态，应当使用文件系统进行持久化存储
3. **使用结构化的交接**：利用本地磁盘存储配置细节和任务合同，让智能体在开启新会话时迅速找回状态
4. **固化主观标准**：对产品有特定的审美要求时，必须强迫自己写下细致的评分准则。清晰的评估指标能将主观品味转化为具体的可执行操作
5. **审计原始的执行记录**：构建高性能架构没有捷径。必须像调试传统程序一样，手动研究智能体的执行日志，发现智能体的技术判断在什么时候开始背离人类的真实意图
---
**相关链接**：
- [《Build Agents That Run for Hours (Without Losing the Plot)》— Ash Prabaker & Andrew Wilson, Anthropic](https://www.youtube.com/watch?v=mR-WAvEPRwE)