---
title: "面向复杂算法任务的 AI Agent：Long-Running Harness 架构设计与模型迭代应用"
created: 2026-06-09
updated: 2026-06-09
type: article
source_url: "https://mp.weixin.qq.com/s/LHPA3qlEsKOlrSsDPEnAyA"
ingested: 2026-06-09
sha256: "$(echo 'gaode_uplift_content' | shasum -a 256 | cut -d' ' -f1 | head -c 16)"
review_value: 9
review_confidence: 9
---

> 来源：高德技术
> 作者：信息业务中心
> 原文：https://mp.weixin.qq.com/s/LHPA3qlEsKOlrSsDPEnAyA

## 本期导读

高德营销算法团队构建的 AI Agent 系统：只需输入一句话目标（如"训练发券模型，目标击败 online baseline"），便能自主完成"提出假设 → 拼接样本 → 训练模型 → 离线评估 → 迭代决策"的全链路闭环。

**效益：** 过去工程师完成一次完整模型迭代通常需要 3–5 天；该 Agent 系统可在1–2 天内无人值守地跑通同等流程，工程师介入次数 = 0。

## 一、它是什么

一个 AI Agent 系统，专做一件事：替算法工程师跑完 **Uplift 模型迭代的完整生命周期**（Uplift 模型预测的是"给用户发券能多撬动多少 GMV"，是营销算法的核心资产）。

**输入：** 一段自然语言（例: "训练旅游 uplift 模型, 目标 sim 胜率 > 50%"）

**输出：** 1-2 天后给你一个训练完的模型 + AUUC 评估报告 + 整个过程的审计日志。

**它管的事：**
1. 想清楚: 决定本轮假设方向 (改样本 / 改模型架构 / 调参数 / 加特征 四选一)
2. 写 SQL: 从各业务线源表口径里, 拼出训练样本
3. 跑数据: 在数据开发平台上调度 30+ 天的 backfill 出训练集、测试集
4. 训练模型: 在训练平台上发布 pipeline、跑 GPU 训练、拉日志
5. 评估: AUC/AUUC/离线仿真对比 online baseline
6. 审核自己: 每一步出错了, 自己查日志、定根因、改代码、重跗
7. 存档: 整个过程每一步都落进事件日志, 进程崩了能从断点续上

## 二、三个核心能力

### 能力 1: 不知疲倦, 不丢进度

每个有副作用的步骤 (跑 SQL、提交训练、抓日志) 都被记成一个"任务"；任务状态变化 (开始 / 完成 / 失败) 即时写入本地数据库——append-only, 向 git 提交记录, 永远不删。

**为什么这事重要:** 一次完整迭代要 1-2 天 wall clock。中间任何一刻——你合上 laptop 睡觉、SSO token 过期、进程被 kill -9、电脑突然死机——下次重启时, 系统扫一遍记录, 从最近一个"已完成"的步骤继续往下跑, 不会重新提交浪费 GPU 配额。

**实际案例：** 跑到第 9 小时 laptop 睡眠了, 第 11 小时唤醒, 整个训练在云上自己跑完了——系统重启后直接用之前的训练任务 ID 拿结果继续, 工程师介入次数 = 0。

### 能力 2: 能审稿自己, 能修自己的错

8 个 LLM Agent 各管一摊——Planner 想方向、SampleDesigner 出 SQL、Coder 写代码、Critic 审稿、LogTriage 查根因、Repair 出补丁——之间通过 explicit handoff 互相交接。

**关键设计:** Critic 不靠"另一个 LLM 当裁判" (学术 benchmark 报告 80% 的 Agent 实验结果是 LLM 编造的), 而是直接跑确定性 Python assert——读真实数据库行数、查真实训练指标、读真实评估 CSV——任何一条 assert 失败, 触发 LogTriage→Repair 闭环。

**实际案例：** 美食业务源表的某个 JOIN key 字段在该业务上 100% 为空, 直接套酒店模板会得到 0 行训练样本。Critic 跑数据库 COUNT 发现行数严重不足直接拦下; LogTriage 查上游表口径文档发现该字段不适用; Repair 改 JOIN key 到另一个字段; 重跗出 7 位数行——全程无人干预。

### 能力 3: 能跟企业平台对话, 卡住会等人

两个通道并行——能用 API 的全走 API; 只有浏览器界面的操作走 Playwright 自动化 + 一个三分浏览器子 Agent (Planner / Actor / Validator), 录制成功脚本后按"前端版本指纹"缓存, 下次直接回放。

**关键设计:** 碰到 Agent 干不了的事 (例如申请数据表权限——属于企业治理) 主动暂停, 把当前状态标记成"等审批", 产出申请单, 等工程师 approve 后从同一个断点继续往下跑。

**为什么这事重要:** 企业 AI 跟 Kaggle 沙盒最大的区别就是平台不开放、规则零碎、权限分割。会自治的 Agent 不难做; 知道什么时候应该停下来等人的 Agent 才是 production-grade。

## 三、一次完整迭代案例

**酒店 Uplift 模型一次完整迭代：**

- T+00h: Planner 决策走 sample_change, 锁定 31 天观测样本 + 7 天 RCT 样本
- T+04h: 数据 DAG 跑完, 单步并行 ~31 个实例, 产出 ~26 万训练 / ~3 万验证，Critic 通过 treatment 平衡度校验
- T+09h: laptop 进入睡眠; 状态日志里此步骤标 started, 未 completed
- T+11h: 唤醒, 系统自动续接训练 (已在云上自己跑了 30 分钟)
- T+12h: 训练成功, Critic 通过模型指标校验
- T+18h: SSO 过期, 浏览器子 Agent 自动重新登录, 续接评估 CSV 拉取
- T+42h: 离线仿真 AUUC 较 online 基线数量级提升，Planner 决策 ACCEPT

**1 天 18 小时全程, 工程师介入次数 = 0; 期间 2 次 laptop 睡眠 + 1 次 SSO 过期, 全部自动恢复。**

## 四、整体工程指标

| 维度 | 数值 |
|------|------|
| 端到端跑通行业数 | 3 (酒店/美食/旅游), 充电就绪 |
| 端到端跑通迭代次数 | 4 |
| 单条假设迭代周期 | 1-2 天无人值守 vs 人工 3-5 天 |
| 单元测试通过率 | 16/16 (含进程崩溃续跑 + harness primitive 测试) |
| 工程师投入 | 同等任务下从 ~3 人天降到 ~1 人天 (-67%) |

## 五、与业界范式的对齐评估

### 5.1 业界定义的 10 个 harness primitives

业界已经把"造 Agent 该有哪些零件"讲清楚了——真正缺的是把这套范式跑在企业生产平台上的公开案例。

### 5.2 企业平台中几类典型的工程痛点

- **去重必须用外部任务 ID, 不能用 hash:** 数据调度平台某些 API 在部署没完成前会快照旧 SQL, 必须强制 poll 等部署生效
- **Critic 必须 grounded, 不能 LLM-as-judge:** 训练平台在样本量极小时会 silent failure 返回 AUC=0.0, LLM judge 会自圆其说"训练成功"
- **工具层必须有 UI-only 兜底:** 训练平台的代码发布只在浏览器里有, 没 Open API, 必须用 Playwright + 三分浏览器子 Agent 补上

### 5.3 Audit 驱动落地的三项能力

1. **Explicit Handoff:** 新增 Handoff(from_agent, to_agent, reason, payload) 数据结构, 转交链路在 journal 里能直接查
2. **MCP-style Tool Registry:** @tool(name, description, input_schema) 装饰器自动注册到全局 registry
3. **Tracing Spans:** 新增 spans 表 + 开闭 API, 支持 parent-child 嵌套和耗时记录, 跟 OpenTelemetry / OpenAI Agents SDK tracing 接得上

## 六、更多思考

**一个 framing: test-time compute**

这套系统本质上是把过去算法工程师手工迭代的过程, 转译为 **test-time compute allocation per hypothesis**——让 inference 多花一些, 换 experiment 少跑几遍。分析师预测 2030 年推理将占 AI compute 75%, 我们让算法团队从 2025 年就开始享受这条曲线。

**下一步**
- 短期: 充电行业首跑端到端跑通
- 中期: 补完 super-step 抽象 + time-travel checkpoint (一次回退到任意过去点)
- 长期: 覆盖更多业务行业, 单团队同时运行 ≥3 个并行迭代

## 参考文献

1. Anthropic. Introducing the Model Context Protocol. 2024-11. https://www.anthropic.com/news/model-context-protocol
2. Anthropic. Building Effective Agents. 2024-12. https://www.anthropic.com/research/building-effective-agents
3. Anthropic. Effective context engineering for AI agents. 2025-09-29.
4. Anthropic. Effective harnesses for long-running agents. 2025-11-26.
5. OpenAI. Agents SDK. 2025. https://openai.github.io/openai-agents-python/
6. MLR-Bench (arXiv 2505.19955). 报告 agent 实验结果"在 80% 的 case 中是 fabricated"。
7. Google. MLE-STAR (2025). MLE-Bench-Lite 63% 获奖, 36% 金牌。