---
tags: [wechat, article, claude, openai]
title: "从 Autoresearch 到 Better-Harness：自动优化真正难在评价信号"
source: wechat
ingested: 2026-05-20
sha256: 0a2f5b0f08a2893fb004c1526242de7eb3dc97eff19d71c10a11a1fbfaad63d9
---
# 从 Autoresearch 到 Better-Harness：自动优化真正难在评价信号
**来源:** 慢学AI（基于 LangChain 博客）
**URL:** https://mp.weixin.qq.com/s/Tinog5FcVCjtFrhcgbVrtQ
**原文:** LangChain — *Better Harness: A Recipe for Harness Hill-Climbing with Evals*
**日期:** 2026年5月12日
**标签:** #BetterHarness #HarnessEngineering #Eval #Trace #自动优化
---
## 核心论点
Karpathy 的 Autoresearch 证明：自动优化能跑起来，靠的是"评价信号必须足够清楚"。Better-Harness 补上了更难的一半——当评价信号错了，系统会沿着错误方向跑得更快。
> eval 在这里是**方向信号**，不是验收表。方向一旦偏了，harness 优化就会往错的地方走。
## Better-Harness 六步法
```
收集标注 eval → 拆优化集/留出集 → 跑基线 → 看 trace 定向改动 → 验证泛化 → 人工审核
```
### 第一步：收集并标注 eval
把失败整理成 eval。每道题描述一个真实任务，标清楚什么叫做"做对了"。
- eval = 一组测试题
- 每条 eval 要打**行为标签**（搜索是否适时停止、工具选择、多步推理等）
- 标签把 eval 从一堆题目变成**行为地图**
### 第二步：拆优化集和留出集
**核心问题：** 只在优化集上反复调，Agent 只会"背熟题"，不是真的变强。
- **优化集**：发现问题、提出改动
- **留出集**：先藏起来，检查改动在没见过的样例上还能不能成立
- 类比：新同事练手工单，考的时候要用没见过的工单
### 第三步：跑基线
用当前 harness 跑一遍 eval，记录原始表现。
### 第四步：看 trace，做定向改动
trace = Agent 执行任务时的过程记录（搜了什么、点了什么工具、在哪一步开始绕圈）。
一次只改一个方向。
### 第五步：验证有没有回退
- 优化集变好 + 留出集也变好 → 改进有效
- 优化集变好 + 留出集变差 → 刷熟悉题，并无泛化
### 第六步：人工审核
分数通过不代表产品体验能上线。
- 有些指令能涨分，但过度具体，只服务某个样例，浪费上下文窗口
- 人工审核检查：这个改动放到真实用户那里，是不是确实更好
## 核心类比
| ML 训练 | Agent Harness |
|---------|---------------|
| 训练数据 | eval 样例 |
| 梯度信号 | 行为信号（做对了/做错了） |
| 权重调整 | prompt/工具说明/工作流改动 |
| 过拟合 | 在优化集上刷分但无泛化 |
## eval 生产飞轮
```
更多使用 → 更多 trace → 更多 eval → 更好的 harness
```
### eval 从哪来
1. **手工策展**：团队自己写样例。价值高，难规模化
2. **生产 trace**：真实用户怎么用、Agent 怎么失败、卡在哪里。一次失败 trace = 一个 eval。用户纠正的 trace 价值更高
3. **外部数据集**：筛选、改写、对齐。只适合作为原材料
### eval 长期维护
- **自动错误检测**：持续监控生产 trace，失败自动分类聚类
- **从 trace 自动生成 eval**：Agent 犯了错，那条 trace 就是一个 eval
- **harness 版本对比**：同一组任务跑两个版本 harness，用 trace 做逐条对比
## 真正要看的不是涨了多少分
LangChain 实验看到的主要效果：**很多 Agent 失败，不是因为完全不会做任务，而是行动节奏不对。**
- 该停的时候继续搜
- 该动手的时候反复确认
- 该问目标的时候去问实现细节
Better-Harness 的价值：把这些模糊的坏体验，变成可被 eval 捕捉、被 trace 定位、再被 harness 定向修正的行为问题。
## 核心结论
> 核心资产会从单条 prompt，转向一套持续生长的 **eval 和 trace 系统**。
- eval 是方向信号，不是验收表
- 留出集防作弊，人工审核防上线翻车
- Autoresearch 提醒我们：自动优化需要实验循环
- Better-Harness 补上了更难的一半：当评价信号错了，系统会沿着错误方向跑得更快
---
## 相关概念
- Harness 工程化（参见 [[agent-harness-architecture]]）
- 复旦 AHE（参见 [[agentic-harness-engineering-ahe]]）：可观测性驱动的自动优化
- Agent Hooks（参见 [[agent-hooks-programmable-workflow]]）：生命周期可编程控制