--- tags: [wechat, article, claude, openai] title: "从 Autoresearch 到 Better-Harness:自动优化真正难在评价信号" source: wechat ingested: 2026-05-20 sha256: 0a2f5b0f08a2893fb004c1526242de7eb3dc97eff19d71c10a11a1fbfaad63d9 --- # 从 Autoresearch 到 Better-Harness:自动优化真正难在评价信号 **来源:** 慢学AI(基于 LangChain 博客) **URL:** https://mp.weixin.qq.com/s/Tinog5FcVCjtFrhcgbVrtQ **原文:** LangChain — *Better Harness: A Recipe for Harness Hill-Climbing with Evals* **日期:** 2026年5月12日 **标签:** #BetterHarness #HarnessEngineering #Eval #Trace #自动优化 --- ## 核心论点 Karpathy 的 Autoresearch 证明:自动优化能跑起来,靠的是"评价信号必须足够清楚"。Better-Harness 补上了更难的一半——当评价信号错了,系统会沿着错误方向跑得更快。 > eval 在这里是**方向信号**,不是验收表。方向一旦偏了,harness 优化就会往错的地方走。 ## Better-Harness 六步法 ``` 收集标注 eval → 拆优化集/留出集 → 跑基线 → 看 trace 定向改动 → 验证泛化 → 人工审核 ``` ### 第一步:收集并标注 eval 把失败整理成 eval。每道题描述一个真实任务,标清楚什么叫做"做对了"。 - eval = 一组测试题 - 每条 eval 要打**行为标签**(搜索是否适时停止、工具选择、多步推理等) - 标签把 eval 从一堆题目变成**行为地图** ### 第二步:拆优化集和留出集 **核心问题:** 只在优化集上反复调,Agent 只会"背熟题",不是真的变强。 - **优化集**:发现问题、提出改动 - **留出集**:先藏起来,检查改动在没见过的样例上还能不能成立 - 类比:新同事练手工单,考的时候要用没见过的工单 ### 第三步:跑基线 用当前 harness 跑一遍 eval,记录原始表现。 ### 第四步:看 trace,做定向改动 trace = Agent 执行任务时的过程记录(搜了什么、点了什么工具、在哪一步开始绕圈)。 一次只改一个方向。 ### 第五步:验证有没有回退 - 优化集变好 + 留出集也变好 → 改进有效 - 优化集变好 + 留出集变差 → 刷熟悉题,并无泛化 ### 第六步:人工审核 分数通过不代表产品体验能上线。 - 有些指令能涨分,但过度具体,只服务某个样例,浪费上下文窗口 - 人工审核检查:这个改动放到真实用户那里,是不是确实更好 ## 核心类比 | ML 训练 | Agent Harness | |---------|---------------| | 训练数据 | eval 样例 | | 梯度信号 | 行为信号(做对了/做错了) | | 权重调整 | prompt/工具说明/工作流改动 | | 过拟合 | 在优化集上刷分但无泛化 | ## eval 生产飞轮 ``` 更多使用 → 更多 trace → 更多 eval → 更好的 harness ``` ### eval 从哪来 1. **手工策展**:团队自己写样例。价值高,难规模化 2. **生产 trace**:真实用户怎么用、Agent 怎么失败、卡在哪里。一次失败 trace = 一个 eval。用户纠正的 trace 价值更高 3. **外部数据集**:筛选、改写、对齐。只适合作为原材料 ### eval 长期维护 - **自动错误检测**:持续监控生产 trace,失败自动分类聚类 - **从 trace 自动生成 eval**:Agent 犯了错,那条 trace 就是一个 eval - **harness 版本对比**:同一组任务跑两个版本 harness,用 trace 做逐条对比 ## 真正要看的不是涨了多少分 LangChain 实验看到的主要效果:**很多 Agent 失败,不是因为完全不会做任务,而是行动节奏不对。** - 该停的时候继续搜 - 该动手的时候反复确认 - 该问目标的时候去问实现细节 Better-Harness 的价值:把这些模糊的坏体验,变成可被 eval 捕捉、被 trace 定位、再被 harness 定向修正的行为问题。 ## 核心结论 > 核心资产会从单条 prompt,转向一套持续生长的 **eval 和 trace 系统**。 - eval 是方向信号,不是验收表 - 留出集防作弊,人工审核防上线翻车 - Autoresearch 提醒我们:自动优化需要实验循环 - Better-Harness 补上了更难的一半:当评价信号错了,系统会沿着错误方向跑得更快 --- ## 相关概念 - Harness 工程化(参见 [[agent-harness-architecture]]) - 复旦 AHE(参见 [[agentic-harness-engineering-ahe]]):可观测性驱动的自动优化 - Agent Hooks(参见 [[agent-hooks-programmable-workflow]]):生命周期可编程控制