---
title: 两篇Harness论文：微软M⋆记忆进化 + 谷歌AutoHarness动作约束
source_url: https://mp.weixin.qq.com/s/pnQpiRspZH68UoGR8YFSiA
publish_date: 2026-04-25
tags: [wechat, article, gpt, agent, harness, llm, gemini]
review_value: 7
review_confidence: 7
review_recommendation: neutral
sha256: fca5510a878f8a75bc64350b38d47e0f7fe0908335ff21d2307851f5342c31ab
---
# 两篇Harness论文：微软M⋆记忆进化 + 谷歌AutoHarness动作约束
## 核心趋势
> AI研究风向变了：从"如何让模型更聪明"转向"如何给Agent配一个更合适的Harness框架"。
---
## 一、M⋆：每个任务都值得拥有专属的记忆Harness
### 核心问题
当前LLM Agent的记忆系统采用"一刀切"设计——对话Agent用语义检索、代码Agent用技能系统、专业领域用结构化数据库。但为一个领域优化的记忆设计无法迁移到其他领域。
不同任务需要完全不同的记忆结构：
- 对话任务（LoCoMo）：实体关系图追踪人物关系
- 法律查询（PRBench）：关系型数据库存储判例
- 具身智能（ALFWorld）：轨迹查找表
### 方法：可执行程序进化
M⋆将记忆Harness表示为Python记忆程序，包含三个核心组件：
| 组件 | 说明 |
|------|------|
| Schema | 定义存储和检索的数据格式（Python dataclass） |
| Logic | 定义后台操作（写入/读取逻辑，可调用向量数据库、SQL或LLM） |
| Instruction | 定义Agent如何与记忆交互的提示词常量 |
**反射式代码进化流程**：
1. 验证循环采样：使用静态验证集和旋转验证集评估当前程序
2. 编码Agent迭代：基于执行轨迹和失败案例，LLM分析根因并生成代码补丁
3. 约束检查与自动修复：编译检查、冒烟测试、运行时约束（如返回不超过3000字符）
**种群搜索**：基于种群的搜索策略（Population-based Search）平衡探索与利用，通过softmax温度采样选择高得分程序进行变异。
### 实验结果
在四个不同Benchmark上（LoCoMo、ALFWorld、HealthBench、PRBench），**M⋆在7/8个配置中取得最佳表现**。
**关键发现**：
1. **结构多样性**：不同任务进化出截然不同的记忆结构。t-SNE可视化显示各任务收敛于不同结构聚类（LLM-Centric、Semantic Search、Hybrid Retrieval等）。例如ALFWorld最佳程序用简单列表+LLM摘要，而LoCoMo用SQL+ChromaDB混合设计。
2. **任务特异性**：跨任务迁移实验证明，将A任务进化出的记忆程序用于B任务，表现甚至不如通用基线。**记忆结构必须与任务协同优化**。
---
## 二、AutoHarness：自动生成代码Harness防止非法动作
### 核心问题
尽管LLM在代码生成和数学推理上表现卓越，但在严格定义的环境中（如棋类游戏），它们经常提出非法动作。在Kaggle GameArena国际象棋比赛中，**78%的Gemini-2.5-Flash失败**都源于非法移动。
传统方法需要为每个游戏手工编写约束代码，既费力又容易出错。
### 方法：树搜索+Thompson采样的代码合成
将Harness生成建模为程序搜索问题，使用**Thompson采样引导的树搜索**平衡探索与利用。
**三种Harness模式**：
| 模式 | 说明 |
|------|------|
| harness-as-action-filter | 生成合法动作候选集，由LLM排序选择 |
| harness-as-action-verifier | LLM生成动作→代码验证合法性→非法则重试（主要实验） |
| harness-as-policy | 完全用Python代码实现策略，测试时无需LLM调用 |
**关键机制**：
- 反馈驱动：环境返回动作是否合法及奖励信号
- 迭代优化：基于错误案例和轨迹，LLM生成代码补丁（V4A格式）
- 编译-修复循环：自动处理语法错误和运行时约束违反
### 实验结果
**TextArena 145个游戏测试**：
- **训练效率**：平均14.5次树搜索迭代即可达到100%合法动作率，19/32个游戏在10次迭代内收敛
- **2P对战**：Gemini-2.5-Flash + Harness vs Gemini-2.5-Pro → **9/16胜率**（总体胜率56.3% vs 38.2%）
  > 较小的模型配合专用Harness可击败更大模型
- **1P游戏**：平均奖励0.745，超越Gemini-2.5-Pro（0.707）和GPT-5.2（0.635）
- **极限模式Harness-as-Policy**：16个1P游戏取得**0.870平均奖励**，超越GPT-5.2-High（0.844），且测试时成本几乎为零（无需LLM调用）
---
## 核心洞察
1. **记忆结构任务特异性**：不同任务需要完全不同的记忆Harness，跨任务迁移无效。必须与任务协同优化。
2. **Harness使小模型胜大模型**：专用Harness可以让较小模型击败较大模型，Harness-as-Policy模式测试时零LLM调用成本。
3. **AI研究风向**：从"如何让模型更聪明"转向"如何给Agent配一个更合适的Harness框架"。