---
title: "让 Agent 在没有任务、没有奖励时先学会"认识世界""
type: raw
tags: [agent, self-improvement, world-knowledge, reinforcement-learning, web-agent, tencent]
source_url: "https://mp.weixin.qq.com/s/LjhOh9-15SwyZ8bXt1URVQ"
ingested: 2026-05-28
paper: "arXiv:2604.18131v1"
sha256: 23fd2ac96b5257fa8aa99cfffcc4259a92eb11e8060cbedac7957e83000288b4
---

# 让 Agent 在没有任务、没有奖励时先学会"认识世界"

**来源**：爱折腾的小七 / 爱折腾研究组（2026-05-13）
**论文**：Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration
**机构**：Tencent; HKUST(GZ)
**arXiv**：2604.18131v1（2026-04-20）

## 核心结论

论文提出让 Agent 在无任务、无奖励情况下，通过"原生进化"（Native Evolution）主动探索环境并生成 World Knowledge（世界知识）——一份结构化 Markdown 环境认知文档，使 Agent 从"现找答案"变为"先有地图再找答案"。

训练时用 outcome-based reward 评估知识质量，推理时完全不需要奖励。

## 核心概念

### World Knowledge

针对具体环境的可复用环境认知，以 Markdown 形式存储。包含：页面结构、跳转关系、核心组织逻辑等。

特点：易加载到上下文、可插拔、显式可迁移。

### 三代自进化 Agent

1. **Experience-Driven Evolution**：基于经验+外部奖励更新，本质仍是"在教材里学习"
2. **Adversarial Evolution**：challenger-solver 对抗生成任务，仍依赖重工程化流程
3. **Meta-Learning-Driven Evolution（本文）**：先探索环境，再压缩成世界知识，再执行任务

## 两阶段方法

### 第一阶段：Native Evolution Phase（原生进化阶段）

无任务、无奖励、无人工验证，Agent 主动执行：
1. **Planning**：规划探索路线
2. **Exploring**：进入环境交互观察
3. **Summarizing**：整理观察摘要
4. **Refining**：压缩提炼成高质量 World Knowledge K

### 第二阶段：Knowledge-Enhanced Execution Phase（知识增强执行阶段）

下游任务到来时，将 K 一起带入上下文完成任务。

行为模式从"看见网页→现找答案"变为"先有环境地图→再带地图找答案"。

## 训练流程

### SFT（监督微调）

使用 Gemini-2.5-Pro 作为 teacher model，生成高质量探索轨迹：
- 每环境生成 3 份候选 world knowledge
- 用 outcome-based reward 选出表现最好的 K* 及其轨迹
- 最终保留 expert trajectory 平均 374.8 步，每步平均 3322.4 tokens

### RFT（基于强化学习的拒绝采样）

- 让模型自己探索，生成多份候选 K
- 用下游任务收益排序，只保留高分轨迹
- 共两轮 RFT

### Outcome-Based Reward

R(K) = Success(T_E | K) - Success(T_E | ∅)

衡量 world knowledge 最终有没有帮到后续任务表现，而非探索过程每步打分。

## 核心实验结论

- Qwen3-30B-A3B：WebWalker 22.04→40.91（+18.87），WebVoyager 41.08→57.44（+16.36）
- Seed-OSS-36B：WebWalker 16.26→37.50（+21.24），WebVoyager 39.93→56.79（+16.86）
- 无训练 base model 即使被要求总结环境，世界知识反而可能拖累任务（越帮越忙）
- 训练后 world knowledge 带来约 20% 绝对提升
- 模型可超过 teacher prompt 表现
- World Knowledge 跨模型迁移有效：Qwen3-14B+K 超过未辅助的 Gemini-2.5-Flash

## 效率改善

Qwen3-30B 加入 world knowledge 后，执行步数平均下降约 17%：
- Conference：25.65→20.64
- Game：23.26→20.31
- Organization：17.96→13.92
- Education：30.25→25.34

## 知识长度分析

- 0→8k-16k：性能提升明显
- 8k-16k 最优区间（Game 域：39.71）
- 16k-32k 边际收益（Game 域：41.56）
- 32k-64k 开始下降（Game 域：40.72）

关键在于压缩质量，而非越长越好。

## 跨模型迁移

测试 Qwen3-14B、GPT-oss-120B、Kimi-K2-Turbo、Gemini-2.5-Flash，均获显著增益：
- Conference 域：Qwen3-14B+K 达到 35.6%，未辅助 Gemini-2.5-Flash 仅 31.3%
- Game 域：Qwen3-14B+K 达到 30.5%，未辅助 Gemini-2.5-Flash 仅 25.7%

## 论文不足

1. 训练阶段仍需标注任务，未完全脱离监督
2. 验证场景主要在网页，多模态 GUI/具身环境未充分验证
3. 探索成本高（374.8 步/expert trajectory）
4. World Knowledge 静态 Markdown，缺显式校验与持续更新机制
5. 跨环境泛化能力待验证

## 未来方向

1. 静态 Markdown → 可执行结构化世界模型（图结构知识库）
2. 加入不确定性感知和 value of information 驱动的主动探索
3. world knowledge 版本化与持续维护
4. 扩展到代码、GUI、具身环境
5. 可证据化知识压缩（带来源链接、支持回跳验证）