---
title: "APPO：阿里高德 AMAP-ML 把 Agent RL 信用分配细化到每个决策点，13 项基准 +4 分"
source_url: https://mp.weixin.qq.com/s/i4SR6xGG_TuSBzuk3e_AQA
publish_date: 2026-06-16
tags: [wechat, article, app, arxiv-2606-12384, amap-ml, ustc, agentic-rl, branching-score, procedure-level, credit-assignment, fine-grained, decision-point, arpo, grpo, dapo, llm-agent, hyman]
review_value: 8
review_confidence: 8
review_recommendation: ingest
sha256: 4e78e647504d94ee263850d7e2ed14fbbf092621abe16916f52ed4400f462bc8
---
# APPO：阿里高德 AMAP-ML 把 Agent RL 信用分配细化到每个决策点
> Source: https://mp.weixin.qq.com/s/i4SR6xGG_TuSBzuk3e_AQA
> Author: Hyman 的杂货铺 (转载解读)
> Paper: APPO: Agentic Procedural Policy Optimization
> Paper Link: https://arxiv.org/abs/2606.12384
> GitHub: https://github.com/AMAP-ML/APPO
> Original Authors: 中科大 + 阿里高德 AMAP-ML 团队
> Date: 2026-06-16
> Collected: 2026-06-16

## 一句话总结

中科大与阿里高德联合提出 **APPO（Agentic Procedural Policy Optimization）**，用 **Branching Score** 把 Agent 强化学习的分支点从工具调用边界下沉到序列中的**细粒度决策点**，在 13 项基准上相对强基线平均提升近 4 分，**工具调用次数基本持平**。

## 一个被忽视的痛点：奖励只给终点，中间决策谁负责？

LLM Agent 已经能做多轮工具调用、长链路搜索和复杂推理。训练范式上：
- **RLVR**（Reinforcement Learning with Verifiable Rewards）用可验证的最终答案做稀疏奖励
- **GRPO / DAPO** 等方法在此基础上不断迭代

**根本矛盾**：整条轨迹只有一个 outcome reward，**中间哪一步做对了、哪一步走偏了，算法很难说清楚**。

**现有 Agentic RL 常见做法**（"在轨迹中间切开再采样"）：
- **ARPO**：在工具调用边界分支
- **Tree-GRPO**：按固定 workflow 阶段分支

**这些设计确实比纯全轨迹采样更高效，但信用分配单位仍然偏粗**：要么把整段 thinking 压成一个块，要么只在 tool-call 之后的高熵 token 上重采样。

**关键发现（论文 pilot study）**：
1. 真正影响最终成败的决策点，**并不集中在工具调用边界**，而是散布在整个 thinking 序列里
2. **token 熵高 ≠ 决策重要**——高熵可能只是罕见词（如月份名 "march"），与任务成败无关

## APPO 是什么：把「过程」当作信用分配的基本单位

**APPO 核心主张**：把 branching 和 credit assignment 从**粗粒度的工具/工作流单元**，下沉到生成序列中的**细粒度决策点（decision points）**。

论文把围绕这些高影响决策点组织的推理模式称为 **procedure**——plan / reflect / verify 等单点技巧在 prompt engineering 里早已常见，但在**在线 Agentic RL 里如何系统性地利用它们**，此前探索不足。

**APPO 整体流程**：生成初始 rollout → 用 Branching Score 定位决策点并重采样分支 → 双组 advantage 估计 + 未来感知 advantage 做过程级信用分配。

**三步流程**：
1. **初始化**：给定输入 x 和全局 rollout 预算 N，先生成 n₀ 条完整轨迹作为树根
2. **采样分支**：对每条轨迹上的每个 token 计算 Branching Score，选出 top-κ 个位置重采样 continuation，扩展 rollout 树
3. **策略优化**：用双组 advantage + 未来感知 scaling 做 PPO 式更新

## Branching Score：熵 + 未来价值，过滤「假高熵」

**纯熵选分支是 ARPO 等方法的常见策略**。APPO 认为这不够——高熵 token 可能只是词汇层面的不确定性，而非会改变下游推理路径的关键决策。

**APPO 引入未来价值（Future Value）**，衡量当前 token 对后续 continuation 的策略诱导似然增益：
```
未来价值 V(t) = E[KL(π_old || π_new) | continuation after t]
```
- π_old 是生成初始 rollout 时的策略
- γ 是折扣因子（论文实现中取 γ=0.99, λ=0.95）
- V 越大，说明当前策略相对旧策略更「偏好」后续 continuation 的状态分布

**Branching Score (BS) 把局部不确定性和未来影响结合起来**：
```
BS(t) = H(t) · V(t)
```
- H(t) 是 token 熵
- V(t) 在单条 rollout 内做 z-score 归一化

**乘积形式的意义**：**同时不确定、又对下游有影响的 token，才是真正的决策点**。

直觉上：
- 如果一个 token 只是"词罕见"但后续 continuation 分布几乎不变，V 会把它拉下来
- 反过来，策略更新后 likelihood 明显偏移的位置，即使熵不算最高，也会被 BS 捞上来

**词云对比**（论文图）：
- 纯高熵选出的 token 混有大量罕见名词（如月份名）
- BS 更偏向 "verify" / "sum" / "break" 等真正改变推理走向的词

## 过程级 Advantage：双组估计 + 未来感知缩放

**问题**：分支 rollout 和初始 rollout 来自不同策略分布（分支由当前 mini-batch 的 π_new 生成），直接混在一起算 group-relative advantage 会引入偏差。

**APPO 对初始轨迹组 G_init 和分支组 G_branch 分别计算 advantage**：
```
A_init = R_init - mean(R_init)
A_branch = R_branch - mean(R_branch)
```

**APPO 增加未来感知 advantage A_fut**，对下游影响更大的决策点赋予更高信用：
```
A_fut = α · A_base + (1-α) · A_future
```

**最终 advantage**：`A = α · A_base + (1-α) · A_future`，α 控制未来项权重。**优化目标沿用 PPO 的 clipped surrogate + KL 正则**。

**两个理论结果**：
- **Theorem 3.1**：在 BS 引导下向高方差决策点分配更多样本可降低梯度方差
- **Theorem 3.2**：给出策略改进下界，说明 BS 引导的分支混合在理论上站得住脚

## 实验设置：13 项基准，三类任务全覆盖

**数据集分三大类**：
| 类别 | 基准 |
|---|---|
| **数学推理** | GSM8K / MATH / MATH500 / AIME24 / AIME25 |
| **知识密集型推理** | HotpotQA / 2WikiMultihopQA / Musique / Bamboogle / WebWalkerQA |
| **深度搜索** | GAIA / Humanity's Last Exam (HLE) / Xbench |

**基线覆盖四类**：
- **经典 RL**：GRPO / Reinforce++ / DAPO / GPPO / CISPO
- **Agentic RL**：GIGPO / ARPO
- **多种 backbone**：Llama3.1-8B / Qwen2.5-7B / Qwen3-8B/14B
- **搜索 Agent**：Search-o1 / WebThinker / ReAct

**实现**：基于 VeRL 框架，batch size 128，PPO mini-batch 16，搜索任务用 Bing 检索 top-10，Python 代码在沙箱执行。SFT 阶段直接沿用 ARPO 流程。

## 主结果：全面领先，深度搜索尤其亮眼

### 数学 + 知识推理（10 项基准）

| Backbone | 最强 Agentic 基线 | APPO | 相对提升 |
|---|---|---|---|
| Llama3.1-8B | ARPO 55.3 | 57.4 | **+7.9%** |
| Qwen2.5-7B | ARPO 58.3 | 62.2 | **+8.9%** |

**具体数据点**：
- **Llama3.1-8B**：AIME24 从 ARPO 的 23.3 跳到 **30.0**，MATH500 从 64.6 到 **69.4**
- **Qwen2.5-7B**：AIME24 从 30.0 到 **36.7**，2Wiki 从 76.1 到 **81.5**

**数学推理平均比最强 Agentic 基线高 2.45 分，知识密集型任务几乎全线第一**。

### 深度搜索（GAIA / WebWalkerQA / HLE / Xbench）

| 模型 | ARPO | APPO | GAIA | WebWalker |
|---|---|---|---|---|
| Qwen3-8B | 38.8 | **42.7** | 42.7 | 33.8 |
| Qwen3-14B | 43.7 | **46.6** | 46.6 | 43.4 |

**关键数据**：
- GAIA 上 Qwen3-8B 从 38.8 提到 **42.7**，14B 达到 **46.6**
- WebWalkerQA 同步上涨（8B: 32.0→33.8，14B: 40.5→43.4）
- HLE / Xbench 也有稳定增益
- 闭源大模型 DeepSeek-R1-671B / o1-preview 在这些长链路任务上表现仍不理想
- **APPO 在 8B/14B 规模就刷新了同类方法的最佳成绩**

### Pass@K 分析

**APPO 不只提升最优单条轨迹——随 K 增大，优势持续扩大**：
- **GAIA 上 Qwen3-14B**：Pass@1 从 43.7 → 46.1，Pass@5 从 61.2 → **64.0**
- **WebWalkerQA**：Pass@5 从 62.0 → **66.8**

**关键含义**：**APPO 探索到的是结构不同的推理策略，而不只是局部 token 变体**。

## 消融与训练动态

### 组件消融（Qwen2.5-7B，知识推理 5 项平均）

| 变体 | 平均分 |
|---|---|
| **APPO 完整版** | **58.1** |
| BS → 纯熵 | 56.3 (-1.8) |
| 去掉 A_fut | 54.7 (-3.4) |
| 去掉双组 advantage | 56.0 (-2.1) |

**三个组件互补**：
- **BS 决定"在哪探索"**
- **双组估计保证"公平比较"**
- **A_fut 做细粒度信用分配**

**去掉未来感知项掉分最多（-3.4），说明过程级 credit 是核心增益来源**。

### 分支预算分配

总预算 N 时：
- **N_init = 8 时最优（58.1）**
- N_init = 16 时 57.9
- N_init = 4 时 56.1

**含义**：
- N_init 太大则初始轨迹多样性够但决策点展开不足
- N_init 太小则集中在少数路径上深挖，全局覆盖不够
- **中间 regime 最优**——先多样化根轨迹，再在高影响决策点展开

### 训练曲线

**APPO 比 ARPO 更快达到更高 reward，且走势更平稳**。

**DBSCAN 聚类可视化**：APPO 的分支更紧凑、簇间分离更清晰——**多样性体现在推理策略层面，而非无序发散**。

## 与 ARPO 的本质差异

**ARPO 是 APPO 最直接的对比对象**，两者同属阿里高德 AMAP 团队的 Agentic RL 系列。ARPO 在 tool-call 之后选高熵 token 做自适应采样，解决了工具交互后熵增的问题；APPO 则往前迈了一步：

| 维度 | ARPO | APPO |
|---|---|---|
| **分支粒度** | tool-call 边界 + 后续高熵 token | **全序列细粒度决策点** |
| **选点准则** | token 熵 | **Branching Score (熵 × 未来价值)** |
| **信用分配** | action-level | **procedure-level + 未来感知 scaling** |
| **理论支撑** | 经验驱动 | **方差缩减 + 策略改进下界** |

**关键工程意义**：**APPO 不需要额外的工具调用开销**——实验显示 tool-call 次数与基线基本持平，但性能显著提升。**这对实际部署很重要：更多分支不应等于更多 API 调用**。

## 我的理解与展望

> **APPO 的价值在于把 Agent RL 里一个长期被简化的假设拆开了：「过程」本身就是可学习的结构。**

过去大家把注意力放在 outcome reward 和 tool-call 边界上，相当于**只看了棋局的起手和终局，中间的布局、弃子、转换都被压成一个黑箱**。

**BS 提供了一个可操作的启发式**——不确定且对下游有影响的 token，往往对应 plan / verify / reflect 这类 procedure 的触发点。

### 几个值得关注的方向

1. **与 test-time scaling 的结合**：Pass@K 的持续增益暗示 APPO 训练出的策略在推理时做多样本投票可能更有优势
2. **更长 horizon 的 Agent 任务**：论文已在 GAIA / HLE 等长链路搜索上验证，随着 Agent 任务步数继续增长，**细粒度 credit 的价值可能更大**
3. **BS 的可解释性**：词云分析已经显示 BS 偏向推理关键词，**未来或许能把 procedure 类型显式标注，做更结构化的课程学习**

### Agent RL 竞争的关键判断

> **Agent RL 的竞争正在从「能不能调工具」转向「能不能学会在正确的地方试错」。**

**APPO 给出的答案很具体：别只在工具边界分叉，去序列里找真正改变命运的决策点。**