--- title: "APPO:阿里高德 AMAP-ML 把 Agent RL 信用分配细化到每个决策点,13 项基准 +4 分" source_url: https://mp.weixin.qq.com/s/i4SR6xGG_TuSBzuk3e_AQA publish_date: 2026-06-16 tags: [wechat, article, app, arxiv-2606-12384, amap-ml, ustc, agentic-rl, branching-score, procedure-level, credit-assignment, fine-grained, decision-point, arpo, grpo, dapo, llm-agent, hyman] review_value: 8 review_confidence: 8 review_recommendation: ingest sha256: 4e78e647504d94ee263850d7e2ed14fbbf092621abe16916f52ed4400f462bc8 --- # APPO:阿里高德 AMAP-ML 把 Agent RL 信用分配细化到每个决策点 > Source: https://mp.weixin.qq.com/s/i4SR6xGG_TuSBzuk3e_AQA > Author: Hyman 的杂货铺 (转载解读) > Paper: APPO: Agentic Procedural Policy Optimization > Paper Link: https://arxiv.org/abs/2606.12384 > GitHub: https://github.com/AMAP-ML/APPO > Original Authors: 中科大 + 阿里高德 AMAP-ML 团队 > Date: 2026-06-16 > Collected: 2026-06-16 ## 一句话总结 中科大与阿里高德联合提出 **APPO(Agentic Procedural Policy Optimization)**,用 **Branching Score** 把 Agent 强化学习的分支点从工具调用边界下沉到序列中的**细粒度决策点**,在 13 项基准上相对强基线平均提升近 4 分,**工具调用次数基本持平**。 ## 一个被忽视的痛点:奖励只给终点,中间决策谁负责? LLM Agent 已经能做多轮工具调用、长链路搜索和复杂推理。训练范式上: - **RLVR**(Reinforcement Learning with Verifiable Rewards)用可验证的最终答案做稀疏奖励 - **GRPO / DAPO** 等方法在此基础上不断迭代 **根本矛盾**:整条轨迹只有一个 outcome reward,**中间哪一步做对了、哪一步走偏了,算法很难说清楚**。 **现有 Agentic RL 常见做法**("在轨迹中间切开再采样"): - **ARPO**:在工具调用边界分支 - **Tree-GRPO**:按固定 workflow 阶段分支 **这些设计确实比纯全轨迹采样更高效,但信用分配单位仍然偏粗**:要么把整段 thinking 压成一个块,要么只在 tool-call 之后的高熵 token 上重采样。 **关键发现(论文 pilot study)**: 1. 真正影响最终成败的决策点,**并不集中在工具调用边界**,而是散布在整个 thinking 序列里 2. **token 熵高 ≠ 决策重要**——高熵可能只是罕见词(如月份名 "march"),与任务成败无关 ## APPO 是什么:把「过程」当作信用分配的基本单位 **APPO 核心主张**:把 branching 和 credit assignment 从**粗粒度的工具/工作流单元**,下沉到生成序列中的**细粒度决策点(decision points)**。 论文把围绕这些高影响决策点组织的推理模式称为 **procedure**——plan / reflect / verify 等单点技巧在 prompt engineering 里早已常见,但在**在线 Agentic RL 里如何系统性地利用它们**,此前探索不足。 **APPO 整体流程**:生成初始 rollout → 用 Branching Score 定位决策点并重采样分支 → 双组 advantage 估计 + 未来感知 advantage 做过程级信用分配。 **三步流程**: 1. **初始化**:给定输入 x 和全局 rollout 预算 N,先生成 n₀ 条完整轨迹作为树根 2. **采样分支**:对每条轨迹上的每个 token 计算 Branching Score,选出 top-κ 个位置重采样 continuation,扩展 rollout 树 3. **策略优化**:用双组 advantage + 未来感知 scaling 做 PPO 式更新 ## Branching Score:熵 + 未来价值,过滤「假高熵」 **纯熵选分支是 ARPO 等方法的常见策略**。APPO 认为这不够——高熵 token 可能只是词汇层面的不确定性,而非会改变下游推理路径的关键决策。 **APPO 引入未来价值(Future Value)**,衡量当前 token 对后续 continuation 的策略诱导似然增益: ``` 未来价值 V(t) = E[KL(π_old || π_new) | continuation after t] ``` - π_old 是生成初始 rollout 时的策略 - γ 是折扣因子(论文实现中取 γ=0.99, λ=0.95) - V 越大,说明当前策略相对旧策略更「偏好」后续 continuation 的状态分布 **Branching Score (BS) 把局部不确定性和未来影响结合起来**: ``` BS(t) = H(t) · V(t) ``` - H(t) 是 token 熵 - V(t) 在单条 rollout 内做 z-score 归一化 **乘积形式的意义**:**同时不确定、又对下游有影响的 token,才是真正的决策点**。 直觉上: - 如果一个 token 只是"词罕见"但后续 continuation 分布几乎不变,V 会把它拉下来 - 反过来,策略更新后 likelihood 明显偏移的位置,即使熵不算最高,也会被 BS 捞上来 **词云对比**(论文图): - 纯高熵选出的 token 混有大量罕见名词(如月份名) - BS 更偏向 "verify" / "sum" / "break" 等真正改变推理走向的词 ## 过程级 Advantage:双组估计 + 未来感知缩放 **问题**:分支 rollout 和初始 rollout 来自不同策略分布(分支由当前 mini-batch 的 π_new 生成),直接混在一起算 group-relative advantage 会引入偏差。 **APPO 对初始轨迹组 G_init 和分支组 G_branch 分别计算 advantage**: ``` A_init = R_init - mean(R_init) A_branch = R_branch - mean(R_branch) ``` **APPO 增加未来感知 advantage A_fut**,对下游影响更大的决策点赋予更高信用: ``` A_fut = α · A_base + (1-α) · A_future ``` **最终 advantage**:`A = α · A_base + (1-α) · A_future`,α 控制未来项权重。**优化目标沿用 PPO 的 clipped surrogate + KL 正则**。 **两个理论结果**: - **Theorem 3.1**:在 BS 引导下向高方差决策点分配更多样本可降低梯度方差 - **Theorem 3.2**:给出策略改进下界,说明 BS 引导的分支混合在理论上站得住脚 ## 实验设置:13 项基准,三类任务全覆盖 **数据集分三大类**: | 类别 | 基准 | |---|---| | **数学推理** | GSM8K / MATH / MATH500 / AIME24 / AIME25 | | **知识密集型推理** | HotpotQA / 2WikiMultihopQA / Musique / Bamboogle / WebWalkerQA | | **深度搜索** | GAIA / Humanity's Last Exam (HLE) / Xbench | **基线覆盖四类**: - **经典 RL**:GRPO / Reinforce++ / DAPO / GPPO / CISPO - **Agentic RL**:GIGPO / ARPO - **多种 backbone**:Llama3.1-8B / Qwen2.5-7B / Qwen3-8B/14B - **搜索 Agent**:Search-o1 / WebThinker / ReAct **实现**:基于 VeRL 框架,batch size 128,PPO mini-batch 16,搜索任务用 Bing 检索 top-10,Python 代码在沙箱执行。SFT 阶段直接沿用 ARPO 流程。 ## 主结果:全面领先,深度搜索尤其亮眼 ### 数学 + 知识推理(10 项基准) | Backbone | 最强 Agentic 基线 | APPO | 相对提升 | |---|---|---|---| | Llama3.1-8B | ARPO 55.3 | 57.4 | **+7.9%** | | Qwen2.5-7B | ARPO 58.3 | 62.2 | **+8.9%** | **具体数据点**: - **Llama3.1-8B**:AIME24 从 ARPO 的 23.3 跳到 **30.0**,MATH500 从 64.6 到 **69.4** - **Qwen2.5-7B**:AIME24 从 30.0 到 **36.7**,2Wiki 从 76.1 到 **81.5** **数学推理平均比最强 Agentic 基线高 2.45 分,知识密集型任务几乎全线第一**。 ### 深度搜索(GAIA / WebWalkerQA / HLE / Xbench) | 模型 | ARPO | APPO | GAIA | WebWalker | |---|---|---|---|---| | Qwen3-8B | 38.8 | **42.7** | 42.7 | 33.8 | | Qwen3-14B | 43.7 | **46.6** | 46.6 | 43.4 | **关键数据**: - GAIA 上 Qwen3-8B 从 38.8 提到 **42.7**,14B 达到 **46.6** - WebWalkerQA 同步上涨(8B: 32.0→33.8,14B: 40.5→43.4) - HLE / Xbench 也有稳定增益 - 闭源大模型 DeepSeek-R1-671B / o1-preview 在这些长链路任务上表现仍不理想 - **APPO 在 8B/14B 规模就刷新了同类方法的最佳成绩** ### Pass@K 分析 **APPO 不只提升最优单条轨迹——随 K 增大,优势持续扩大**: - **GAIA 上 Qwen3-14B**:Pass@1 从 43.7 → 46.1,Pass@5 从 61.2 → **64.0** - **WebWalkerQA**:Pass@5 从 62.0 → **66.8** **关键含义**:**APPO 探索到的是结构不同的推理策略,而不只是局部 token 变体**。 ## 消融与训练动态 ### 组件消融(Qwen2.5-7B,知识推理 5 项平均) | 变体 | 平均分 | |---|---| | **APPO 完整版** | **58.1** | | BS → 纯熵 | 56.3 (-1.8) | | 去掉 A_fut | 54.7 (-3.4) | | 去掉双组 advantage | 56.0 (-2.1) | **三个组件互补**: - **BS 决定"在哪探索"** - **双组估计保证"公平比较"** - **A_fut 做细粒度信用分配** **去掉未来感知项掉分最多(-3.4),说明过程级 credit 是核心增益来源**。 ### 分支预算分配 总预算 N 时: - **N_init = 8 时最优(58.1)** - N_init = 16 时 57.9 - N_init = 4 时 56.1 **含义**: - N_init 太大则初始轨迹多样性够但决策点展开不足 - N_init 太小则集中在少数路径上深挖,全局覆盖不够 - **中间 regime 最优**——先多样化根轨迹,再在高影响决策点展开 ### 训练曲线 **APPO 比 ARPO 更快达到更高 reward,且走势更平稳**。 **DBSCAN 聚类可视化**:APPO 的分支更紧凑、簇间分离更清晰——**多样性体现在推理策略层面,而非无序发散**。 ## 与 ARPO 的本质差异 **ARPO 是 APPO 最直接的对比对象**,两者同属阿里高德 AMAP 团队的 Agentic RL 系列。ARPO 在 tool-call 之后选高熵 token 做自适应采样,解决了工具交互后熵增的问题;APPO 则往前迈了一步: | 维度 | ARPO | APPO | |---|---|---| | **分支粒度** | tool-call 边界 + 后续高熵 token | **全序列细粒度决策点** | | **选点准则** | token 熵 | **Branching Score (熵 × 未来价值)** | | **信用分配** | action-level | **procedure-level + 未来感知 scaling** | | **理论支撑** | 经验驱动 | **方差缩减 + 策略改进下界** | **关键工程意义**:**APPO 不需要额外的工具调用开销**——实验显示 tool-call 次数与基线基本持平,但性能显著提升。**这对实际部署很重要:更多分支不应等于更多 API 调用**。 ## 我的理解与展望 > **APPO 的价值在于把 Agent RL 里一个长期被简化的假设拆开了:「过程」本身就是可学习的结构。** 过去大家把注意力放在 outcome reward 和 tool-call 边界上,相当于**只看了棋局的起手和终局,中间的布局、弃子、转换都被压成一个黑箱**。 **BS 提供了一个可操作的启发式**——不确定且对下游有影响的 token,往往对应 plan / verify / reflect 这类 procedure 的触发点。 ### 几个值得关注的方向 1. **与 test-time scaling 的结合**:Pass@K 的持续增益暗示 APPO 训练出的策略在推理时做多样本投票可能更有优势 2. **更长 horizon 的 Agent 任务**:论文已在 GAIA / HLE 等长链路搜索上验证,随着 Agent 任务步数继续增长,**细粒度 credit 的价值可能更大** 3. **BS 的可解释性**:词云分析已经显示 BS 偏向推理关键词,**未来或许能把 procedure 类型显式标注,做更结构化的课程学习** ### Agent RL 竞争的关键判断 > **Agent RL 的竞争正在从「能不能调工具」转向「能不能学会在正确的地方试错」。** **APPO 给出的答案很具体:别只在工具边界分叉,去序列里找真正改变命运的决策点。**