---
source_url: "https://mp.weixin.qq.com/s/8IxT4DleAsDbB2FSyy5W0w"
ingested: 2026-06-26
sha256: c77c3ab931543ed9
---
sha256: 8203c95769baf6c8
---
title: "无惧Off-Policy偏移！Bengio团队解绑后训练，大模型RL提速50倍"
source: wechat
source_url: https://mp.weixin.qq.com/s/8IxT4DleAsDbB2FSyy5W0w
author: PaperWeekly（数据派THU）
feed_name: 数据派THU
review_value: 8
review_confidence: 7
review_recommendation: strong
review_stars: 4
date: 2026-05-27
created: 2026-05-28
updated: 2026-05-28
tags: [reinforcement-learning, llm-post-training, off-policy, trajectory-balance, bengio, asynchronous, neurips-2025, rollout, replay-buffer, papi-weekly]
type: article
provenance_state: synthesized
sha256: 8f8501a25a36068aede16a77974307abe6ea653ad5b873a80f5218b47c3fd1b7
---

# 无惧Off-Policy偏移！Bengio团队解绑后训练，大模型RL提速50倍

> **来源**：数据派THU / PaperWeekly，2026年5月27日
> **论文**：Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training（NeurIPS 2025），arXiv 2503.18929
> **代码**：https://github.com/bbartoldson/TBA

## 一句话

Yoshua Bengio 团队在 NeurIPS 2025 提出 TBA（Trajectory Balance with Asynchrony），用异步框架把 RL 后训练的采样（Searcher）和训练（Trainer）解耦，配合轨迹平衡目标处理 off-policy 数据，最高提速 **50 倍**，同时保持或提升性能。

## 问题：LLM 后训练为什么慢

PPO、RLOO、GRPO 等主流方法依赖 **on-policy 数据**：
1. 模型生成回答（rollout，逐 token 解码，慢）
2. 计算奖励
3. 更新策略（并行计算，快）

**瓶颈**：采样慢、训练快，训练必须等 rollout 完成，算力无法跑满。策略一更新，旧样本又变成 off-policy，无法复用。

## 解决方案：TBA 异步框架

**核心思路**：把采样和训练彻底拆开，让旧轨迹也能继续变成学习信号。

### 架构解耦

- **Searcher**：负责探索采样，维护相对滞后的模型权重，从 prompt 数据集生成回答，存入本地 replay buffer
- **Trainer**：持续从 replay buffer 抽样更新模型，不必等待每轮 rollout 完成
- **同步周期 k**：每隔 k 个优化步，同步 Trainer 最新权重到 Searcher，同时汇总各 Searcher 本地经验到全局 buffer

### 轨迹平衡（Trajectory Balance）处理 off-policy

传统 on-policy 方法直接用旧轨迹会导致策略偏移和训练不稳定。

TBA 选用 **VarGrad TB**（Trajectory Balance 变体），关键性质：**off-policy 可训**——只要采样分布具有 full support，轨迹不必来自当前策略。

梯度形式上，TB 在 on-policy 时退化为类似 REINFORCE 的形式；在 off-policy 异步环境中展现出远超传统方法的鲁棒性，无需复杂且极易失效的重要性采样修正。

### 动态采样调控（Replay Buffer）

Buffer 变大后不能纯随机采样（效率低），也不能纯奖励优先（输出同质化）。

TBA 的 **混合调节方案**（超参数 m = Most-On-Policy Probability）：
- 以概率 m 采样**最近一次同步**新加入 Buffer 的数据（离当前策略最近，最稳定）
- 其余 1-m 概率：用奖励分数的 Softmax 采样 + 均匀采样（保持多样性，不浪费历史高质量样本）

消融显示：数学推理任务对 m 较敏感，较高 m 通常更稳。

## 核心实验结果

### 数学推理（GSM8K）
- 比 **VinePPO**：训练时间缩短近 **50 倍**，Pass@1 准确率高 1.2%~1.8%
- 比 **Online DPO**：提速 **1.6 倍**，准确率提升 2.0%

### 偏好微调（TL;DR 摘要）
- 在 KL/perplexity 与 win-rate 权衡上形成更好的 **Pareto 前沿**
- 410M~2.8B 不同规模模型，均比优化后的异步 DPO 基线快 **3.8~5.3 倍**

### 自动红队（稀疏奖励）
- 比非分布式同步 GFlowNet 基线，wall-clock time 最快提升 **7 倍**
- Searcher 扩展能带来更高攻击成功率和 prompt 多样性

## 核心价值

| 维度 | 传统做法 | TBA |
|------|----------|-----|
| 采样-训练关系 | 同步等待 | 完全解耦 |
| Off-policy 数据 | 丢弃或重要性采样修正 | 直接用于训练（TB 目标） |
| 算力利用率 | 低（等待 rollout） | 高（异步并行） |
| 提速幅度 | baseline | 最高 50 倍（数学推理） |

## 一句话总结

TBA 用异步架构 + 轨迹平衡目标，把 LLM RL 后训练中最贵的采样环节从训练闭环里解耦出来，配合 replay buffer 的动态采样调控，实现了数量级的效率提升，同时不损失甚至提升模型性能。

---

*论文：arXiv 2503.18929 | 代码：https://github.com/bbartoldson/TBA*