---
title: token级，精准控制生成长度：3B模型击败GPT 5.4、Claude
source_url: https://mp.weixin.qq.com/s/wj5L4eEHatAyP0Kjcw1rjQ
publish_date: 2026-05-10
tags: [wechat, article, claude, gpt, agent, llm, gemini]
review_value: 7
review_confidence: 7
review_recommendation: neutral
sha256: 9248fe95a32a07595ca8796574616a2ca207800a5a7b1848a8e04b5e9d84d406
---
---
source: wechat
source_url: https://mp.weixin.qq.com/s/wj5L4eEHatAyP0Kjcw1rjQ
ingested: 2026-05-09
feed_name: 新智元
wechat_mp_fakeid: MP_WXS_3271041950
source_published: 2026-05-08
---
# token级，精准控制生成长度：3B模型击败GPT 5.4、Claude
### 
### 
* * *
** ** ** 新智元报道  **
编辑：LRST 
#####  ** 【新智元导读】  LenVM将长度建模提升到token级别，开辟可扩展价值预训练的新维度——3B开源模型精确长度控制全面击败GPT-5.4、Claude-Opus-4-6等顶级闭源模型；相同token预算下推理准确率提升10倍（63% vs 6%）；沿模型规模、数据量、采样数三轴无饱和scaling的value pretraining  **
Token 是现代自回归模型的基本计算单元，每一个都意味着前向传播、KV缓存占用、延迟累积和能耗。随着长链推理（long-CoT）和智能体工作流（agentic workflow）的兴起，生成长度直接牵动两件事：它是  ** 推理成本  ** 的核心变量，也影响  ** 推理质量  ** ——更多 token 带来更多思考空间，过多则造成浪费。 
现有的长度控制方法，  ** 全都太粗糙了  ** ：训练时加序列级惩罚，模型生成途中对「还剩多少」毫无感知；prompt 指令本质是「祈求」模型遵守，没有任何硬约束；预解码长度预测器只做一次性判断，之后无法动态调整。它们的共同局限是：  ** 都在序列层面操作，而解码本身是逐token发生的  ** ——现有框架从未在这个粒度上建模剩余长度。 
更深层地看，价值函数（value function）在强化学习中早已被证明是对「未来回报」建模的强大工具，然而长度从未被当作一个值函数量来看待——既没有配套的训练范式，也没有经过验证的 scaling 路径。 
来自UC Santa Barbara和Apple等机构的研究团队提出了  ** Length Value Model（LenVM）  ** ，同时回答了两个问题： 
** ① 如何进行token级长度建模？  **
将生成长度建模转化为强化学习中的  ** 价值估计（value estimation）  ** 问题：对每个生成的 token 分配固定负奖励，折扣累加得到「剩余生成长度」的有界单调代理信号。这样，模型在每一个解码步都拥有一个明确的「还剩多远」的量化估计。 
** ② 如何做到可扩展的价值预训练（scalable value pretraining）？  **
这一构造天然带来四个对大规模预训练极为友好的性质：  ** 无需标注（annotation-free），信号密集（dense），无偏（unbiased），可扩展（scalable）。  **
这意味着LenVM的训练本质上是一种  ** 自监督过程  ** ——无需任何额外的人工标注或奖励模型，像预训练语言模型一样，只需「喂数据」就能持续变强。 
论文：https://arxiv.org/abs/2604.27039 
代码：https://github.com/eric-ai-lab/Length-Value-Model 
项目主页：https://length-value-model.github.io/ 
Demo：https://length-value-model.github.io/demo/index.html 
** 技术方案详解  **
##    
** **
** 核心思想：把剩余长度变成一个值函数  **
###    
LenVM的核心思路简洁而优雅：  ** 把生成长度当成一种成本。  ** 给每个token分配固定的负奖励，剩余长度就自然成为一个值函数预测问题。 
具体地，对每个非终止解码步t，分配固定负奖励： 
对应的折扣回报为： 
其中L是序列总长度，γ∈(0,1) 是折扣因子。这个回报具有三个关键性质： 
  * ** 有界：  ，无论序列多长，目标值始终在固定范围内  **
  * ** 单调：  ** 越接近终止，  越靠近0；剩余越多，越靠近-1。值的大小直接编码还要走多远 
  * ** Bellman 一致：  ** 满足  ，完全契合标准值函数框架 
由此定义的token级TD残差  ，直接度量了  ** 当前token如何改变对剩余生成长度的预期  ** ——这是一个此前从未存在过的信号。 
** 为什么不直接预测原始token数？  **   
生成长度从几个token到32k不等，动态范围极大，难以直接回归。折扣回报变换将高度可变的原始长度映射到固定范围(-1, 0)，同时保持严格单调，折扣因子γ是分辨率的调节旋钮：较大的γ在生成早期分辨率更高，较小的γ在接近终止时更精细。 
** **
** 可扩展的价值预训练：免标注、三轴 Scaling  **
###    
这是 LenVM 区别于所有现有长度控制方法的核心优势，也是这项工作最值得关注的地方。 
传统价值模型的规模上限由标注成本和质量锁死。LenVM完全绕开了这些瓶颈。训练目标由 token 级均方误差构成： 
这是在序列的每一个 token 位置用该位置实际观测到的折扣剩余长度  做蒙特卡洛回归。监督信号完全由采样的 completion 自动生成，具备四个关键性质： 
监督信号完全由采样的completion自动生成，具备四个关键性质： 
实验验证了LenVM沿  ** 三个轴  ** 同步scaling： 
  * ** 模型规模（0.5B → 32B）：  ** 更大的模型始终带来更低的验证损失 
  * ** 训练prompt数（10k → 100k）：  ** 更广泛的数据覆盖持续改善长度建模质量 
  * ** 每prompt采样数（n=1 → n=16）：  ** 更多 completion 轨迹带来更强的监督 
三个轴全部单调下降，说明 LenVM 作为价值预训练目标是  ** 良定义的（well-posed）  ** ：不存在数据饱和，投入越多资源，长度建模能力越强。 
** 三种推理时应用与实验结果  **
##    
LenVM 学到的 token 级长度信号有多好？作者团队通过三种推理阶段的应用来验证，  ** 所有应用均不修改基础生成模型  ** 。 
** **
** 应用一：精确长度控制  ** **   
**
在每个解码步，LenVM对候选token逐一预测下一状态的值，据此选择token：Equal To选预测值最接近目标折扣回报的 token；At Most选值最大（接近 0）的 token 引导早终止；At Least选值最小（接近 -1）的 token 引导延续生成。这是真正的  ** token 级硬约束  ** ，而非粗粒度的「祈求」。 
在 LIFEBench 基准（问答、摘要、推理、创意写作，中英文各 180 条）上，  ** Qwen2.5-3B + LenVM（1.5B）  ** 的长度得分从25.6跃升至  ** 62.6  ** ，长度偏差从83%降至56%，大幅领先GPT-5.4（37.4）、Claude-Opus-4-6（35.5）、Gemini-3.1-Pro（49.3）等所有闭源模型；  ** Qwen2.5-7B + LenVM  ** 更进一步，得分达到  ** 64.8  ** ，偏差仅44%。 
闭源模型再强，基于 prompt 的粗粒度控制也有天然上限——LenVM提供的是每一步解码都在生效的精确约束。 
** **
** 应用二：性能-效率连续权衡  **
通过指数倾斜（exponential tilting），LenVM对基础模型的token分布进行软性重加权： 
时，预期续写更短的token获得更高概率； 
退化为原始模型。这是一个  ** 连续旋钮  ** ，平滑地在推理质量和token消耗之间权衡。 
在GSM8K上，token预算200时：硬截断基线Pass@1 ≈  ** 6%  ** ，LenVM引导解码Pass@1 ≈  ** 63%  ** ，相差10倍。这个结果揭示了一个重要事实：  ** 基础模型本身就具备用更短路径解题的能力，只是通常选不到这些路径  ** ——LenVM通过精细重加权把它们「挖」了出来。在 MATH500 和 MathVista（视觉数学推理）上，LenVM同样全程优于硬截断基线，随β平滑描绘出 Pareto 前沿。 
** **
** 应用三：生成长度预测  **
LenVM能从 prompt 边界（第一个 response token 生成前）就预测总生成长度，对推理系统的批处理分组、KV 缓存预分配、请求优先级排序有直接价值——而这些信息目前只能在解码完成后才能获得。32B 模型在数学域的平均相对误差（MRE）已低至  ** 9.8%  ** ，代码域 14.9%，指令跟随域 17.1%，且随模型规模一致改善。 
** 额外收获：哪些token在「延长」或「收束」推理？  **
LenVM 的 token 级 TD 残差还提供了一个此前不存在的观察视角 
** 延长推理的token  ** （  ）如 wait、but、ah、think、consider，往往对应推理转折与反思，其中 ah 频繁出现在「Ah! I see the mistake」这类  ** 顿悟时刻（Aha Moment）  ** ； 
** 收束推理的 token  ** （  ）如 therefore、clearly、perfect 及 ✅ 🎉 等收尾标记，对应答案确认与生成终止。LenVM 不只是一个控制信号，也是  ** 观察模型如何推理的一扇新窗口  ** 。 
** 总结  **
##    
LenVM的贡献可以从两个层面来理解。 
** 对长度建模：  ** 它将控制粒度从序列级推进到token级，让每一步解码都有明确的「剩余长度感知」。这打破了现有所有方法的共同天花板——无论是prompt控制、训练惩罚还是预解码预测器，都无法提供逐token的动态约束信号。3B开源模型在精确长度控制上击败GPT-5.4和Claude-Opus-4-6，不是「调了个好prompt」，而是因为它第一次真正拥有了 token 级的长度信号。 
** 对 Scaling：  ** 长度作为值函数，其训练目标天然免标注、信号密集、三轴可扩展，scaling规律与语言模型预训练高度一致。这证明了  ** 生成长度是可扩展价值预训练的一个新维度  ** ——不需要额外标注，只需要更多计算和更多数据，长度建模能力就能持续提升。 
同时，LenVM也为未来RL训练提供了一个长度专属的价值基线：可以在PPO中作为密集优势信号，或通过势函数奖励整形在不改变任务目标的前提下改善信用分配。 
** 生成长度不应该只是事后统计出来的数字。它应该是模型在每一步解码时都能感知、都在权衡的信号——就像模型感知语义和语法一样。  ** LenVM让这件事第一次成为可能。 
参考资料：    
https://arxiv.org/abs/2604.27039    
** 秒追ASI  ** ** ⭐点赞、转发、在看一键三连⭐  ** ** 点亮星标，锁定新智元极速推送！  ** **   
**