--- title: "LoopWM:循环 Transformer 世界模型,10 亿参数在 ScienceWorld 上超越 Claude Opus 4.6" source_url: https://mp.weixin.qq.com/s/N0C0wkavwrLCq5WM8ICnsQ ingested: 2025-06-25 sha256: 407bef7f9768 --- # LoopWM:循环 Transformer 世界模型,10 亿参数在 ScienceWorld 上超越 Claude Opus 4.6 一句话讲清楚:DreamerV3 已经能用一套超参数处理 150 多个任务,但长程 rollout 里的误差还是会慢慢跑偏;FaceMind Research Asia 的 LoopWM 把同一组 Transformer 块放进循环里,在潜空间反复推演环境状态,约 10 亿参数就在 ScienceWorld 上把 EM 做到 68.4%。 论文标题:Looped World Models 论文链接:https://arxiv.org/abs/2606.18208 ## 长程仿真,世界模型绕不开的矛盾 世界模型(World Model)问的是一个朴素问题:给定当前观测和动作,环境下一步会变成什么样? 从 PlaNet、Dreamer 系列到 IRIS、DIAMOND、EMERALD,再到 Sora、Genie 这类视频生成式世界模拟器,这条技术线已经走了很远。DreamerV3 甚至用同一套超参数搞定了 150 多种控制任务。但越往长程仿真走,两个老问题就越扎眼: 每一步预测只偏一点,rollout 多滚几步,轨迹就可能完全变样。这在模型强化学习、具身规划里都很麻烦:规划器以为自己在厨房,潜状态可能已经飘到另一个房间。 另一个办法是堆深度。网络更深,单步预测也许更稳,但参数量、显存和推理延迟一起涨。放到机器人、自动驾驶或实时交互环境里,这笔账很快就不好算。 物理规律往往是同一套动力学反复作用的结果,但主流固定深度架构对「简单匀速运动」和「多体碰撞接触」分配的计算量几乎一样——这本身就不合理。 ## 循环 Transformer:语言模型里验证过,世界模型里还是空白 另一条平行路线是循环 Transformer(Looped Transformer):同一组 Transformer 块在潜表示上反复调用,用迭代深度换参数效率。 Universal Transformer(2019)最早提出跨层权重共享 + 自适应停机;ALBERT 证明了参数共享在 BERT 规模上可行;近年 Ouro、RDM、LoopFormer、Hyperloop Transformers 等工作把循环架构推到了实用语言模型阶段,参数效率可达 2–3 倍,测试时还能通过增加循环次数来「买」推理算力。 Giannou 等人从理论上证明,循环 Transformer 用恒定参数量就能模拟梯度下降、牛顿法等迭代算法;Yang 等人则发现,循环模型在上下文学习任务上能用不到 10% 的参数追上标准 Transformer。 麻烦在于,这些工作基本都围绕语言模型展开。语言里的「潜空间反复推敲」,能不能迁移到动作条件下的环境动力学预测?LoopWM 把这个空白补上了。 ## LoopWM 整体架构:四个模块,一个循环核心 LoopWM 的基本输入并不神秘:在环境时间步,模型拿到观测和动作,预测下一步会发生什么。它不直接在原始像素或文本上硬滚,而是先进入潜空间,再把潜状态交给预测头。整体有四个部件: 1. **观测编码器**:把原始观测(像素或状态)映射为潜嵌入 2. **动作嵌入器**:把离散或连续动作投影到同一潜空间 3. **循环动力学核心**:接收上一时刻潜状态、当前观测嵌入和动作嵌入,经多次参数共享 Transformer 迭代输出——这是整篇论文真正动刀的地方 4. **预测头**:轻量 MLP,从潜状态解码观测、奖励、终止信号 ## 循环动力学核心:Prelude–Recurrent–Coda 三段式 LoopWM 的循环核心借鉴了 RDM、Parcae、Hyperloop 等工作里的 prelude–recurrent–coda 设计。直观理解:先把输入整理好,中间反复算,最后再读出来。 **Prelude**:将观测-动作拼接后,经多层 Transformer 处理再 LayerNorm,得到条件向量。先做 LayerNorm 是因为循环模型怕输入幅度被一轮轮放大,训练后期容易冒出 loss 尖峰。 **Recurrent**:参数共享的迭代 refine。多层 Transformer 参数在多次循环中完全共享。隐状态初始化可为零,也可承接上一环境步的终态。控制旧状态保留多少、新条件注入多少。循环次数增加,参数不增加——模型可以变「更深」,但参数表没有跟着膨胀。 **谱稳定性约束**:对状态保留矩阵做谱范数约束,保证对角元严格为负,经指数映射后落在 (0,1),成为对角收缩矩阵。这个约束在训练中按构造成立,不靠梯度裁剪,也不靠事后归一化。 **Coda**:循环结束后,独立参数的 Transformer 处理最终状态,经投影得到环境步输出,送入预测头并传递到下一时间步。形成双循环:内循环在单步转移里反复 refine 潜估计,外循环沿着真实环境时间向前走。 ## 训练目标:随机深度 + 世界模型损失 + 熵正则 每个训练步的循环次数从 Poisson 分布采样,每条序列单独抽一个。好处:训练目标的抖动小,能消掉大部分 loss spike。反向传播只回传到采样步数。 推理阶段:轻量退出门在每个循环步输出退出概率,一旦超过阈值就停下。对标 100 层固定深度基线,简单自由飞行轨迹可能只需 1 次循环,单步 FLOPs 约降 25 倍。 测试时还可以把最大循环数设得比训练均值更大,用额外推理算力换预测质量——和 LLM 圈里的 test-time compute scaling 是同一套逻辑。 ## 延迟解码:先想后解 标准世界模型每一步都调用解码器。LoopWM 提出 Deferred Decoding:给定动作序列,只在潜空间反复注入动作推进,直到最后一步才调用一次解码器。 有效计算深度变成多次共享参数 Transformer 调用,但解码器只跑 1 遍。规划时要评估大量候选动作序列,这种少解码累积才是真正省钱的地方。 ## 实验结果 **ScienceWorld**:约 10 亿参数的 LoopWM 在四个指标上都超过 Claude Opus 4.6,EM 领先 21.2 个百分点。 | 模型 | EM | F1 | BLEU | Entity | |------|-----|------|------|--------| | LoopWM (~1B) | 68.4% | 85.3% | 80.7% | 83.9% | | Claude Opus 4.6 | 47.2% | 72.8% | 64.4% | 72.3% | | Gemini 3 Flash | 30.8% | 68.9% | 51.1% | 73.8% | | Qwen 3.5 Flash | 10.0% | 46.9% | 26.7% | 63.0% | **ALFWorld**:EM 略低于 Claude(51.6% vs 53.0%),但 BLEU-4 四模型最高(71.6%)。 **延迟解码步数效应**:动作链越长,延迟解码越有用。Step 5 的 EM 相对 Gemini 提升 +113.8%,单任务如 Boil Step 4 达 +700.9%。 ## 未讲透的地方 - 延迟解码只是循环收益的一个切面,循环本身带来的增益还需更细的分解 - 连续视觉环境验证尚不完整 - 与 RSSM、自回归视频 token、扩散式世界模型的边界还需厘清 - 完整 scaling law 还缺硬图 - 训练依赖渐进长度、Poisson 深度采样等工程配方,不是拿来就能无脑放大