---
title: "LoopWM：循环 Transformer 世界模型，10 亿参数在 ScienceWorld 上超越 Claude Opus 4.6"
source_url: https://mp.weixin.qq.com/s/N0C0wkavwrLCq5WM8ICnsQ
ingested: 2025-06-25
sha256: 407bef7f9768
---

# LoopWM：循环 Transformer 世界模型，10 亿参数在 ScienceWorld 上超越 Claude Opus 4.6

一句话讲清楚：DreamerV3 已经能用一套超参数处理 150 多个任务，但长程 rollout 里的误差还是会慢慢跑偏；FaceMind Research Asia 的 LoopWM 把同一组 Transformer 块放进循环里，在潜空间反复推演环境状态，约 10 亿参数就在 ScienceWorld 上把 EM 做到 68.4%。

论文标题：Looped World Models

论文链接：https://arxiv.org/abs/2606.18208

## 长程仿真，世界模型绕不开的矛盾

世界模型（World Model）问的是一个朴素问题：给定当前观测和动作，环境下一步会变成什么样？

从 PlaNet、Dreamer 系列到 IRIS、DIAMOND、EMERALD，再到 Sora、Genie 这类视频生成式世界模拟器，这条技术线已经走了很远。DreamerV3 甚至用同一套超参数搞定了 150 多种控制任务。但越往长程仿真走，两个老问题就越扎眼：

每一步预测只偏一点，rollout 多滚几步，轨迹就可能完全变样。这在模型强化学习、具身规划里都很麻烦：规划器以为自己在厨房，潜状态可能已经飘到另一个房间。

另一个办法是堆深度。网络更深，单步预测也许更稳，但参数量、显存和推理延迟一起涨。放到机器人、自动驾驶或实时交互环境里，这笔账很快就不好算。

物理规律往往是同一套动力学反复作用的结果，但主流固定深度架构对「简单匀速运动」和「多体碰撞接触」分配的计算量几乎一样——这本身就不合理。

## 循环 Transformer：语言模型里验证过，世界模型里还是空白

另一条平行路线是循环 Transformer（Looped Transformer）：同一组 Transformer 块在潜表示上反复调用，用迭代深度换参数效率。

Universal Transformer（2019）最早提出跨层权重共享 + 自适应停机；ALBERT 证明了参数共享在 BERT 规模上可行；近年 Ouro、RDM、LoopFormer、Hyperloop Transformers 等工作把循环架构推到了实用语言模型阶段，参数效率可达 2–3 倍，测试时还能通过增加循环次数来「买」推理算力。

Giannou 等人从理论上证明，循环 Transformer 用恒定参数量就能模拟梯度下降、牛顿法等迭代算法；Yang 等人则发现，循环模型在上下文学习任务上能用不到 10% 的参数追上标准 Transformer。

麻烦在于，这些工作基本都围绕语言模型展开。语言里的「潜空间反复推敲」，能不能迁移到动作条件下的环境动力学预测？LoopWM 把这个空白补上了。

## LoopWM 整体架构：四个模块，一个循环核心

LoopWM 的基本输入并不神秘：在环境时间步，模型拿到观测和动作，预测下一步会发生什么。它不直接在原始像素或文本上硬滚，而是先进入潜空间，再把潜状态交给预测头。整体有四个部件：

1. **观测编码器**：把原始观测（像素或状态）映射为潜嵌入
2. **动作嵌入器**：把离散或连续动作投影到同一潜空间
3. **循环动力学核心**：接收上一时刻潜状态、当前观测嵌入和动作嵌入，经多次参数共享 Transformer 迭代输出——这是整篇论文真正动刀的地方
4. **预测头**：轻量 MLP，从潜状态解码观测、奖励、终止信号

## 循环动力学核心：Prelude–Recurrent–Coda 三段式

LoopWM 的循环核心借鉴了 RDM、Parcae、Hyperloop 等工作里的 prelude–recurrent–coda 设计。直观理解：先把输入整理好，中间反复算，最后再读出来。

**Prelude**：将观测-动作拼接后，经多层 Transformer 处理再 LayerNorm，得到条件向量。先做 LayerNorm 是因为循环模型怕输入幅度被一轮轮放大，训练后期容易冒出 loss 尖峰。

**Recurrent**：参数共享的迭代 refine。多层 Transformer 参数在多次循环中完全共享。隐状态初始化可为零，也可承接上一环境步的终态。控制旧状态保留多少、新条件注入多少。循环次数增加，参数不增加——模型可以变「更深」，但参数表没有跟着膨胀。

**谱稳定性约束**：对状态保留矩阵做谱范数约束，保证对角元严格为负，经指数映射后落在 (0,1)，成为对角收缩矩阵。这个约束在训练中按构造成立，不靠梯度裁剪，也不靠事后归一化。

**Coda**：循环结束后，独立参数的 Transformer 处理最终状态，经投影得到环境步输出，送入预测头并传递到下一时间步。形成双循环：内循环在单步转移里反复 refine 潜估计，外循环沿着真实环境时间向前走。

## 训练目标：随机深度 + 世界模型损失 + 熵正则

每个训练步的循环次数从 Poisson 分布采样，每条序列单独抽一个。好处：训练目标的抖动小，能消掉大部分 loss spike。反向传播只回传到采样步数。

推理阶段：轻量退出门在每个循环步输出退出概率，一旦超过阈值就停下。对标 100 层固定深度基线，简单自由飞行轨迹可能只需 1 次循环，单步 FLOPs 约降 25 倍。

测试时还可以把最大循环数设得比训练均值更大，用额外推理算力换预测质量——和 LLM 圈里的 test-time compute scaling 是同一套逻辑。

## 延迟解码：先想后解

标准世界模型每一步都调用解码器。LoopWM 提出 Deferred Decoding：给定动作序列，只在潜空间反复注入动作推进，直到最后一步才调用一次解码器。

有效计算深度变成多次共享参数 Transformer 调用，但解码器只跑 1 遍。规划时要评估大量候选动作序列，这种少解码累积才是真正省钱的地方。

## 实验结果

**ScienceWorld**：约 10 亿参数的 LoopWM 在四个指标上都超过 Claude Opus 4.6，EM 领先 21.2 个百分点。

| 模型 | EM | F1 | BLEU | Entity |
|------|-----|------|------|--------|
| LoopWM (~1B) | 68.4% | 85.3% | 80.7% | 83.9% |
| Claude Opus 4.6 | 47.2% | 72.8% | 64.4% | 72.3% |
| Gemini 3 Flash | 30.8% | 68.9% | 51.1% | 73.8% |
| Qwen 3.5 Flash | 10.0% | 46.9% | 26.7% | 63.0% |

**ALFWorld**：EM 略低于 Claude（51.6% vs 53.0%），但 BLEU-4 四模型最高（71.6%）。

**延迟解码步数效应**：动作链越长，延迟解码越有用。Step 5 的 EM 相对 Gemini 提升 +113.8%，单任务如 Boil Step 4 达 +700.9%。

## 未讲透的地方

- 延迟解码只是循环收益的一个切面，循环本身带来的增益还需更细的分解
- 连续视觉环境验证尚不完整
- 与 RSSM、自回归视频 token、扩散式世界模型的边界还需厘清
- 完整 scaling law 还缺硬图
- 训练依赖渐进长度、Poisson 深度采样等工程配方，不是拿来就能无脑放大