具身智能领域论文综述 · 2018年 — 2026年3月
以预训练语言/视觉大模型为骨干,直接从多模态观测预测机器人动作。强调零样本泛化、语言指令跟随与多任务通用性。代表作:RT-2、OpenVLA、π0、Gemini Robotics。
建模环境状态转移动态,为规划、强化学习和数据增强提供"内部仿真器"。可大幅减少真实机器人交互成本。代表作:DreamerV3、Genie、PlayWorld。
2025-2026年的核心趋势:World Model 作为 RL 训练环境为 VLA 后训练,潜在空间 CoT 替代文本 CoT,VLA 策略与 WM 迭代协同改进。
理解当前 WM+VLA 领域绕不开的里程碑工作,从世界模型雏形到现代 VLA 体系的演进脉络。
频域动作 tokenizer,将连续动作压缩为紧凑离散 token;解决扩散策略慢、自回归策略精度低的双重困境。Physical Intelligence。
机器人专用世界模型;多相机一致性生成 + 无限空间扩展;为 VLA 提供高质量数据增强和想象式规划环境。
NVIDIA 开源人形机器人基础模型;双系统架构(快/慢);Isaac Lab 仿真训练;全身运动控制;物理 AI 方向重要里程碑。
基于 Gemini 2.0 的机器人基础模型;安全感知;多形态泛化;世界理解 + 灵巧控制;行业顶级工程与研究成果。
自监督视频模型;预测潜在表征;支持理解、预测和规划三类任务;在机器人操作规划基准上超越 GPT-4o。
视觉链式思维:先预测目标未来图像,再生成动作;混合注意力机制;将 LLM CoT 的推理范式迁移至机器人视觉-动作决策。
开放世界通用 VLA;高级 VLM 推理 + π0 灵巧控制;Web 数据 + 机器人数据协同训练;在陌生家庭环境中完成长程任务。
融合世界知识的 VLA;视频扩散世界模型生成未来想象帧作为辅助训练信号,从而让 VLA 掌握物理常识与时序推理。
开源 7B 参数 VLA,基于 BridgeData V2 + OXE 数据集预训练,成为后续研究标准基线。Stanford / UC Berkeley。
任务中心潜在动作表示,无需大量动作标注数据,通用跨环境机器人控制。
分析基于 RL 训练的 VLA 是否隐式学到世界内部表征,揭示 VLA 的涌现能力。
利用深度引导的 Token 合并降低 VLA 推理延迟,无需重新训练,即插即用。
独立自回归 Action Expert,以连续 causal 序列生成动作,条件化于可刷新的视觉-语言前缀。
神经科学启发三部件:大脑(VLM冻结提供语义先验)+ 桥脑(适配实时本体感觉)+ 小脑(精确动作执行)。
跨手型潜在表征,提升灵巧操作中的视觉-动作对齐,支持多指手协调。
统一语义驱动的主动感知与视点不变执行,端到端框架解决遮挡和视点变化问题。
联合视动预测,显式建模未来视觉-运动的紧密关联,提升长程操作准确性。
将 2D patch token 提升为带几何结构的 3D Gaussian 空间 token,弥补平面感知的几何缺失。
概念门控视觉蒸馏解决复杂背景导致的"精度-推理差距",背景特征稀释问题。
展示 VLA 天然适合持续强化学习,无需特殊持续学习算法设计,简单 RL 微调即可。
人在回路的 VLA 后训练框架,高效适配灵巧操作复杂下游任务。
显式任务进度建模,感知可量化的里程碑,实现错误检测与可恢复的鲁棒操作。
提出 Dynamics CoT:先预测紧凑世界动态 token,再生成驾驶动作,物理接地决策。
驾驶风格感知的 VLA,支持保守/激进等个性化驾驶行为适配。
协同感知-规划蒸馏框架,解决视觉编码器解冻后性能退化与长程规划不稳定问题。
场景自适应混合专家 VLA,不同驾驶场景路由不同专家子网络。
神经符号融合,学习可复用的操作原语,提升对新任务的组合泛化能力。
利用世界知识变化量(Δ)作为先验引导预测范式,建模未来视觉状态或世界模型变化。
开创性工作:VAE 压缩视觉 + MDN-RNN 建模时序动态 + 线性控制器;提出"在梦境中训练 Agent"的核心思想,奠定世界模型研究方向。
循环状态空间模型 (RSSM);在潜在空间想象轨迹进行 model-based RL;DeepMind 出品,为 Dreamer 系列奠基,RSSM 仍是主流世界模型架构骨干。
统一超参数跨 7 类基准全 SOTA(Atari/连续控制/Minecraft/机器人);symlog 变换 + KL 平衡;首个从头学 Minecraft 钻石的 Agent。Google DeepMind 重磅工作。
基于扩散的视觉世界模型用于 Atari 游戏强化学习;超越 DreamerV3;验证生成式世界模型替代真实环境进行 RL 训练的可行性。
从无标注互联网视频自监督训练可交互世界模型;1B 参数;时空视频 Tokenizer + 潜在动作模型 + 动态模型;首个从视频学习动作潜变量的生成式世界模型,影响深远。
机器人专用世界模型;自由视角一致性视频生成;无限空间扩展;为机器人 VLA 提供想象式规划环境与高质量数据增强。
自监督视频表征学习;联合嵌入预测架构;支持理解、预测和规划;在机器人操作规划上超越 GPT-4o;为 WM+VLA 预训练提供新路径。
从机器人自主探索数据(无需任务标注)学习通用仿真世界模型,大规模数据利用。
残差动作世界模型,基于原始视觉观测进行强化学习,提升连续控制中的样本效率。
VLM 协调多专家的层级世界模型,用于人形机器人同步运动与操作任务。
自我改进的闭环动作世界模型框架,结合反思规划实现长程可控视频生成。
层级世界模型引导任务规划与运动规划,超越纯视频生成或语言预测的现有方法。
持续强化学习场景下,通过增强回放机制保持世界模型在新旧任务上的鲁棒性。
自动驾驶潜在世界模型统一分类体系与评估框架,覆盖 VLA 系统,梳理开放挑战。
运动学感知的潜在世界模型,将车辆运动学约束融入状态预测,提升数据效率。
异构 Token 缓存策略加速扩散世界模型,实现交互式使用与长程滚动预测。
超紧凑离散 token 化方案,将规划状态压缩至 8 个 token,大幅降低世界模型规划计算开销。
密集视觉表征空间中的导航世界模型,动作条件化状态转移用于目标导航规划。
移动端动作条件化一致性世界模型,在移动导航中提供时序连贯的未来预测。
Robbyant 团队构建的垂直整合技术栈:空间感知(Depth)→ 世界仿真(World)→ 因果视频-动作建模(VA)→ 实用 VLA 基础模型(VLA)。四个工作相互依赖,形成完整闭环。
实用主义 VLA 基础模型。20,000小时真实双臂机器人数据预训练,9种机器人配置;原生集成 LingBot-Depth(MoRGBD);Flow Matching 动作生成;训练效率 1.5–2.8× 提升。GM-100 平均 SR 35.4%,超越 π0.5、GR00T N1.6。
开源顶级世界仿真器。基于 Wan2.2 DiT;<1秒延迟 16fps 实时交互;961帧分钟级时序记忆;双控制信号(相机位姿 + 机器人动作);覆盖写实/科幻/卡通等多样环境。
因果视频-动作世界模型。双流 MoT 架构将视频帧与动作 token 交织自回归;KV Cache + 异步执行;首个在 RoboTwin 2.0 Easy+Hard 双超90% 的工作(92.9%/91.6%)。
机器人深度感知基础模型。掩码深度建模(MDM)自监督预训练;ViT-L + 深度感知注意力;3M RGB-D 数据集训练;度量精确深度图 + 3D 点云;集成于 LingBot-VLA 作为 MoRGBD 感知增强模块。
核心范式:用真实数据训练世界模型 → 在世界模型中进行 RL 后训练 VLA → 无需大量真实机器人交互
LLM 生成高层计划 + 价值函数评估可执行性,将语言模型的世界知识与机器人能力接地。奠定"LLM × 机器人"范式基础,VLA+WM 融合的先驱思路。
视频扩散世界模型生成未来想象帧作为 VLA 辅助训练信号;让 VLA 掌握物理常识与时序推理;WM 监督式预训练 VLA 的重要范式。
技能组合世界模型用于 VLA 后训练,自适应处理分布外环境变化,提升策略鲁棒性。
预测性潜在世界模型可扩展地提升 VLA 多步行为的鲁棒性与指令跟随能力。
将 CoT 从语言 token 迁移到潜在运动空间,引入时序因果结构,VLA 先"想"再"做"。
用潜在时空表征替代文本 CoT,消除语义-感知鸿沟,用于自动驾驶 VLA。
世界模型替代真实环境,为 VLA 提供 RL 训练沙箱,大幅降低真实机器人交互需求。
VLA 策略与世界模型双向迭代协同改进,线上交互数据循环提升两者质量。
组合式世界模型驱动机器人策略自我改进,解决接触丰富动态操作任务的 VLA 脆弱性。
层级操作策略的世界模型扩展,解决 OOD 场景下 VLA 脆弱性,仅需少量真实数据。
JEPA 风格潜在世界模型预训练,超越像素级变化的动作-感知对齐目标。
在条件空间中建模未来观测,将世界模型预测作为 VLA 动作生成的引导信号。
基于世界模型 RL 的 VLA 训练,解决单步 chunk 动作预测的场景理解局限。
针对动作条件化机器人世界模型多步 rollout 的累积误差问题,用 RL 稳定长程预测,提升世界模型在机器人操控中的可靠性。
将扩散模型引入 VLA,统一多模态指令理解与动作生成,覆盖操控与条件生成双任务。
双专家 VLA 框架,将稠密 3D 场景流嵌入为潜在运动先验,引导机器人操控策略,弥补 2D token 的几何缺失。
机器人操控的物理对齐交互式世界基础模型,视频世界模型融合物理先验,生成逼真、物理一致的未来帧以辅助 VLA 规划。
质疑 World Action Model 测试时是否真的需要未来想象推理,提出快速 WAM,消融验证 WM 前向预测的实际贡献度。
系统对比 World Action Model 与标准 VLA 在泛化与鲁棒性上的差异,首个针对 WAM vs. VLA 的大规模对比研究。
视觉与语言两路并行 CoT,避免语言 CoT 对视觉推理的干扰,双流推理路径提升 VLA 在复杂操控任务上的决策质量。
训练免修的 VLA 视觉 token 剪枝方案,通过交互对齐衡量 token 重要性,大幅降低推理开销,保持动作精度。
VLA 的测试时语言-动作对齐推理,无需重新训练即可动态修正语言指令歧义,提升零样本指令跟随鲁棒性。
自动驾驶多视角自我中心世界模型,可控生成未来场景帧,为端到端驾驶 VLA 策略提供可扩展评估与数据增广平台。
面向实用化的世界模型 RL 训练 VLA,针对真实部署约束(样本效率、稳定性)提出改进方案,是 WoVR/VLAW 路线的重要延伸。
首个针对 VLA CoT 推理的对抗攻击研究,对抗贴片可劫持视觉-语言-动作链式推理过程,揭示 CoT-VLA 的安全漏洞。
WoVR、VLAW、RISE、AtomVLA 等在2025-2026年密集爆发,核心范式:用真实数据训世界模型 → WM 中 RL 后训练 VLA → 无需大量真实机器人交互。从 DreamerV3 的通用 RL 演进至 WM 专为 VLA 服务。
代表:WoVR / VLAW / RISE / AtomVLA / World2Act / DreamVLA
将 Chain-of-Thought 从语言 token 迁移到潜在动态/时空表征,减少语义-感知鸿沟,更直接地建模物理因果。CoT-VLA 的视觉目标预测是过渡,Chain of World 是终极形态。
代表:Chain of World / LaST-VLA / DynVLA / CoT-VLA
VLA 的 2D patch token 缺乏几何结构,GST-VLA 等工作将深度/高斯空间结构显式引入 token,弥补几何缺失,与 NeRF/3DGS 技术趋势交叉融合。
代表:GST-VLA / FutureVLA / PointVLA
2026年3月出现多篇 AD-VLA,将机器人 VLA 范式迁移到自动驾驶。个性化、场景自适应、WM 结合成为子方向热点。UniAD 到 DynVLA 的演进路径清晰。
代表:DynVLA / StyleVLA / EvoDriveVLA / SAMoE-VLA / LaST-VLA
VLA/WM 的 token 冗余问题引起关注,DepthCache、WorldCache 等工作专注免训练加速,Planning in 8 Tokens 探索极致压缩。FAST tokenizer 则在训练阶段解决动作表示效率。
代表:DepthCache / WorldCache / Planning in 8 Tokens / FAST
SaiVLA 的大脑-桥脑-小脑三层架构、NS-VLA 的神经符号设计、GR00T N1 的双系统(快/慢)设计,体现将神经科学结构先验显式引入 VLA 的趋势。
代表:SaiVLA-0 / NS-VLA / GR00T N1 / Gemini Robotics
2025年工业界全面入局:Physical Intelligence 的 π0/π0.5、Google DeepMind 的 Gemini Robotics、NVIDIA 的 GR00T N1,形成通用机器人基础模型的"大厂竞赛"格局。
代表:π0 / π0.5 / Gemini Robotics / GR00T N1
Genie 证明从互联网视频自监督学习世界模型的可行性,EnerVerse、V-JEPA 2 进一步发展;未来 VLA 的大规模预训练数据来源将从机器人演示扩展到海量互联网视频。
代表:Genie / EnerVerse / V-JEPA 2 / PlayWorld
| 方法类型 | 代表工作 | 核心思路 | 主要优势 |
|---|---|---|---|
| 端到端 VLA | RT-2, OpenVLA, π0 | 预训练 VLM + 动作预测头 | 强泛化、语言指令跟随 |
| 经典 WM(RSSM) | DreamerV1/2/3 | 潜在空间状态转移 + 潜在空间 RL | 样本效率高、无需稠密奖励 |
| 生成式 WM | Genie, DIAMOND, EnerVerse | 扩散/生成式视频模型 + 动作条件化 | 逼真渲染、可交互仿真 |
| WM for RL | WoVR, VLAW, GigaBrain | 世界模型仿真 → RL 训练 VLA | 无需大量真实机器人交互 |
| 潜在动态 CoT | Chain of World, DynVLA | 预测潜在动态 → 条件化动作 | 减少语义-感知鸿沟 |
| 空间增强 VLA | GST-VLA, FutureVLA | 几何/深度结构注入 token | 提升 3D 操作精度 |
| 持续学习 VLA | Simple Recipe, DexHiL | RL 微调 / 人机协同后训练 | 适应新任务无灾难遗忘 |
| 层级规划 WM | MetaWorld-X, H-WM | 高层语义规划 + 低层运动执行 | 长程任务分解与执行 |
| 通用基础模型 | π0, GR00T N1, Gemini Robotics | 大规模多形态预训练 | 跨平台泛化、零样本迁移 |