World Model & Vision-Language-Action

具身智能领域论文综述 · 2018年 — 2026年3月

📅 整理日期:2026-03-29 📄 收录论文:79+ 🔍 来源:ArXiv · HuggingFace 🕐 覆盖范围:2018–2026
🌐

领域概述

🤖 VLA 主线

以预训练语言/视觉大模型为骨干,直接从多模态观测预测机器人动作。强调零样本泛化、语言指令跟随与多任务通用性。代表作:RT-2、OpenVLA、π0、Gemini Robotics。

🌍 World Model 主线

建模环境状态转移动态,为规划、强化学习和数据增强提供"内部仿真器"。可大幅减少真实机器人交互成本。代表作:DreamerV3、Genie、PlayWorld。

🔗 深度融合趋势

2025-2026年的核心趋势:World Model 作为 RL 训练环境为 VLA 后训练,潜在空间 CoT 替代文本 CoT,VLA 策略与 WM 迭代协同改进。

经典奠基论文(2018–2024)

理解当前 WM+VLA 领域绕不开的里程碑工作,从世界模型雏形到现代 VLA 体系的演进脉络。

发展时间线
2018
World Models (Ha & Schmidhuber)
首次提出"世界模型"概念:VAE 感知 + MDN-RNN 记忆 + 控制器,在梦境中训练 Agent
↗ 1803.10122
2019
Dream to Control / DreamerV1 (RSSM)
引入 RSSM(循环状态空间模型),在潜在空间想象中进行 model-based RL,奠定 Dreamer 系列基础
↗ 1912.01603
2020
DreamerV2
引入离散潜在变量(直通梯度),Atari 上首次达人类水平的 model-based RL
↗ 2010.02193
2022-04
SayCan (Google)
用 LLM 规划 + 价值函数评估可执行性,奠定"语言模型用于机器人"的范式
↗ 2204.01691
2022-09
RT-1 (Google)
大规模机器人 Transformer;700 项任务、130k episode;验证数据规模对机器人泛化的决定性作用
↗ 2212.06817
2023-01
DreamerV3 (Google DeepMind)
统一超参数在7类基准(Atari/连续控制/Minecraft/机器人等)全部 SOTA;symlog 变换 + KL 平衡
↗ 2301.04104
2023-03
PaLM-E (Google)
562B 具身多模态大模型,将连续传感器数据注入 LLM;支持机器人规划、VQA、场景理解
↗ 2303.03378
2023-07
RT-2 (Google DeepMind) ⭐ VLA 命名起源
"Vision-Language-Action Models"概念正式提出;VLM 联合微调输出动作 token;展现涌现泛化能力
↗ 2307.15818
2024-02
Genie (Google DeepMind)
从无标注互联网视频自监督训练可交互世界模型;1B 参数;首个从视频学习动作潜变量的生成式世界模型
↗ 2402.15391
2024-05
Octo (UC Berkeley)
通用机器人 Transformer;OpenX 数据集预训练;灵活输入输出;学界常用基线模型
↗ 2405.12213
2024-05
DIAMOND
扩散世界模型用于 Atari 游戏强化学习,超越 DreamerV3;验证生成式世界模型的 RL 训练能力
↗ 2405.12399
2024-06
OpenVLA (Stanford / UC Berkeley)
开源 7B VLA;BridgeData V2 + OXE 预训练;成为后续研究标准基线
↗ 2406.09246
2024-06
RDT-1B
扩散 Transformer 机器人策略;1B 参数;多模态上下文(语言/图像/动作)双手操作新基准
↗ 2406.15270
2024-10
π0 / pi-zero (Physical Intelligence)
通用机器人 VLA;Flow Matching 连续动作;7 平台 68 任务跨平台训练;行业最受关注的通用机器人基础模型
↗ 2410.24164
2025 年新经典工作
2025-01

FAST: Efficient Action Tokenization for VLA

频域动作 tokenizer,将连续动作压缩为紧凑离散 token;解决扩散策略慢、自回归策略精度低的双重困境。Physical Intelligence。

2025-01

EnerVerse: Envisioning Embodied Future Space for Robotics

机器人专用世界模型;多相机一致性生成 + 无限空间扩展;为 VLA 提供高质量数据增强和想象式规划环境。

2025-03

GR00T N1 (NVIDIA)

NVIDIA 开源人形机器人基础模型;双系统架构(快/慢);Isaac Lab 仿真训练;全身运动控制;物理 AI 方向重要里程碑。

2025-03

Gemini Robotics (Google DeepMind)

基于 Gemini 2.0 的机器人基础模型;安全感知;多形态泛化;世界理解 + 灵巧控制;行业顶级工程与研究成果。

2025-03

V-JEPA 2 (Meta AI)

自监督视频模型;预测潜在表征;支持理解、预测和规划三类任务;在机器人操作规划基准上超越 GPT-4o。

2025-03

CoT-VLA: Visual Chain-of-Thought for VLA

视觉链式思维:先预测目标未来图像,再生成动作;混合注意力机制;将 LLM CoT 的推理范式迁移至机器人视觉-动作决策。

2025-04

π0.5 (Physical Intelligence)

开放世界通用 VLA;高级 VLM 推理 + π0 灵巧控制;Web 数据 + 机器人数据协同训练;在陌生家庭环境中完成长程任务。

2025-04

DreamVLA: Dreaming with World Knowledge for VLA

融合世界知识的 VLA;视频扩散世界模型生成未来想象帧作为辅助训练信号,从而让 VLA 掌握物理常识与时序推理。

🤖

VLA 方向重要论文

基础 / 奠基性工作
2024-06

OpenVLA: An Open-Source Vision-Language-Action Model

开源 7B 参数 VLA,基于 BridgeData V2 + OXE 数据集预训练,成为后续研究标准基线。Stanford / UC Berkeley。

2025-05-09

UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

任务中心潜在动作表示,无需大量动作标注数据,通用跨环境机器人控制。

2025-09-29

Emergent World Representations in OpenVLA

分析基于 RL 训练的 VLA 是否隐式学到世界内部表征,揭示 VLA 的涌现能力。

高效推理 / 架构创新
2026-03-11

DepthCache: Depth-Guided Training-Free Visual Token Merging

利用深度引导的 Token 合并降低 VLA 推理延迟,无需重新训练,即插即用。

2026-03-10

AR-VLA: True Autoregressive Action Expert for VLA

独立自回归 Action Expert,以连续 causal 序列生成动作,条件化于可刷新的视觉-语言前缀。

2026-03-09

SaiVLA-0: Cerebrum–Pons–Cerebellum Tripartite Architecture

神经科学启发三部件:大脑(VLM冻结提供语义先验)+ 桥脑(适配实时本体感觉)+ 小脑(精确动作执行)。

2026-03-10

Cross-Hand Latent Representation for VLA

跨手型潜在表征,提升灵巧操作中的视觉-动作对齐,支持多指手协调。

视觉感知增强
2026-03-12

SaPaVe: Active Perception and Manipulation in VLA

统一语义驱动的主动感知与视点不变执行,端到端框架解决遮挡和视点变化问题。

2026-03-11

FutureVLA: Joint Visuomotor Prediction for VLA

联合视动预测,显式建模未来视觉-运动的紧密关联,提升长程操作准确性。

2026-03-10

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware VLA

将 2D patch token 提升为带几何结构的 3D Gaussian 空间 token,弥补平面感知的几何缺失。

2026-03-11

Overcoming Visual Clutter via Concept-Gated Visual Distillation

概念门控视觉蒸馏解决复杂背景导致的"精度-推理差距",背景特征稀释问题。

持续学习 / 后训练
2026-03-12

Simple Recipe Works: VLA as Natural Continual Learners with RL

展示 VLA 天然适合持续强化学习,无需特殊持续学习算法设计,简单 RL 微调即可。

2026-03-10

DexHiL: Human-in-the-Loop Framework for VLA Post-Training

人在回路的 VLA 后训练框架,高效适配灵巧操作复杂下游任务。

2026-03-10

See, Plan, Rewind: Progress-Aware VLA Models

显式任务进度建模,感知可量化的里程碑,实现错误检测与可恢复的鲁棒操作。

自动驾驶 VLA
2026-03-11

DynVLA: Learning World Dynamics for Action Reasoning in AD

提出 Dynamics CoT:先预测紧凑世界动态 token,再生成驾驶动作,物理接地决策。

2026-03-10

StyleVLA: Driving Style-Aware Vision Language Action Model

驾驶风格感知的 VLA,支持保守/激进等个性化驾驶行为适配。

2026-03-10

EvoDriveVLA: Evolving Autonomous Driving VLA

协同感知-规划蒸馏框架,解决视觉编码器解冻后性能退化与长程规划不稳定问题。

2026-03-09

SAMoE-VLA: Scene Adaptive MoE for Autonomous Driving

场景自适应混合专家 VLA,不同驾驶场景路由不同专家子网络。

2026-03-10

NS-VLA: Towards Neuro-Symbolic VLA

神经符号融合,学习可复用的操作原语,提升对新任务的组合泛化能力。

2026-03-09

ΔVLA: Prior-Guided VLA via World Knowledge Variation

利用世界知识变化量(Δ)作为先验引导预测范式,建模未来视觉状态或世界模型变化。

🌍

World Model 方向重要论文

Dreamer 系列演进
2018-03

World Models (Ha & Schmidhuber)

开创性工作:VAE 压缩视觉 + MDN-RNN 建模时序动态 + 线性控制器;提出"在梦境中训练 Agent"的核心思想,奠定世界模型研究方向。

2019-12

Dream to Control / DreamerV1 (RSSM)

循环状态空间模型 (RSSM);在潜在空间想象轨迹进行 model-based RL;DeepMind 出品,为 Dreamer 系列奠基,RSSM 仍是主流世界模型架构骨干。

2023-01

DreamerV3: Mastering Diverse Domains

统一超参数跨 7 类基准全 SOTA(Atari/连续控制/Minecraft/机器人);symlog 变换 + KL 平衡;首个从头学 Minecraft 钻石的 Agent。Google DeepMind 重磅工作。

2024-05

DIAMOND: Diffusion World Model for Atari RL

基于扩散的视觉世界模型用于 Atari 游戏强化学习;超越 DreamerV3;验证生成式世界模型替代真实环境进行 RL 训练的可行性。

生成式 / 交互式世界模型
2024-02

Genie: Generative Interactive Environments (Google DeepMind)

从无标注互联网视频自监督训练可交互世界模型;1B 参数;时空视频 Tokenizer + 潜在动作模型 + 动态模型;首个从视频学习动作潜变量的生成式世界模型,影响深远。

2025-01

EnerVerse: Embodied Future Space for Robotics Manipulation

机器人专用世界模型;自由视角一致性视频生成;无限空间扩展;为机器人 VLA 提供想象式规划环境与高质量数据增强。

2025-03

V-JEPA 2: Self-Supervised Video Models (Meta AI)

自监督视频表征学习;联合嵌入预测架构;支持理解、预测和规划;在机器人操作规划上超越 GPT-4o;为 WM+VLA 预训练提供新路径。

机器人操作 World Model
2026-03-09

PlayWorld: Learning Robot World Models from Autonomous Play

从机器人自主探索数据(无需任务标注)学习通用仿真世界模型,大规模数据利用。

2026-03-11

ResWM: Residual-Action World Model for Visual RL

残差动作世界模型,基于原始视觉观测进行强化学习,提升连续控制中的样本效率。

2026-03-09

MetaWorld-X: Hierarchical World Modeling for Humanoid Loco-Manipulation

VLM 协调多专家的层级世界模型,用于人形机器人同步运动与操作任务。

2026-03-12

SPIRAL: Self-Improving Action World Models via Reflective Planning

自我改进的闭环动作世界模型框架,结合反思规划实现长程可控视频生成。

2026-02-11

H-WM: Robotic Task and Motion Planning via Hierarchical World Model

层级世界模型引导任务规划与运动规划,超越纯视频生成或语言预测的现有方法。

2026-03-12

ARROW: Augmented Replay for Robust World Models

持续强化学习场景下,通过增强回放机制保持世界模型在新旧任务上的鲁棒性。

自动驾驶 World Model
2026-03-10

Latent World Models for AD: Unified Taxonomy & Evaluation ⭐综述

自动驾驶潜在世界模型统一分类体系与评估框架,覆盖 VLA 系统,梳理开放挑战。

2026-03-07

Kinematics-Aware Latent World Models for Data-Efficient AD

运动学感知的潜在世界模型,将车辆运动学约束融入状态预测,提升数据效率。

2026-03-06

WorldCache: Accelerating World Models via Heterogeneous Token Caching

异构 Token 缓存策略加速扩散世界模型,实现交互式使用与长程滚动预测。

2026-03-05

Planning in 8 Tokens: Compact Discrete Tokenizer for Latent World Model

超紧凑离散 token 化方案,将规划状态压缩至 8 个 token,大幅降低世界模型规划计算开销。

导航 World Model
2026-03-10

RAE-NWM: Navigation World Model in Dense Visual Representation

密集视觉表征空间中的导航世界模型,动作条件化状态转移用于目标导航规划。

2026-03-08

MWM: Mobile World Models for Action-Conditioned Consistent Prediction

移动端动作条件化一致性世界模型,在移动导航中提供时序连贯的未来预测。

🤖

LingBot 系列工作专栏

Robbyant 团队构建的垂直整合技术栈:空间感知(Depth)→ 世界仿真(World)→ 因果视频-动作建模(VA)→ 实用 VLA 基础模型(VLA)。四个工作相互依赖,形成完整闭环。

2026-01-27 · ⭐961 Stars

LingBot-VLA: A Pragmatic VLA Foundation Model

实用主义 VLA 基础模型。20,000小时真实双臂机器人数据预训练,9种机器人配置;原生集成 LingBot-Depth(MoRGBD);Flow Matching 动作生成;训练效率 1.5–2.8× 提升。GM-100 平均 SR 35.4%,超越 π0.5、GR00T N1.6。

2026-01-29 · ⭐3.2k Stars

LingBot-World: Advancing Open-source World Models

开源顶级世界仿真器。基于 Wan2.2 DiT;<1秒延迟 16fps 实时交互;961帧分钟级时序记忆;双控制信号(相机位姿 + 机器人动作);覆盖写实/科幻/卡通等多样环境。

2026-01-29 · ⭐836 Stars

LingBot-VA: Causal World Modeling for Robot Control

因果视频-动作世界模型。双流 MoT 架构将视频帧与动作 token 交织自回归;KV Cache + 异步执行;首个在 RoboTwin 2.0 Easy+Hard 双超90% 的工作(92.9%/91.6%)。

2026-01 · ⭐957 Stars

LingBot-Depth: Masked Depth Modeling for Spatial Perception

机器人深度感知基础模型。掩码深度建模(MDM)自监督预训练;ViT-L + 深度感知注意力;3M RGB-D 数据集训练;度量精确深度图 + 3D 点云;集成于 LingBot-VLA 作为 MoRGBD 感知增强模块。

📖 查看 LingBot 系列完整深度分析 →
🔗

WM + VLA 深度融合(2025–2026 最热方向)

核心范式:用真实数据训练世界模型 → 在世界模型中进行 RL 后训练 VLA → 无需大量真实机器人交互

先驱工作(2022–2024)
2022-04

SayCan: Grounding Language in Robotic Affordances (Google)

LLM 生成高层计划 + 价值函数评估可执行性,将语言模型的世界知识与机器人能力接地。奠定"LLM × 机器人"范式基础,VLA+WM 融合的先驱思路。

2025-04

DreamVLA: Dreaming with Comprehensive World Knowledge

视频扩散世界模型生成未来想象帧作为 VLA 辅助训练信号;让 VLA 掌握物理常识与时序推理;WM 监督式预训练 VLA 的重要范式。

2026 年爆发期
2026-03-11

World2Act: Latent Action Post-Training via Skill-Compositional World Models

技能组合世界模型用于 VLA 后训练,自适应处理分布外环境变化,提升策略鲁棒性。

2026-03-09

AtomVLA: Scalable Post-Training via Predictive Latent World Models

预测性潜在世界模型可扩展地提升 VLA 多步行为的鲁棒性与指令跟随能力。

2026-03-03

Chain of World: World Model Thinking in Latent Motion

将 CoT 从语言 token 迁移到潜在运动空间,引入时序因果结构,VLA 先"想"再"做"。

2026-03-02

LaST-VLA: Thinking in Latent Spatio-Temporal Space

用潜在时空表征替代文本 CoT,消除语义-感知鸿沟,用于自动驾驶 VLA。

2026-02-15

WoVR: World Models as Reliable Simulators for Post-Training VLA with RL

世界模型替代真实环境,为 VLA 提供 RL 训练沙箱,大幅降低真实机器人交互需求。

2026-02-12

VLAW: Iterative Co-Improvement of VLA Policy and World Model

VLA 策略与世界模型双向迭代协同改进,线上交互数据循环提升两者质量。

2026-02-11

RISE: Self-Improving Robot Policy with Compositional World Model

组合式世界模型驱动机器人策略自我改进,解决接触丰富动态操作任务的 VLA 脆弱性。

2026-02-11

Scaling World Model for Hierarchical Manipulation Policies

层级操作策略的世界模型扩展,解决 OOD 场景下 VLA 脆弱性,仅需少量真实数据。

2026-02-10

VLA-JEPA: Enhancing VLA with Latent World Model

JEPA 风格潜在世界模型预训练,超越像素级变化的动作-感知对齐目标。

2026-02-25

World Guidance: World Modeling in Condition Space for Action Generation

在条件空间中建模未来观测,将世界模型预测作为 VLA 动作生成的引导信号。

2026-02-12

GigaBrain-0.5M: VLA Learns From World Model-Based RL

基于世界模型 RL 的 VLA 训练,解决单步 chunk 动作预测的场景理解局限。

2026-03-26 🆕

Persistent Robot World Models: Stabilizing Multi-Step Rollouts via RL

针对动作条件化机器人世界模型多步 rollout 的累积误差问题,用 RL 稳定长程预测,提升世界模型在机器人操控中的可靠性。

2026-03-26 🆕

MMaDA-VLA: Large Diffusion VLA with Unified Multi-Modal Instruction and Generation

将扩散模型引入 VLA,统一多模态指令理解与动作生成,覆盖操控与条件生成双任务。

2026-03-26 🆕

LaMP: 3D Scene Flow as Latent Motion Prior for VLA

双专家 VLA 框架,将稠密 3D 场景流嵌入为潜在运动先验,引导机器人操控策略,弥补 2D token 的几何缺失。

2026-03-24 🆕

ABot-PhysWorld: Interactive World Foundation Model with Physics Alignment

机器人操控的物理对齐交互式世界基础模型,视频世界模型融合物理先验,生成逼真、物理一致的未来帧以辅助 VLA 规划。

2026-03-23 🆕

Fast-WAM: Do World Action Models Need Test-Time Future Imagination?

质疑 World Action Model 测试时是否真的需要未来想象推理,提出快速 WAM,消融验证 WM 前向预测的实际贡献度。

2026-03-23 🆕

Do World Action Models Generalize Better than VLAs? A Robustness Study

系统对比 World Action Model 与标准 VLA 在泛化与鲁棒性上的差异,首个针对 WAM vs. VLA 的大规模对比研究。

2026-03-23 🆕

DualCoT-VLA: Visual-Linguistic Chain of Thought via Parallel Reasoning

视觉与语言两路并行 CoT,避免语言 CoT 对视觉推理的干扰,双流推理路径提升 VLA 在复杂操控任务上的决策质量。

2026-03-24 🆕

VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment

训练免修的 VLA 视觉 token 剪枝方案,通过交互对齐衡量 token 重要性,大幅降低推理开销,保持动作精度。

2026-03-22 🆕

RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in VLA

VLA 的测试时语言-动作对齐推理,无需重新训练即可动态修正语言指令歧义,提升零样本指令跟随鲁棒性。

2026-03-26 🆕

X-World: Controllable Ego-Centric Multi-Camera World Models for E2E Driving

自动驾驶多视角自我中心世界模型,可控生成未来场景帧,为端到端驾驶 VLA 策略提供可扩展评估与数据增广平台。

2026-03-20 🆕

Towards Practical WM-Based RL for VLA Models

面向实用化的世界模型 RL 训练 VLA,针对真实部署约束(样本效率、稳定性)提出改进方案,是 WoVR/VLAW 路线的重要延伸。

2026-03-24 🆕

TRAP: Hijacking VLA CoT-Reasoning via Adversarial Patches

首个针对 VLA CoT 推理的对抗攻击研究,对抗贴片可劫持视觉-语言-动作链式推理过程,揭示 CoT-VLA 的安全漏洞。

🔥

近期热点 TOP 10(2026-03-29 更新)

1
World2Act

技能组合 WM 用于 VLA 后训练新框架

↗ 2603.10422
2
ABot-PhysWorld 🆕

物理对齐交互式世界基础模型,视频 WM + 物理先验

↗ 2603 new
3
Fast-WAM 🆕

质疑 WAM 测试时未来想象必要性,提出高效 World Action Model

↗ 2603 new
4
Do WAMs Generalize Better? 🆕

WAM vs VLA 首个大规模泛化鲁棒性对比研究

↗ 2603 new
5
LaMP 🆕

3D 场景流作为 VLA 的潜在运动先验,双专家框架

↗ 2603 new
6
AtomVLA

预测潜在世界模型提升多步任务鲁棒性

↗ 2603.08519
7
DualCoT-VLA 🆕

视觉-语言双路并行 CoT,避免单链推理瓶颈

↗ 2603 new
8
FutureVLA

联合视动预测,未来感知与动作深度绑定

↗ 2603.10712
9
Gemini Robotics

Google DeepMind 通用机器人基础模型,Gemini 2.0 加持

↗ 2503.20020
10
X-World 🆕

多视角自我中心驾驶世界模型,端到端 VLA 评估平台

↗ 2603 new