World Model & VLA 论文综述 (2018

🌐

领域概述

🤖 VLA 主线

以预训练语言/视觉大模型为骨干，直接从多模态观测预测机器人动作。强调零样本泛化、语言指令跟随与多任务通用性。代表作：RT-2、OpenVLA、π0、Gemini Robotics。

🌍 World Model 主线

建模环境状态转移动态，为规划、强化学习和数据增强提供"内部仿真器"。可大幅减少真实机器人交互成本。代表作：DreamerV3、Genie、PlayWorld。

🔗 深度融合趋势

2025-2026年的核心趋势：World Model 作为 RL 训练环境为 VLA 后训练，潜在空间 CoT 替代文本 CoT，VLA 策略与 WM 迭代协同改进。

🌐

在线专题知识库

本站已发布的专题深度调研页面，每页包含完整论文列表、时间线、对比表格与洞察分析。

🧠 大模型长文本 Memory Benchmark 综述

调研「对话记忆、Agent 记忆、个性化、情节记忆」四大维度下的 14 篇核心 Benchmark（2021–2026），含横向对比表格与核心洞察分析。

LongMemEval · LoCoMo · MemoryAgentBench · PersonaMem-v2 · ATM-Bench · ...

🌐 查看完整综述 →

🔬 视觉上下文压缩综述

调研「将文本渲染为图像、用视觉 token 替代文字 token」这一压缩路线，涵盖 DeepSeek-OCR、Glyph、VIST、Text-or-Pixels、C3、LongCodeOCR、CEPE、VCC 等 8 篇核心论文，含压缩比对比表与挑战分析。

DeepSeek-OCR · Glyph · VIST · C3 · CEPE · ...

🌐 查看完整综述 →

⭐

经典奠基论文（2018–2024）

理解当前 WM+VLA 领域绕不开的里程碑工作，从世界模型雏形到现代 VLA 体系的演进脉络。

发展时间线

2018

World Models (Ha & Schmidhuber)

首次提出"世界模型"概念：VAE 感知 + MDN-RNN 记忆 + 控制器，在梦境中训练 Agent

↗ 1803.10122

2019

Dream to Control / DreamerV1 (RSSM)

引入 RSSM（循环状态空间模型），在潜在空间想象中进行 model-based RL，奠定 Dreamer 系列基础

↗ 1912.01603

2020

DreamerV2

引入离散潜在变量（直通梯度），Atari 上首次达人类水平的 model-based RL

↗ 2010.02193

2022-04

SayCan (Google)

用 LLM 规划 + 价值函数评估可执行性，奠定"语言模型用于机器人"的范式

↗ 2204.01691

2022-09

RT-1 (Google)

大规模机器人 Transformer；700 项任务、130k episode；验证数据规模对机器人泛化的决定性作用

↗ 2212.06817

2023-01

DreamerV3 (Google DeepMind)

统一超参数在7类基准（Atari/连续控制/Minecraft/机器人等）全部 SOTA；symlog 变换 + KL 平衡

↗ 2301.04104

2023-03

PaLM-E (Google)

562B 具身多模态大模型，将连续传感器数据注入 LLM；支持机器人规划、VQA、场景理解

↗ 2303.03378

2023-07

RT-2 (Google DeepMind) ⭐ VLA 命名起源

"Vision-Language-Action Models"概念正式提出；VLM 联合微调输出动作 token；展现涌现泛化能力

↗ 2307.15818

2024-02

Genie (Google DeepMind)

从无标注互联网视频自监督训练可交互世界模型；1B 参数；首个从视频学习动作潜变量的生成式世界模型

↗ 2402.15391

2024-05

Octo (UC Berkeley)

通用机器人 Transformer；OpenX 数据集预训练；灵活输入输出；学界常用基线模型

↗ 2405.12213

2024-05

DIAMOND

扩散世界模型用于 Atari 游戏强化学习，超越 DreamerV3；验证生成式世界模型的 RL 训练能力

↗ 2405.12399

2024-06

OpenVLA (Stanford / UC Berkeley)

开源 7B VLA；BridgeData V2 + OXE 预训练；成为后续研究标准基线

↗ 2406.09246

2024-06

RDT-1B

扩散 Transformer 机器人策略；1B 参数；多模态上下文（语言/图像/动作）双手操作新基准

↗ 2406.15270

2024-10

π0 / pi-zero (Physical Intelligence)

通用机器人 VLA；Flow Matching 连续动作；7 平台 68 任务跨平台训练；行业最受关注的通用机器人基础模型

↗ 2410.24164

2025 年新经典工作

2025-01

FAST: Efficient Action Tokenization for VLA

频域动作 tokenizer，将连续动作压缩为紧凑离散 token；解决扩散策略慢、自回归策略精度低的双重困境。Physical Intelligence。

2025-01

EnerVerse: Envisioning Embodied Future Space for Robotics

机器人专用世界模型；多相机一致性生成 + 无限空间扩展；为 VLA 提供高质量数据增强和想象式规划环境。

2025-03

GR00T N1 (NVIDIA)

NVIDIA 开源人形机器人基础模型；双系统架构（快/慢）；Isaac Lab 仿真训练；全身运动控制；物理 AI 方向重要里程碑。

2025-03

Gemini Robotics (Google DeepMind)

基于 Gemini 2.0 的机器人基础模型；安全感知；多形态泛化；世界理解 + 灵巧控制；行业顶级工程与研究成果。

2025-03

V-JEPA 2 (Meta AI)

自监督视频模型；预测潜在表征；支持理解、预测和规划三类任务；在机器人操作规划基准上超越 GPT-4o。

2025-03

CoT-VLA: Visual Chain-of-Thought for VLA

视觉链式思维：先预测目标未来图像，再生成动作；混合注意力机制；将 LLM CoT 的推理范式迁移至机器人视觉-动作决策。

2025-04

π0.5 (Physical Intelligence)

开放世界通用 VLA；高级 VLM 推理 + π0 灵巧控制；Web 数据 + 机器人数据协同训练；在陌生家庭环境中完成长程任务。

2025-04

DreamVLA: Dreaming with World Knowledge for VLA

融合世界知识的 VLA；视频扩散世界模型生成未来想象帧作为辅助训练信号，从而让 VLA 掌握物理常识与时序推理。

🤖

VLA 方向重要论文

基础 / 奠基性工作

2024-06

OpenVLA: An Open-Source Vision-Language-Action Model

开源 7B 参数 VLA，基于 BridgeData V2 + OXE 数据集预训练，成为后续研究标准基线。Stanford / UC Berkeley。

2025-05-09

UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

任务中心潜在动作表示，无需大量动作标注数据，通用跨环境机器人控制。

2025-09-29

Emergent World Representations in OpenVLA

分析基于 RL 训练的 VLA 是否隐式学到世界内部表征，揭示 VLA 的涌现能力。

高效推理 / 架构创新

2026-03-11

DepthCache: Depth-Guided Training-Free Visual Token Merging

利用深度引导的 Token 合并降低 VLA 推理延迟，无需重新训练，即插即用。

2026-03-10

AR-VLA: True Autoregressive Action Expert for VLA

独立自回归 Action Expert，以连续 causal 序列生成动作，条件化于可刷新的视觉-语言前缀。

2026-03-09

SaiVLA-0: Cerebrum–Pons–Cerebellum Tripartite Architecture

神经科学启发三部件：大脑（VLM冻结提供语义先验）+ 桥脑（适配实时本体感觉）+ 小脑（精确动作执行）。

2026-03-10

Cross-Hand Latent Representation for VLA

跨手型潜在表征，提升灵巧操作中的视觉-动作对齐，支持多指手协调。

视觉感知增强

2026-03-12

SaPaVe: Active Perception and Manipulation in VLA

统一语义驱动的主动感知与视点不变执行，端到端框架解决遮挡和视点变化问题。

2026-03-11

FutureVLA: Joint Visuomotor Prediction for VLA

联合视动预测，显式建模未来视觉-运动的紧密关联，提升长程操作准确性。

2026-03-10

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware VLA

将 2D patch token 提升为带几何结构的 3D Gaussian 空间 token，弥补平面感知的几何缺失。

2026-03-11

Overcoming Visual Clutter via Concept-Gated Visual Distillation

概念门控视觉蒸馏解决复杂背景导致的"精度-推理差距"，背景特征稀释问题。

持续学习 / 后训练

2026-03-12

Simple Recipe Works: VLA as Natural Continual Learners with RL

展示 VLA 天然适合持续强化学习，无需特殊持续学习算法设计，简单 RL 微调即可。

2026-03-10

DexHiL: Human-in-the-Loop Framework for VLA Post-Training

人在回路的 VLA 后训练框架，高效适配灵巧操作复杂下游任务。

2026-03-10

See, Plan, Rewind: Progress-Aware VLA Models

显式任务进度建模，感知可量化的里程碑，实现错误检测与可恢复的鲁棒操作。

自动驾驶 VLA

2026-03-11

DynVLA: Learning World Dynamics for Action Reasoning in AD

提出 Dynamics CoT：先预测紧凑世界动态 token，再生成驾驶动作，物理接地决策。

2026-03-10

StyleVLA: Driving Style-Aware Vision Language Action Model

驾驶风格感知的 VLA，支持保守/激进等个性化驾驶行为适配。

2026-03-10

EvoDriveVLA: Evolving Autonomous Driving VLA

协同感知-规划蒸馏框架，解决视觉编码器解冻后性能退化与长程规划不稳定问题。

2026-03-09

SAMoE-VLA: Scene Adaptive MoE for Autonomous Driving

场景自适应混合专家 VLA，不同驾驶场景路由不同专家子网络。

2026-03-10

NS-VLA: Towards Neuro-Symbolic VLA

神经符号融合，学习可复用的操作原语，提升对新任务的组合泛化能力。

2026-03-09

ΔVLA: Prior-Guided VLA via World Knowledge Variation

利用世界知识变化量（Δ）作为先验引导预测范式，建模未来视觉状态或世界模型变化。

🌍

World Model 方向重要论文

Dreamer 系列演进

2018-03

World Models (Ha & Schmidhuber)

开创性工作：VAE 压缩视觉 + MDN-RNN 建模时序动态 + 线性控制器；提出"在梦境中训练 Agent"的核心思想，奠定世界模型研究方向。

2019-12

Dream to Control / DreamerV1 (RSSM)

循环状态空间模型 (RSSM)；在潜在空间想象轨迹进行 model-based RL；DeepMind 出品，为 Dreamer 系列奠基，RSSM 仍是主流世界模型架构骨干。

2023-01

DreamerV3: Mastering Diverse Domains

统一超参数跨 7 类基准全 SOTA（Atari/连续控制/Minecraft/机器人）；symlog 变换 + KL 平衡；首个从头学 Minecraft 钻石的 Agent。Google DeepMind 重磅工作。

2024-05

DIAMOND: Diffusion World Model for Atari RL

基于扩散的视觉世界模型用于 Atari 游戏强化学习；超越 DreamerV3；验证生成式世界模型替代真实环境进行 RL 训练的可行性。

生成式 / 交互式世界模型

2024-02

Genie: Generative Interactive Environments (Google DeepMind)

从无标注互联网视频自监督训练可交互世界模型；1B 参数；时空视频 Tokenizer + 潜在动作模型 + 动态模型；首个从视频学习动作潜变量的生成式世界模型，影响深远。

2025-01

EnerVerse: Embodied Future Space for Robotics Manipulation

机器人专用世界模型；自由视角一致性视频生成；无限空间扩展；为机器人 VLA 提供想象式规划环境与高质量数据增强。

2025-03

V-JEPA 2: Self-Supervised Video Models (Meta AI)

自监督视频表征学习；联合嵌入预测架构；支持理解、预测和规划；在机器人操作规划上超越 GPT-4o；为 WM+VLA 预训练提供新路径。

机器人操作 World Model

2026-03-09

PlayWorld: Learning Robot World Models from Autonomous Play

从机器人自主探索数据（无需任务标注）学习通用仿真世界模型，大规模数据利用。

2026-03-11

ResWM: Residual-Action World Model for Visual RL

残差动作世界模型，基于原始视觉观测进行强化学习，提升连续控制中的样本效率。

2026-03-09

MetaWorld-X: Hierarchical World Modeling for Humanoid Loco-Manipulation

VLM 协调多专家的层级世界模型，用于人形机器人同步运动与操作任务。

2026-03-12

SPIRAL: Self-Improving Action World Models via Reflective Planning

自我改进的闭环动作世界模型框架，结合反思规划实现长程可控视频生成。

2026-02-11

H-WM: Robotic Task and Motion Planning via Hierarchical World Model

层级世界模型引导任务规划与运动规划，超越纯视频生成或语言预测的现有方法。

2026-03-12

ARROW: Augmented Replay for Robust World Models

持续强化学习场景下，通过增强回放机制保持世界模型在新旧任务上的鲁棒性。

自动驾驶 World Model

2026-03-10

Latent World Models for AD: Unified Taxonomy & Evaluation ⭐综述

自动驾驶潜在世界模型统一分类体系与评估框架，覆盖 VLA 系统，梳理开放挑战。

2026-03-07

Kinematics-Aware Latent World Models for Data-Efficient AD

运动学感知的潜在世界模型，将车辆运动学约束融入状态预测，提升数据效率。

2026-03-06

WorldCache: Accelerating World Models via Heterogeneous Token Caching

异构 Token 缓存策略加速扩散世界模型，实现交互式使用与长程滚动预测。

2026-03-05

Planning in 8 Tokens: Compact Discrete Tokenizer for Latent World Model

超紧凑离散 token 化方案，将规划状态压缩至 8 个 token，大幅降低世界模型规划计算开销。

导航 World Model

2026-03-10

RAE-NWM: Navigation World Model in Dense Visual Representation

密集视觉表征空间中的导航世界模型，动作条件化状态转移用于目标导航规划。

2026-03-08

MWM: Mobile World Models for Action-Conditioned Consistent Prediction

移动端动作条件化一致性世界模型，在移动导航中提供时序连贯的未来预测。

🤖

LingBot 系列工作专栏

Robbyant 团队构建的垂直整合技术栈：空间感知（Depth）→ 世界仿真（World）→ 因果视频-动作建模（VA）→ 实用 VLA 基础模型（VLA）。四个工作相互依赖，形成完整闭环。

2026-01-27 · ⭐961 Stars

LingBot-VLA: A Pragmatic VLA Foundation Model

实用主义 VLA 基础模型。20,000小时真实双臂机器人数据预训练，9种机器人配置；原生集成 LingBot-Depth（MoRGBD）；Flow Matching 动作生成；训练效率 1.5–2.8× 提升。GM-100 平均 SR 35.4%，超越 π0.5、GR00T N1.6。

2026-01-29 · ⭐3.2k Stars

LingBot-World: Advancing Open-source World Models

开源顶级世界仿真器。基于 Wan2.2 DiT；<1秒延迟 16fps 实时交互；961帧分钟级时序记忆；双控制信号（相机位姿 + 机器人动作）；覆盖写实/科幻/卡通等多样环境。

2026-01-29 · ⭐836 Stars

LingBot-VA: Causal World Modeling for Robot Control

因果视频-动作世界模型。双流 MoT 架构将视频帧与动作 token 交织自回归；KV Cache + 异步执行；首个在 RoboTwin 2.0 Easy+Hard 双超90% 的工作（92.9%/91.6%）。

2026-01 · ⭐957 Stars

LingBot-Depth: Masked Depth Modeling for Spatial Perception

机器人深度感知基础模型。掩码深度建模（MDM）自监督预训练；ViT-L + 深度感知注意力；3M RGB-D 数据集训练；度量精确深度图 + 3D 点云；集成于 LingBot-VLA 作为 MoRGBD 感知增强模块。

📖 查看 LingBot 系列完整深度分析 →

🔗

WM + VLA 深度融合（2025–2026 最热方向）

核心范式：用真实数据训练世界模型 → 在世界模型中进行 RL 后训练 VLA → 无需大量真实机器人交互

先驱工作（2022–2024）

2022-04

SayCan: Grounding Language in Robotic Affordances (Google)

LLM 生成高层计划 + 价值函数评估可执行性，将语言模型的世界知识与机器人能力接地。奠定"LLM × 机器人"范式基础，VLA+WM 融合的先驱思路。

2025-04

DreamVLA: Dreaming with Comprehensive World Knowledge

视频扩散世界模型生成未来想象帧作为 VLA 辅助训练信号；让 VLA 掌握物理常识与时序推理；WM 监督式预训练 VLA 的重要范式。

2026 年爆发期

2026-03-11

World2Act: Latent Action Post-Training via Skill-Compositional World Models

技能组合世界模型用于 VLA 后训练，自适应处理分布外环境变化，提升策略鲁棒性。

2026-03-09

AtomVLA: Scalable Post-Training via Predictive Latent World Models

预测性潜在世界模型可扩展地提升 VLA 多步行为的鲁棒性与指令跟随能力。

2026-03-03

Chain of World: World Model Thinking in Latent Motion

将 CoT 从语言 token 迁移到潜在运动空间，引入时序因果结构，VLA 先"想"再"做"。

2026-03-02

LaST-VLA: Thinking in Latent Spatio-Temporal Space

用潜在时空表征替代文本 CoT，消除语义-感知鸿沟，用于自动驾驶 VLA。

2026-02-15

WoVR: World Models as Reliable Simulators for Post-Training VLA with RL

世界模型替代真实环境，为 VLA 提供 RL 训练沙箱，大幅降低真实机器人交互需求。

2026-02-12

VLAW: Iterative Co-Improvement of VLA Policy and World Model

VLA 策略与世界模型双向迭代协同改进，线上交互数据循环提升两者质量。

2026-02-11

RISE: Self-Improving Robot Policy with Compositional World Model

组合式世界模型驱动机器人策略自我改进，解决接触丰富动态操作任务的 VLA 脆弱性。

2026-02-11

Scaling World Model for Hierarchical Manipulation Policies

层级操作策略的世界模型扩展，解决 OOD 场景下 VLA 脆弱性，仅需少量真实数据。

2026-02-10

VLA-JEPA: Enhancing VLA with Latent World Model

JEPA 风格潜在世界模型预训练，超越像素级变化的动作-感知对齐目标。

2026-02-25

World Guidance: World Modeling in Condition Space for Action Generation

在条件空间中建模未来观测，将世界模型预测作为 VLA 动作生成的引导信号。

2026-02-12

GigaBrain-0.5M: VLA Learns From World Model-Based RL

基于世界模型 RL 的 VLA 训练，解决单步 chunk 动作预测的场景理解局限。

2026-03-26 🆕

Persistent Robot World Models: Stabilizing Multi-Step Rollouts via RL

针对动作条件化机器人世界模型多步 rollout 的累积误差问题，用 RL 稳定长程预测，提升世界模型在机器人操控中的可靠性。

2026-03-26 🆕

MMaDA-VLA: Large Diffusion VLA with Unified Multi-Modal Instruction and Generation

将扩散模型引入 VLA，统一多模态指令理解与动作生成，覆盖操控与条件生成双任务。

2026-03-26 🆕

LaMP: 3D Scene Flow as Latent Motion Prior for VLA

双专家 VLA 框架，将稠密 3D 场景流嵌入为潜在运动先验，引导机器人操控策略，弥补 2D token 的几何缺失。

2026-03-24 🆕

ABot-PhysWorld: Interactive World Foundation Model with Physics Alignment

机器人操控的物理对齐交互式世界基础模型，视频世界模型融合物理先验，生成逼真、物理一致的未来帧以辅助 VLA 规划。

2026-03-23 🆕

Fast-WAM: Do World Action Models Need Test-Time Future Imagination?

质疑 World Action Model 测试时是否真的需要未来想象推理，提出快速 WAM，消融验证 WM 前向预测的实际贡献度。

2026-03-23 🆕

Do World Action Models Generalize Better than VLAs? A Robustness Study

系统对比 World Action Model 与标准 VLA 在泛化与鲁棒性上的差异，首个针对 WAM vs. VLA 的大规模对比研究。

2026-03-23 🆕

DualCoT-VLA: Visual-Linguistic Chain of Thought via Parallel Reasoning

视觉与语言两路并行 CoT，避免语言 CoT 对视觉推理的干扰，双流推理路径提升 VLA 在复杂操控任务上的决策质量。

2026-03-24 🆕

VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment

训练免修的 VLA 视觉 token 剪枝方案，通过交互对齐衡量 token 重要性，大幅降低推理开销，保持动作精度。

2026-03-22 🆕

RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in VLA

VLA 的测试时语言-动作对齐推理，无需重新训练即可动态修正语言指令歧义，提升零样本指令跟随鲁棒性。

2026-03-26 🆕

X-World: Controllable Ego-Centric Multi-Camera World Models for E2E Driving

自动驾驶多视角自我中心世界模型，可控生成未来场景帧，为端到端驾驶 VLA 策略提供可扩展评估与数据增广平台。

2026-03-20 🆕

Towards Practical WM-Based RL for VLA Models

面向实用化的世界模型 RL 训练 VLA，针对真实部署约束（样本效率、稳定性）提出改进方案，是 WoVR/VLAW 路线的重要延伸。

2026-03-24 🆕

TRAP: Hijacking VLA CoT-Reasoning via Adversarial Patches

首个针对 VLA CoT 推理的对抗攻击研究，对抗贴片可劫持视觉-语言-动作链式推理过程，揭示 CoT-VLA 的安全漏洞。

📈

趋势分析

🔥 WM 成为 VLA 后训练标配

WoVR、VLAW、RISE、AtomVLA 等在2025-2026年密集爆发，核心范式：用真实数据训世界模型 → WM 中 RL 后训练 VLA → 无需大量真实机器人交互。从 DreamerV3 的通用 RL 演进至 WM 专为 VLA 服务。

代表：WoVR / VLAW / RISE / AtomVLA / World2Act / DreamVLA

💭 潜在空间 CoT 替代文本 CoT

将 Chain-of-Thought 从语言 token 迁移到潜在动态/时空表征，减少语义-感知鸿沟，更直接地建模物理因果。CoT-VLA 的视觉目标预测是过渡，Chain of World 是终极形态。

代表：Chain of World / LaST-VLA / DynVLA / CoT-VLA

📐 3D / 空间感知注入

VLA 的 2D patch token 缺乏几何结构，GST-VLA 等工作将深度/高斯空间结构显式引入 token，弥补几何缺失，与 NeRF/3DGS 技术趋势交叉融合。

代表：GST-VLA / FutureVLA / PointVLA

🚗 自动驾驶 VLA 热潮

2026年3月出现多篇 AD-VLA，将机器人 VLA 范式迁移到自动驾驶。个性化、场景自适应、WM 结合成为子方向热点。UniAD 到 DynVLA 的演进路径清晰。

代表：DynVLA / StyleVLA / EvoDriveVLA / SAMoE-VLA / LaST-VLA

⚡ 推理效率优化

VLA/WM 的 token 冗余问题引起关注，DepthCache、WorldCache 等工作专注免训练加速，Planning in 8 Tokens 探索极致压缩。FAST tokenizer 则在训练阶段解决动作表示效率。

代表：DepthCache / WorldCache / Planning in 8 Tokens / FAST

🧠 神经科学 / 符号融合

SaiVLA 的大脑-桥脑-小脑三层架构、NS-VLA 的神经符号设计、GR00T N1 的双系统（快/慢）设计，体现将神经科学结构先验显式引入 VLA 的趋势。

代表：SaiVLA-0 / NS-VLA / GR00T N1 / Gemini Robotics

🌐 通用基础模型竞争

2025年工业界全面入局：Physical Intelligence 的 π0/π0.5、Google DeepMind 的 Gemini Robotics、NVIDIA 的 GR00T N1，形成通用机器人基础模型的"大厂竞赛"格局。

代表：π0 / π0.5 / Gemini Robotics / GR00T N1

🎥 视频数据 × 机器人学习

Genie 证明从互联网视频自监督学习世界模型的可行性，EnerVerse、V-JEPA 2 进一步发展；未来 VLA 的大规模预训练数据来源将从机器人演示扩展到海量互联网视频。

代表：Genie / EnerVerse / V-JEPA 2 / PlayWorld

关键方法对比

方法类型	代表工作	核心思路	主要优势
端到端 VLA	RT-2, OpenVLA, π0	预训练 VLM + 动作预测头	强泛化、语言指令跟随
经典 WM（RSSM）	DreamerV1/2/3	潜在空间状态转移 + 潜在空间 RL	样本效率高、无需稠密奖励
生成式 WM	Genie, DIAMOND, EnerVerse	扩散/生成式视频模型 + 动作条件化	逼真渲染、可交互仿真
WM for RL	WoVR, VLAW, GigaBrain	世界模型仿真 → RL 训练 VLA	无需大量真实机器人交互
潜在动态 CoT	Chain of World, DynVLA	预测潜在动态 → 条件化动作	减少语义-感知鸿沟
空间增强 VLA	GST-VLA, FutureVLA	几何/深度结构注入 token	提升 3D 操作精度
持续学习 VLA	Simple Recipe, DexHiL	RL 微调 / 人机协同后训练	适应新任务无灾难遗忘
层级规划 WM	MetaWorld-X, H-WM	高层语义规划 + 低层运动执行	长程任务分解与执行
通用基础模型	π0, GR00T N1, Gemini Robotics	大规模多形态预训练	跨平台泛化、零样本迁移

🔥

近期热点 TOP 10（2026-03-29 更新）

World2Act

技能组合 WM 用于 VLA 后训练新框架

↗ 2603.10422

ABot-PhysWorld 🆕

物理对齐交互式世界基础模型，视频 WM + 物理先验

↗ 2603 new

Fast-WAM 🆕

质疑 WAM 测试时未来想象必要性，提出高效 World Action Model

↗ 2603 new

Do WAMs Generalize Better? 🆕

WAM vs VLA 首个大规模泛化鲁棒性对比研究

↗ 2603 new

LaMP 🆕

3D 场景流作为 VLA 的潜在运动先验，双专家框架

↗ 2603 new

AtomVLA

预测潜在世界模型提升多步任务鲁棒性

↗ 2603.08519

DualCoT-VLA 🆕

视觉-语言双路并行 CoT，避免单链推理瓶颈

↗ 2603 new

FutureVLA

联合视动预测，未来感知与动作深度绑定

↗ 2603.10712

Gemini Robotics

Google DeepMind 通用机器人基础模型，Gemini 2.0 加持

↗ 2503.20020

X-World 🆕

多视角自我中心驾驶世界模型，端到端 VLA 评估平台

↗ 2603 new