LingBot 系列工作深度解析

LingBot 系列的整体设计思路： Robbyant 团队围绕"实用主义机器人 AI"构建了一个垂直整合的技术栈——从底层空间感知（Depth）→ 视频生成基础设施（World）→ 因果视频-动作联合建模（VA）→ 面向双臂操作的 VLA 基础模型（VLA），四个工作相互依赖、形成完整闭环。其中 LingBot-VLA 直接集成 LingBot-Depth 作为视觉增强模块，体现了系统级设计思维。

🤖

LingBot-VLA

A Pragmatic VLA Foundation Model · arXiv:2601.18692 · 2026-01-27

↗ arXiv ↗ GitHub ↗ 项目主页 ↗ HuggingFace

核心出发点：现有 VLA 研究大多依赖有限的仿真数据或小规模真实数据，缺乏"实用主义"视角——即面向真实双臂机器人大规模部署所需的数据规模、训练效率与跨平台泛化能力。LingBot-VLA 以 2 万小时真实数据预训练为核心，配合深度感知增强，在工业可用性上迈出关键一步。

🏗️ 模型架构

基座模型：Qwen2.5-VL-3B-Instruct（视觉语言模型）
动作生成：Flow Matching（连续动作轨迹）
动作空间：75 维（max_action_dim），支持 14 维目标机器人
深度分支：LingBot-Depth（MoRGBD）+ MoGe-2 单目深度估计
深度注入：Query-based Distillation，8 个可学习任务 Token
两版模型：w/ Depth 和 w/o Depth

📦 训练数据

规模：20,000 小时真实世界操作数据
覆盖：9 种主流双臂机器人配置
评测数据集：GM-100（3 个机器人平台真实世界测试集）
仿真评测：RoboTwin 2.0（干净 + 随机化场景）

⚡ 训练效率

vs. Qwen2.5-VL-3B-π：1.5–2.8× 吞吐量提升
vs. PaliGemma-3B-pt-224-π：1.5–2.8× 吞吐量提升
分布式：FSDP2 + torch.compile + Flash Attention
线性扩展至 256 GPU，接近理论极限

🔑 深度注入创新

MoRGBD：RGB-D 联合特征融合骨干
对比学习辅助损失（weight=0.3）
深度监督损失（weight=0.002）
8 个任务 Token + 图像 Token 跨模态对齐
VLM 内嵌深度蒸馏，训练和推理通用

🔄 数据流与架构

RGB 图像

原始深度图

→

MoGe-2
单目深度

→

MoRGBD
LingBot-Depth

→

深度 Token
8 learnable

RGB 图像

语言指令

→

Qwen2.5-VL-3B
视觉语言骨干

深度 Token
Query Distill

→

Flow Matching
动作解码

→

动作输出
14/75 维

深度分支可选插拔：w/o Depth 版本跳过 MoRGBD，直接以 RGB 特征输入 VLM；w/ Depth 版本引入对比学习对齐 RGB-D 特征。

GM-100 真实世界评测（3 平台平均成功率）

模型	Agibot G1 SR	AgileX SR	Galaxea R1Pro SR	平均 SR
WALL-OSS	8.75%	8.16%	14.13%	10.35%
GR00T N1.6	12.63%	10.52%	24.83%	15.99%
π0.5	21.98%	34.82%	26.14%	27.65%
LingBot-VLA (w/o Depth)	30.04%	36.31%	34.71%	33.69%
LingBot-VLA (w/ Depth)	30.47%	40.36%	35.40%	35.41%

RoboTwin 2.0 仿真评测（平均成功率，50 任务）

模型	Clean SR (%)	Rand. SR (%)
π0.5	82.74%	76.76%
LingBot-VLA (w/o Depth)	86.50%	85.34%
LingBot-VLA (w/ Depth)	88.56%	86.68%

💡 亮点总结

迄今为止最大规模双臂机器人真实数据预训练（20,000 小时），体现"实用主义"工程思维
深度感知原生集成：不是后处理，而是训练阶段的 Query Distillation，避免推理时的模态对齐开销
在 GM-100 超越 π0.5 平均 +7.76% SR（w/ Depth），跨平台泛化能力突出
训练效率 1.5–2.8× 提升，FSDP2 分布式扩展至 256 GPU，接近线性
完整开源：代码 + 权重 + 评估套件（HuggingFace + ModelScope）

🌍

LingBot-World

Advancing Open-source World Models · arXiv:2601.20540 · 2026-01-29

↗ arXiv ↗ GitHub ↗ 项目主页 ↗ HuggingFace

核心出发点：现有世界模型（如 Sora、Genie 等）要么不开源，要么缺少实时交互能力。LingBot-World 旨在构建一个 完全开源的顶级世界模拟器，同时满足：高保真多样环境渲染、分钟级长时记忆一致性、以及 <1 秒延迟的实时交互。这是 WM 用于机器人学习和游戏/内容创作的共同需求。

🏗️ 技术基础

构建于 Wan2.2 视频生成框架（DiT 架构）
分辨率：480P 和 720P 双档
帧率：16 fps，延迟 <1 秒
最大时长：961 帧 ≈ 1 分钟（分钟级记忆）
分布式：FSDP + Ulysses 序列并行

🎮 控制信号类型

Base (Cam)：相机位姿条件（fx/fy/cx/cy + 4×4 变换矩阵）
Base (Act)：动作条件（机器人动作序列）
Fast 版本：待发布（极速推理优化）
支持无控制信号的自由生成模式

🌈 环境多样性

写实环境（室内、室外、自然场景）
科幻/科学可视化场景
卡通/游戏风格环境
机器人操作场景（用于 LingBot-VA 数据生成）
长时记忆一致性：场景状态在分钟级保持连贯

🚀 开放程度

完整代码 + 权重（Apache 2.0 License）
4-bit NF4 量化版本（社区贡献，显存友好）
HuggingFace + ModelScope 双平台托管
3.2k Stars（最高星标 LingBot 作品）

🔄 架构与推理流程

初始图像

文本提示

控制信号
相机位姿 / 动作

→

Wan2.2 DiT
扩散 Transformer

→

连贯视频帧
480P/720P · 16fps

视频输出

→

ViPE 位姿估计
（可选，逆向获取姿态）

→

相机轨迹
闭环控制输入

LingBot-World 可与 LingBot-VA 协同工作：World 负责生成多样化的机器人操作视频场景，VA 在这些场景上进行因果动作建模，从而形成"虚拟数据生成 → 策略训练"的闭环。

💡 亮点总结

目前开源社区中实时性最强的世界模型（<1s 延迟 @16fps），填补闭源与开源差距
分钟级时序一致性（961帧），远超同期开源 WM 的短时窗口限制（通常16-64帧）
双控制信号：相机位姿（用于内容创作/VR）+ 机器人动作（用于机器人学习），一套模型两种用途
社区活跃度高（3.2k Stars，263 Forks），已出现量化版本等社区贡献
作为 LingBot-VA 的数据生成基础设施，与系列内其他工作深度耦合

🎬

LingBot-VA

Causal World Modeling for Robot Control · arXiv:2601.21998 · 2026-01-29

↗ arXiv ↗ GitHub ↗ 项目主页 ↗ HuggingFace

核心出发点：传统 VLA 将视觉感知和动作预测分离建模，忽视了"视觉动态"和"机器人动作"在时间维度上的内在因果关联。LingBot-VA 提出 因果视频-动作世界模型：在单一自回归模型中，将未来视觉帧预测与动作预测 交织为统一序列，让模型显式建模"动作如何改变视觉世界"的因果链，从而大幅提升长程操作成功率。

🏗️ 核心架构：MoT 双流

骨干：Wan2.2 视觉 Transformer
架构：双流 Mixture-of-Transformers (MoT)
视频流：处理视觉潜在序列（VAE 压缩）
动作流：处理动作 token 序列（独立参数）
交互：共享位置编码 + 跨流注意力
自回归交织：视频帧 ↔ 动作 token 交替生成

⚡ 高效推理机制

异步执行（Async Execution）：视频帧生成与动作预测并行
KV Cache：跨 chunk 缓存，避免重复计算历史上下文
单 GPU 推理 VRAM：~24GB（offload 模式）
图像转视频动作（i2av）生成：~18GB VRAM
Server-Client 分离架构：仿真环境与模型独立部署

📦 训练细节

动作空间：30 维（左/右臂 EEF×7 + joints×7 + gripper×1，各臂共 15）
视频处理：VAE 潜在编码，256×256 降采样，5-15 fps
数据格式：LeRobot 格式 + 动作分割配置 (action_config)
分布式：FSDP 8/多 GPU，梯度累积支持大批量
后训练数据集：RoboTwin Clean + Augmented (HuggingFace 开放)

🌟 "因果"的关键创新

序列格式：[o₀, a₀, o₁, a₁, ..., oₜ, aₜ] 交织生成
动作 token 以过去的所有视觉帧为条件
视觉帧以过去动作为条件，建模世界动态
区分概念：视频=世界状态 vs. 动作=控制信号，不混用
解决 WM 和 VLA 无法互通的关键断层

🔄 因果序列建模流程

观测 o₀
VAE 潜在帧

→

MoT 双流
视频流 + 动作流

→

动作 a₀

→

预测 o₁
下一帧

→

动作 a₁

→

...循环

KV Cache 加速：历史帧的注意力键值缓存，新帧只需计算增量注意力，推理效率大幅提升。 异步执行：在生成下一帧视频的同时，并行执行当前动作（GPU 利用率最大化）。

RoboTwin 2.0 仿真评测（50 任务平均成功率）

模型	Easy SR (%)	Hard SR (%)
X-VLA	72.9	72.8
π0	65.9	58.4
π0.5	82.7	76.8
Motus	88.7	87.0
LingBot-VA	92.9 (+4.2)	91.6 (+4.6)

⭐ 首个在 RoboTwin 2.0 中同时超越 90% 阈值的工作（Easy + Hard）

LIBERO 评测（平均成功率，4 子集）

模型	Spatial	Object	Goal	Long	Avg
OpenVLA	84.7	88.4	79.2	53.7	76.5
π0	96.8	98.8	95.8	85.2	94.1
π0.5	98.8	98.2	98.0	92.4	96.9
X-VLA	98.2	98.6	97.8	97.6	98.1
LingBot-VA	98.5	99.6	97.2	98.5	98.5

真实世界灵巧操作（6 任务，vs. π0.5）

任务	π0.5 SR	LingBot-VA SR	π0.5 PS	LingBot-VA PS
Make Breakfast（长程）	70.0%	75.0%	73.0%	97.0%
Pick Screws（长程）	50.0%	70.0%	74.0%	82.5%
Insert Tube（精度）	30.0%	40.0%	79.2%	85.8%
Unpack Delivery（精度）	25.0%	65.0%	73.0%	84.5%
Fold Clothes（变形）	30.0%	35.0%	62.9%	48.8%
Fold Pants（变形）	30.0%	70.0%	30.0%	76.7%

💡 亮点总结

史上首个在 RoboTwin 2.0 Easy+Hard 双超 90% 的工作，长程操作能力显著领先
MoT 双流架构的核心创新：视频帧和动作 token 共享 Transformer 但独立参数，保持概念清晰性的同时实现联合建模
KV Cache + 异步执行：解决视频生成模型用于机器人控制时推理延迟过高的工程难题
在真实操作中 Fold Pants 任务 SR 从 30% → 70%（+133%），长程和精度任务均显著提升
数据格式完全开放（LeRobot 格式 + 训练集 HuggingFace），社区可直接复现

📐

LingBot-Depth

Masked Depth Modeling for Spatial Perception · arXiv:2601.17895 · 2026-01

↗ arXiv ↗ GitHub ↗ 项目主页 ↗ HuggingFace

核心出发点：机器人传感器获取的深度数据普遍存在噪声、缺失和精度不足问题（尤其是结构光/ToF 传感器在反光、薄边缘、远距场景下的失效）。LingBot-Depth 通过 掩码深度建模（Masked Depth Modeling, MDM） 自监督预训练，在统一潜在空间联合对齐 RGB 外观与深度几何，从根本上提升传感器深度的质量，为下游机器人任务提供度量精确的 3D 感知基础。

🏗️ 模型架构

编码器：Vision Transformer Large（DINOv2 骨干）
创新：深度感知注意力机制（Depth-aware Attention）
解码器：多尺度特征金字塔 + 深度回归头
预训练：掩码深度重建自监督目标（MAE 范式延伸）
输入：RGB [B,3,H,W] + 原始深度图 [B,H,W] + 相机内参
输出：精化深度图 [B,H,W] + 3D 点云 [B,H,W,3]

📦 训练数据

总规模：3M RGB-D 样本
真实采集：200万样本（住宅、办公室、商业环境）
仿真渲染：100万样本（完美 GT 深度）
采集设备：Intel RealSense + Orbbec Gemini + Azure Kinect
覆盖：多种传感器类型、光照条件、场景复杂度
数据集计划 2026 年 3 月中开放（待许可）

🔑 掩码深度建模（MDM）

灵感来源：MAE（Masked Autoencoder）的掩码重建范式
掩码策略：随机遮挡深度图的连续区域
重建目标：从 RGB + 部分深度还原完整度量深度
跨模态注意力：深度查询 Token 对齐 RGB 空间对应区域
深度感知可视化：不同查询点关注不同空间区域，语义一致

🤖 下游任务应用

深度补全/精化：填补缺失区域，度量精度优化
场景重建：高保真室内 3D 建图，强深度先验
4D 点跟踪：动态目标（人体运动）的度量空间追踪
灵巧抓取：钢杯/玻璃杯/玩具车精确几何理解
LingBot-VLA 集成：作为 MoRGBD 子模块注入 VLA

🔄 Masked Depth Modeling 预训练与推理

RGB 图像
[B,3,H,W]

噪声/缺失深度
[B,H,W] meters

相机内参
[B,3,3] 归一化

↓ ViT-L 编码器（DINOv2）

统一潜在空间
RGB-D 跨模态对齐

→

深度回归头
多尺度特征金字塔

→

精化深度
度量精确

3D 点云
[B,H,W,3]

预训练时：随机掩码深度图 → 重建完整深度（自监督）。精化/补全时：输入残缺传感器深度 → 输出高质量度量深度。集成到 LingBot-VLA 时：作为 MoRGBD 子模块，输出深度特征注入 Query Distillation 层。

模型版本与应用场景

模型	适用场景	特点
LingBot-Depth-v0.5 ⭐推荐	通用深度精化 + 补全	修复 v0.1 bug，综合性能最强
LingBot-Depth-v0.1	通用深度精化	初代版本
LingBot-Depth-DC	稀疏深度补全（RGB-D 传感器缺失）	针对稀疏输入优化

💡 亮点总结

首个将 MAE 掩码自监督范式专门用于 RGB-D 联合建模的机器人深度感知基础模型
统一潜在空间的 RGB-Depth 对齐：深度查询 Token 的注意力可视化证明了跨模态空间对应关系
度量精确输出：不是相对深度，而是实际米制深度，可直接用于点云重建和抓取规划
作为系列工作的感知基础组件，被 LingBot-VLA 作为 MoRGBD 子模块直接集成，体现模块化设计
3M 规模混合数据集（真实 2M + 仿真 1M），跨传感器、跨场景的强泛化能力

🔍

综合评析与技术关系

Cross-Work Analysis · LingBot Series System Design

🏛️ 四项工作的系统关系

📐 LingBot-Depth

空间感知基础模块
掩码深度建模
3M 数据预训练

↓ 集成为 MoRGBD

🌍 LingBot-World

世界仿真引擎
Wan2.2 扩散生成
实时交互 <1s

↓ 提供多样场景数据

🎬 LingBot-VA

因果视频-动作建模
MoT 双流架构
RoboTwin 92.9%

↓ WM建模能力上移

🤖 LingBot-VLA

实用 VLA 基础模型
20,000h 真实数据
Depth 原生集成

↑ 最终决策输出

维度	LingBot-VLA	LingBot-World	LingBot-VA	LingBot-Depth
主要任务	VLA 策略执行	视觉世界仿真	视频+动作联合建模	深度感知精化
核心创新	大规模真实数据 + 深度增强	实时 <1s + 分钟级记忆	因果交织自回归 + MoT	掩码深度自监督 MDM
基础骨干	Qwen2.5-VL-3B	Wan2.2 DiT	Wan2.2 + MoT	DINOv2 ViT-L
动作生成	Flow Matching	无（纯生成）	自回归 token	无（感知模块）
关键数据	20,000h 真实双臂	互联网多样视频	RoboTwin + LIBERO	3M RGB-D（2M+1M）
GitHub Stars	961	3,200	836	957
代表指标	GM-100 Avg SR 35.4%	<1s 延迟 @16fps	RoboTwin Easy 92.9%	4D 跟踪 + 灵巧抓取

与同期竞品的差异化定位：

vs. π0/π0.5（Physical Intelligence）： 都是通用 VLA 基础模型，但 LingBot-VLA 强调"实用主义"——更大规模真实数据、更高训练效率、Depth 原生集成。在 GM-100 上 LingBot-VLA-Depth 平均 SR 35.4% vs. π0.5 的 27.7%。

vs. GR00T N1（NVIDIA）： 都针对双臂/人形机器人，但 LingBot-VLA 的 20,000 小时真实数据规模远超 GR00T N1 的仿真主导路线，跨平台真实泛化能力更强。

vs. Genie/WorldDreamer（Google）： LingBot-World 是同类中最快开源的实用级世界模型，弥补了闭源 WM 在机器人学习社区的空白，且直接支持机器人动作条件控制。

LingBot-VA vs. LingBot-VLA： 两者定位互补——VA 是 WM+VLA 深度融合的"统一模型"路线（视频与动作共建模），VLA 是纯 VLA 路线（视觉-语言-动作 Flow Matching），VA 在长程操作上优势更大，VLA 在实际双臂机器人部署上更成熟。

🔮 研究启示与未来方向

系统级设计：四项工作组成完整技术栈（感知→仿真→建模→策略），研究者可在任意层次接入或替换模块
WM×VLA 融合路线：LingBot-VA 的因果交织架构是最接近"完全融合"的范式，预计是未来主流方向
深度感知的价值再认知：Depth 增强在 GM-100 上给 VLA 带来 +1.7% 平均 SR，在结构化真实场景中几何信息至关重要
数据规模的决定性作用：20,000h 真实数据 vs. 2,000h 仿真数据的质量对比，再次验证了 RT-1 的核心结论
开源生态建设：所有 4 个工作均 Apache 2.0 开源，相比 π0、GR00T N1 等工业系统开放程度更高
待补足：LingBot-VA 在 Fold Clothes 上 SR 仅 35%（PS 48.8%），可变形物体操作仍是开放问题；LingBot-World 的 Fast 版本尚待发布