🤖 Robbyant Team
3.2k ~ 4k Stars
📅 2026-01 ~ 2026-03

LingBot 系列工作深度解析

Robbyant 团队 · 四项 VLA / World Model 前沿工作全面分析

🤖 LingBot-VLA · 实用 VLA 基础模型 🌍 LingBot-World · 开源世界模型 🎬 LingBot-VA · 因果视频-动作世界模型 📐 LingBot-Depth · 深度感知基础模型
🤖
LingBot-VLA
实用 VLA 基础模型
20,000小时双臂机器人数据预训练
961 ⭐ Stars
arXiv: 2601.18692
🌍
LingBot-World
开源世界模型仿真器
<1s 延迟,16fps 实时交互
3.2k ⭐ Stars
arXiv: 2601.20540
🎬
LingBot-VA
因果视频-动作世界模型
RoboTwin 2.0 超越90%阈值
836 ⭐ Stars
arXiv: 2601.21998
📐
LingBot-Depth
掩码深度建模空间感知
3M RGB-D 数据集训练
957 ⭐ Stars
arXiv: 2601.17895
LingBot 系列的整体设计思路: Robbyant 团队围绕"实用主义机器人 AI"构建了一个垂直整合的技术栈——从底层空间感知(Depth)→ 视频生成基础设施(World)→ 因果视频-动作联合建模(VA)→ 面向双臂操作的 VLA 基础模型(VLA),四个工作相互依赖、形成完整闭环。其中 LingBot-VLA 直接集成 LingBot-Depth 作为视觉增强模块,体现了系统级设计思维。
🤖

LingBot-VLA

A Pragmatic VLA Foundation Model · arXiv:2601.18692 · 2026-01-27
核心出发点:现有 VLA 研究大多依赖有限的仿真数据或小规模真实数据,缺乏"实用主义"视角——即面向真实双臂机器人大规模部署所需的数据规模、训练效率与跨平台泛化能力。LingBot-VLA 以 2 万小时真实数据预训练为核心,配合深度感知增强,在工业可用性上迈出关键一步。

🏗️ 模型架构

  • 基座模型:Qwen2.5-VL-3B-Instruct(视觉语言模型)
  • 动作生成:Flow Matching(连续动作轨迹)
  • 动作空间:75 维(max_action_dim),支持 14 维目标机器人
  • 深度分支:LingBot-Depth(MoRGBD)+ MoGe-2 单目深度估计
  • 深度注入:Query-based Distillation,8 个可学习任务 Token
  • 两版模型:w/ Depth 和 w/o Depth

📦 训练数据

  • 规模:20,000 小时真实世界操作数据
  • 覆盖:9 种主流双臂机器人配置
  • 评测数据集:GM-100(3 个机器人平台真实世界测试集)
  • 仿真评测:RoboTwin 2.0(干净 + 随机化场景)

⚡ 训练效率

  • vs. Qwen2.5-VL-3B-π:1.5–2.8× 吞吐量提升
  • vs. PaliGemma-3B-pt-224-π:1.5–2.8× 吞吐量提升
  • 分布式:FSDP2 + torch.compile + Flash Attention
  • 线性扩展至 256 GPU,接近理论极限

🔑 深度注入创新

  • MoRGBD:RGB-D 联合特征融合骨干
  • 对比学习辅助损失(weight=0.3)
  • 深度监督损失(weight=0.002)
  • 8 个任务 Token + 图像 Token 跨模态对齐
  • VLM 内嵌深度蒸馏,训练和推理通用

🔄 数据流与架构

RGB 图像
+
原始深度图
MoGe-2
单目深度
MoRGBD
LingBot-Depth
深度 Token
8 learnable
RGB 图像
+
语言指令
Qwen2.5-VL-3B
视觉语言骨干
+
深度 Token
Query Distill
Flow Matching
动作解码
动作输出
14/75 维
深度分支可选插拔:w/o Depth 版本跳过 MoRGBD,直接以 RGB 特征输入 VLM;w/ Depth 版本引入对比学习对齐 RGB-D 特征。
GM-100 真实世界评测(3 平台平均成功率)
模型Agibot G1 SRAgileX SRGalaxea R1Pro SR平均 SR
WALL-OSS8.75%8.16%14.13%10.35%
GR00T N1.612.63%10.52%24.83%15.99%
π0.521.98%34.82%26.14%27.65%
LingBot-VLA (w/o Depth)30.04%36.31%34.71%33.69%
LingBot-VLA (w/ Depth)30.47%40.36%35.40%35.41%
RoboTwin 2.0 仿真评测(平均成功率,50 任务)
模型Clean SR (%)Rand. SR (%)
π0.582.74%76.76%
LingBot-VLA (w/o Depth)86.50%85.34%
LingBot-VLA (w/ Depth)88.56%86.68%

💡 亮点总结

  • 迄今为止最大规模双臂机器人真实数据预训练(20,000 小时),体现"实用主义"工程思维
  • 深度感知原生集成:不是后处理,而是训练阶段的 Query Distillation,避免推理时的模态对齐开销
  • 在 GM-100 超越 π0.5 平均 +7.76% SR(w/ Depth),跨平台泛化能力突出
  • 训练效率 1.5–2.8× 提升,FSDP2 分布式扩展至 256 GPU,接近线性
  • 完整开源:代码 + 权重 + 评估套件(HuggingFace + ModelScope)
🌍

LingBot-World

Advancing Open-source World Models · arXiv:2601.20540 · 2026-01-29
核心出发点:现有世界模型(如 Sora、Genie 等)要么不开源,要么缺少实时交互能力。LingBot-World 旨在构建一个 完全开源的顶级世界模拟器,同时满足:高保真多样环境渲染、分钟级长时记忆一致性、以及 <1 秒延迟的实时交互。这是 WM 用于机器人学习和游戏/内容创作的共同需求。

🏗️ 技术基础

  • 构建于 Wan2.2 视频生成框架(DiT 架构)
  • 分辨率:480P 和 720P 双档
  • 帧率:16 fps,延迟 <1 秒
  • 最大时长:961 帧 ≈ 1 分钟(分钟级记忆)
  • 分布式:FSDP + Ulysses 序列并行

🎮 控制信号类型

  • Base (Cam):相机位姿条件(fx/fy/cx/cy + 4×4 变换矩阵)
  • Base (Act):动作条件(机器人动作序列)
  • Fast 版本:待发布(极速推理优化)
  • 支持无控制信号的自由生成模式

🌈 环境多样性

  • 写实环境(室内、室外、自然场景)
  • 科幻/科学可视化场景
  • 卡通/游戏风格环境
  • 机器人操作场景(用于 LingBot-VA 数据生成)
  • 长时记忆一致性:场景状态在分钟级保持连贯

🚀 开放程度

  • 完整代码 + 权重(Apache 2.0 License)
  • 4-bit NF4 量化版本(社区贡献,显存友好)
  • HuggingFace + ModelScope 双平台托管
  • 3.2k Stars(最高星标 LingBot 作品)

🔄 架构与推理流程

初始图像
+
文本提示
+
控制信号
相机位姿 / 动作
Wan2.2 DiT
扩散 Transformer
连贯视频帧
480P/720P · 16fps
视频输出
ViPE 位姿估计
(可选,逆向获取姿态)
相机轨迹
闭环控制输入
LingBot-World 可与 LingBot-VA 协同工作:World 负责生成多样化的机器人操作视频场景,VA 在这些场景上进行因果动作建模,从而形成"虚拟数据生成 → 策略训练"的闭环。

💡 亮点总结

  • 目前开源社区中实时性最强的世界模型(<1s 延迟 @16fps),填补闭源与开源差距
  • 分钟级时序一致性(961帧),远超同期开源 WM 的短时窗口限制(通常16-64帧)
  • 双控制信号:相机位姿(用于内容创作/VR)+ 机器人动作(用于机器人学习),一套模型两种用途
  • 社区活跃度高(3.2k Stars,263 Forks),已出现量化版本等社区贡献
  • 作为 LingBot-VA 的数据生成基础设施,与系列内其他工作深度耦合
🎬

LingBot-VA

Causal World Modeling for Robot Control · arXiv:2601.21998 · 2026-01-29
核心出发点:传统 VLA 将视觉感知和动作预测分离建模,忽视了"视觉动态"和"机器人动作"在时间维度上的内在因果关联。LingBot-VA 提出 因果视频-动作世界模型:在单一自回归模型中,将未来视觉帧预测与动作预测 交织为统一序列,让模型显式建模"动作如何改变视觉世界"的因果链,从而大幅提升长程操作成功率。

🏗️ 核心架构:MoT 双流

  • 骨干:Wan2.2 视觉 Transformer
  • 架构:双流 Mixture-of-Transformers (MoT)
  • 视频流:处理视觉潜在序列(VAE 压缩)
  • 动作流:处理动作 token 序列(独立参数)
  • 交互:共享位置编码 + 跨流注意力
  • 自回归交织:视频帧 ↔ 动作 token 交替生成

⚡ 高效推理机制

  • 异步执行(Async Execution):视频帧生成与动作预测并行
  • KV Cache:跨 chunk 缓存,避免重复计算历史上下文
  • 单 GPU 推理 VRAM:~24GB(offload 模式)
  • 图像转视频动作(i2av)生成:~18GB VRAM
  • Server-Client 分离架构:仿真环境与模型独立部署

📦 训练细节

  • 动作空间:30 维(左/右臂 EEF×7 + joints×7 + gripper×1,各臂共 15)
  • 视频处理:VAE 潜在编码,256×256 降采样,5-15 fps
  • 数据格式:LeRobot 格式 + 动作分割配置 (action_config)
  • 分布式:FSDP 8/多 GPU,梯度累积支持大批量
  • 后训练数据集:RoboTwin Clean + Augmented (HuggingFace 开放)

🌟 "因果"的关键创新

  • 序列格式:[o₀, a₀, o₁, a₁, ..., oₜ, aₜ] 交织生成
  • 动作 token 以过去的所有视觉帧为条件
  • 视觉帧以过去动作为条件,建模世界动态
  • 区分概念:视频=世界状态 vs. 动作=控制信号,不混用
  • 解决 WM 和 VLA 无法互通的关键断层

🔄 因果序列建模流程

观测 o₀
VAE 潜在帧
MoT 双流
视频流 + 动作流
动作 a₀
预测 o₁
下一帧
动作 a₁
...循环
KV Cache 加速:历史帧的注意力键值缓存,新帧只需计算增量注意力,推理效率大幅提升。 异步执行:在生成下一帧视频的同时,并行执行当前动作(GPU 利用率最大化)。
RoboTwin 2.0 仿真评测(50 任务平均成功率)
模型Easy SR (%)Hard SR (%)
X-VLA72.972.8
π065.958.4
π0.582.776.8
Motus88.787.0
LingBot-VA92.9 (+4.2)91.6 (+4.6)

⭐ 首个在 RoboTwin 2.0 中同时超越 90% 阈值的工作(Easy + Hard)

LIBERO 评测(平均成功率,4 子集)
模型SpatialObjectGoalLongAvg
OpenVLA84.788.479.253.776.5
π096.898.895.885.294.1
π0.598.898.298.092.496.9
X-VLA98.298.697.897.698.1
LingBot-VA98.599.697.298.598.5
真实世界灵巧操作(6 任务,vs. π0.5)
任务π0.5 SRLingBot-VA SRπ0.5 PSLingBot-VA PS
Make Breakfast(长程)70.0%75.0%73.0%97.0%
Pick Screws(长程)50.0%70.0%74.0%82.5%
Insert Tube(精度)30.0%40.0%79.2%85.8%
Unpack Delivery(精度)25.0%65.0%73.0%84.5%
Fold Clothes(变形)30.0%35.0%62.9%48.8%
Fold Pants(变形)30.0%70.0%30.0%76.7%

💡 亮点总结

  • 史上首个在 RoboTwin 2.0 Easy+Hard 双超 90% 的工作,长程操作能力显著领先
  • MoT 双流架构的核心创新:视频帧和动作 token 共享 Transformer 但独立参数,保持概念清晰性的同时实现联合建模
  • KV Cache + 异步执行:解决视频生成模型用于机器人控制时推理延迟过高的工程难题
  • 在真实操作中 Fold Pants 任务 SR 从 30% → 70%(+133%),长程和精度任务均显著提升
  • 数据格式完全开放(LeRobot 格式 + 训练集 HuggingFace),社区可直接复现
📐

LingBot-Depth

Masked Depth Modeling for Spatial Perception · arXiv:2601.17895 · 2026-01
核心出发点:机器人传感器获取的深度数据普遍存在噪声、缺失和精度不足问题(尤其是结构光/ToF 传感器在反光、薄边缘、远距场景下的失效)。LingBot-Depth 通过 掩码深度建模(Masked Depth Modeling, MDM) 自监督预训练,在统一潜在空间联合对齐 RGB 外观与深度几何,从根本上提升传感器深度的质量,为下游机器人任务提供度量精确的 3D 感知基础。

🏗️ 模型架构

  • 编码器:Vision Transformer Large(DINOv2 骨干)
  • 创新:深度感知注意力机制(Depth-aware Attention)
  • 解码器:多尺度特征金字塔 + 深度回归头
  • 预训练:掩码深度重建自监督目标(MAE 范式延伸)
  • 输入:RGB [B,3,H,W] + 原始深度图 [B,H,W] + 相机内参
  • 输出:精化深度图 [B,H,W] + 3D 点云 [B,H,W,3]

📦 训练数据

  • 总规模:3M RGB-D 样本
  • 真实采集:200万 样本(住宅、办公室、商业环境)
  • 仿真渲染:100万 样本(完美 GT 深度)
  • 采集设备:Intel RealSense + Orbbec Gemini + Azure Kinect
  • 覆盖:多种传感器类型、光照条件、场景复杂度
  • 数据集计划 2026 年 3 月中开放(待许可)

🔑 掩码深度建模(MDM)

  • 灵感来源:MAE(Masked Autoencoder)的掩码重建范式
  • 掩码策略:随机遮挡深度图的连续区域
  • 重建目标:从 RGB + 部分深度还原完整度量深度
  • 跨模态注意力:深度查询 Token 对齐 RGB 空间对应区域
  • 深度感知可视化:不同查询点关注不同空间区域,语义一致

🤖 下游任务应用

  • 深度补全/精化:填补缺失区域,度量精度优化
  • 场景重建:高保真室内 3D 建图,强深度先验
  • 4D 点跟踪:动态目标(人体运动)的度量空间追踪
  • 灵巧抓取:钢杯/玻璃杯/玩具车精确几何理解
  • LingBot-VLA 集成:作为 MoRGBD 子模块注入 VLA

🔄 Masked Depth Modeling 预训练与推理

RGB 图像
[B,3,H,W]
+
噪声/缺失深度
[B,H,W] meters
+
相机内参
[B,3,3] 归一化
↓ ViT-L 编码器(DINOv2)
统一潜在空间
RGB-D 跨模态对齐
深度回归头
多尺度特征金字塔
精化深度
度量精确
+
3D 点云
[B,H,W,3]
预训练时:随机掩码深度图 → 重建完整深度(自监督)。 精化/补全时:输入残缺传感器深度 → 输出高质量度量深度。 集成到 LingBot-VLA 时:作为 MoRGBD 子模块,输出深度特征注入 Query Distillation 层。
模型版本与应用场景
模型适用场景特点
LingBot-Depth-v0.5 ⭐推荐通用深度精化 + 补全修复 v0.1 bug,综合性能最强
LingBot-Depth-v0.1通用深度精化初代版本
LingBot-Depth-DC稀疏深度补全(RGB-D 传感器缺失)针对稀疏输入优化

💡 亮点总结

  • 首个将 MAE 掩码自监督范式专门用于 RGB-D 联合建模的机器人深度感知基础模型
  • 统一潜在空间的 RGB-Depth 对齐:深度查询 Token 的注意力可视化证明了跨模态空间对应关系
  • 度量精确输出:不是相对深度,而是实际米制深度,可直接用于点云重建和抓取规划
  • 作为系列工作的感知基础组件,被 LingBot-VLA 作为 MoRGBD 子模块直接集成,体现模块化设计
  • 3M 规模混合数据集(真实 2M + 仿真 1M),跨传感器、跨场景的强泛化能力
🔍

综合评析与技术关系

Cross-Work Analysis · LingBot Series System Design

🏛️ 四项工作的系统关系

📐 LingBot-Depth
空间感知基础模块
掩码深度建模
3M 数据预训练
↓ 集成为 MoRGBD
🌍 LingBot-World
世界仿真引擎
Wan2.2 扩散生成
实时交互 <1s
↓ 提供多样场景数据
🎬 LingBot-VA
因果视频-动作建模
MoT 双流架构
RoboTwin 92.9%
↓ WM建模能力上移
🤖 LingBot-VLA
实用 VLA 基础模型
20,000h 真实数据
Depth 原生集成
↑ 最终决策输出
维度 LingBot-VLA LingBot-World LingBot-VA LingBot-Depth
主要任务 VLA 策略执行 视觉世界仿真 视频+动作联合建模 深度感知精化
核心创新 大规模真实数据 + 深度增强 实时 <1s + 分钟级记忆 因果交织自回归 + MoT 掩码深度自监督 MDM
基础骨干 Qwen2.5-VL-3B Wan2.2 DiT Wan2.2 + MoT DINOv2 ViT-L
动作生成 Flow Matching 无(纯生成) 自回归 token 无(感知模块)
关键数据 20,000h 真实双臂 互联网多样视频 RoboTwin + LIBERO 3M RGB-D(2M+1M)
GitHub Stars 961 3,200 836 957
代表指标 GM-100 Avg SR 35.4% <1s 延迟 @16fps RoboTwin Easy 92.9% 4D 跟踪 + 灵巧抓取
与同期竞品的差异化定位:

vs. π0/π0.5(Physical Intelligence): 都是通用 VLA 基础模型,但 LingBot-VLA 强调"实用主义"——更大规模真实数据、更高训练效率、Depth 原生集成。在 GM-100 上 LingBot-VLA-Depth 平均 SR 35.4% vs. π0.5 的 27.7%。

vs. GR00T N1(NVIDIA): 都针对双臂/人形机器人,但 LingBot-VLA 的 20,000 小时真实数据规模远超 GR00T N1 的仿真主导路线,跨平台真实泛化能力更强。

vs. Genie/WorldDreamer(Google): LingBot-World 是同类中最快开源的实用级世界模型,弥补了闭源 WM 在机器人学习社区的空白,且直接支持机器人动作条件控制。

LingBot-VA vs. LingBot-VLA: 两者定位互补——VA 是 WM+VLA 深度融合的"统一模型"路线(视频与动作共建模),VLA 是纯 VLA 路线(视觉-语言-动作 Flow Matching),VA 在长程操作上优势更大,VLA 在实际双臂机器人部署上更成熟。

🔮 研究启示与未来方向

  • 系统级设计:四项工作组成完整技术栈(感知→仿真→建模→策略),研究者可在任意层次接入或替换模块
  • WM×VLA 融合路线:LingBot-VA 的因果交织架构是最接近"完全融合"的范式,预计是未来主流方向
  • 深度感知的价值再认知:Depth 增强在 GM-100 上给 VLA 带来 +1.7% 平均 SR,在结构化真实场景中几何信息至关重要
  • 数据规模的决定性作用:20,000h 真实数据 vs. 2,000h 仿真数据的质量对比,再次验证了 RT-1 的核心结论
  • 开源生态建设:所有 4 个工作均 Apache 2.0 开源,相比 π0、GR00T N1 等工业系统开放程度更高
  • 待补足:LingBot-VA 在 Fold Clothes 上 SR 仅 35%(PS 48.8%),可变形物体操作仍是开放问题;LingBot-World 的 Fast 版本尚待发布