LingBot 系列的整体设计思路: Robbyant 团队围绕"实用主义机器人 AI"构建了一个垂直整合的技术栈——从底层空间感知(Depth)→ 视频生成基础设施(World)→ 因果视频-动作联合建模(VA)→ 面向双臂操作的 VLA 基础模型(VLA),四个工作相互依赖、形成完整闭环。其中 LingBot-VLA 直接集成 LingBot-Depth 作为视觉增强模块,体现了系统级设计思维。
核心出发点:现有 VLA 研究大多依赖有限的仿真数据或小规模真实数据,缺乏"实用主义"视角——即面向真实双臂机器人大规模部署所需的数据规模、训练效率与跨平台泛化能力。LingBot-VLA 以 2 万小时真实数据预训练为核心,配合深度感知增强,在工业可用性上迈出关键一步。
🏗️ 模型架构
- 基座模型:Qwen2.5-VL-3B-Instruct(视觉语言模型)
- 动作生成:Flow Matching(连续动作轨迹)
- 动作空间:75 维(max_action_dim),支持 14 维目标机器人
- 深度分支:LingBot-Depth(MoRGBD)+ MoGe-2 单目深度估计
- 深度注入:Query-based Distillation,8 个可学习任务 Token
- 两版模型:w/ Depth 和 w/o Depth
📦 训练数据
- 规模:20,000 小时真实世界操作数据
- 覆盖:9 种主流双臂机器人配置
- 评测数据集:GM-100(3 个机器人平台真实世界测试集)
- 仿真评测:RoboTwin 2.0(干净 + 随机化场景)
⚡ 训练效率
- vs. Qwen2.5-VL-3B-π:1.5–2.8× 吞吐量提升
- vs. PaliGemma-3B-pt-224-π:1.5–2.8× 吞吐量提升
- 分布式:FSDP2 + torch.compile + Flash Attention
- 线性扩展至 256 GPU,接近理论极限
🔑 深度注入创新
- MoRGBD:RGB-D 联合特征融合骨干
- 对比学习辅助损失(weight=0.3)
- 深度监督损失(weight=0.002)
- 8 个任务 Token + 图像 Token 跨模态对齐
- VLM 内嵌深度蒸馏,训练和推理通用
🔄 数据流与架构
RGB 图像
+
原始深度图
→
MoGe-2
单目深度
→
MoRGBD
LingBot-Depth
→
深度 Token
8 learnable
RGB 图像
+
语言指令
→
Qwen2.5-VL-3B
视觉语言骨干
+
深度 Token
Query Distill
→
Flow Matching
动作解码
→
动作输出
14/75 维
深度分支可选插拔:w/o Depth 版本跳过 MoRGBD,直接以 RGB 特征输入 VLM;w/ Depth 版本引入对比学习对齐 RGB-D 特征。
GM-100 真实世界评测(3 平台平均成功率)
| 模型 | Agibot G1 SR | AgileX SR | Galaxea R1Pro SR | 平均 SR |
| WALL-OSS | 8.75% | 8.16% | 14.13% | 10.35% |
| GR00T N1.6 | 12.63% | 10.52% | 24.83% | 15.99% |
| π0.5 | 21.98% | 34.82% | 26.14% | 27.65% |
| LingBot-VLA (w/o Depth) | 30.04% | 36.31% | 34.71% | 33.69% |
| LingBot-VLA (w/ Depth) | 30.47% | 40.36% | 35.40% | 35.41% |
RoboTwin 2.0 仿真评测(平均成功率,50 任务)
| 模型 | Clean SR (%) | Rand. SR (%) |
| π0.5 | 82.74% | 76.76% |
| LingBot-VLA (w/o Depth) | 86.50% | 85.34% |
| LingBot-VLA (w/ Depth) | 88.56% | 86.68% |
💡 亮点总结
- 迄今为止最大规模双臂机器人真实数据预训练(20,000 小时),体现"实用主义"工程思维
- 深度感知原生集成:不是后处理,而是训练阶段的 Query Distillation,避免推理时的模态对齐开销
- 在 GM-100 超越 π0.5 平均 +7.76% SR(w/ Depth),跨平台泛化能力突出
- 训练效率 1.5–2.8× 提升,FSDP2 分布式扩展至 256 GPU,接近线性
- 完整开源:代码 + 权重 + 评估套件(HuggingFace + ModelScope)
核心出发点:现有世界模型(如 Sora、Genie 等)要么不开源,要么缺少实时交互能力。LingBot-World 旨在构建一个 完全开源的顶级世界模拟器,同时满足:高保真多样环境渲染、分钟级长时记忆一致性、以及 <1 秒延迟的实时交互。这是 WM 用于机器人学习和游戏/内容创作的共同需求。
🏗️ 技术基础
- 构建于 Wan2.2 视频生成框架(DiT 架构)
- 分辨率:480P 和 720P 双档
- 帧率:16 fps,延迟 <1 秒
- 最大时长:961 帧 ≈ 1 分钟(分钟级记忆)
- 分布式:FSDP + Ulysses 序列并行
🎮 控制信号类型
- Base (Cam):相机位姿条件(fx/fy/cx/cy + 4×4 变换矩阵)
- Base (Act):动作条件(机器人动作序列)
- Fast 版本:待发布(极速推理优化)
- 支持无控制信号的自由生成模式
🌈 环境多样性
- 写实环境(室内、室外、自然场景)
- 科幻/科学可视化场景
- 卡通/游戏风格环境
- 机器人操作场景(用于 LingBot-VA 数据生成)
- 长时记忆一致性:场景状态在分钟级保持连贯
🚀 开放程度
- 完整代码 + 权重(Apache 2.0 License)
- 4-bit NF4 量化版本(社区贡献,显存友好)
- HuggingFace + ModelScope 双平台托管
- 3.2k Stars(最高星标 LingBot 作品)
🔄 架构与推理流程
初始图像
+
文本提示
+
控制信号
相机位姿 / 动作
→
Wan2.2 DiT
扩散 Transformer
→
连贯视频帧
480P/720P · 16fps
视频输出
→
ViPE 位姿估计
(可选,逆向获取姿态)
→
相机轨迹
闭环控制输入
LingBot-World 可与 LingBot-VA 协同工作:World 负责生成多样化的机器人操作视频场景,VA 在这些场景上进行因果动作建模,从而形成"虚拟数据生成 → 策略训练"的闭环。
💡 亮点总结
- 目前开源社区中实时性最强的世界模型(<1s 延迟 @16fps),填补闭源与开源差距
- 分钟级时序一致性(961帧),远超同期开源 WM 的短时窗口限制(通常16-64帧)
- 双控制信号:相机位姿(用于内容创作/VR)+ 机器人动作(用于机器人学习),一套模型两种用途
- 社区活跃度高(3.2k Stars,263 Forks),已出现量化版本等社区贡献
- 作为 LingBot-VA 的数据生成基础设施,与系列内其他工作深度耦合
核心出发点:传统 VLA 将视觉感知和动作预测分离建模,忽视了"视觉动态"和"机器人动作"在时间维度上的内在因果关联。LingBot-VA 提出 因果视频-动作世界模型:在单一自回归模型中,将未来视觉帧预测与动作预测 交织为统一序列,让模型显式建模"动作如何改变视觉世界"的因果链,从而大幅提升长程操作成功率。
🏗️ 核心架构:MoT 双流
- 骨干:Wan2.2 视觉 Transformer
- 架构:双流 Mixture-of-Transformers (MoT)
- 视频流:处理视觉潜在序列(VAE 压缩)
- 动作流:处理动作 token 序列(独立参数)
- 交互:共享位置编码 + 跨流注意力
- 自回归交织:视频帧 ↔ 动作 token 交替生成
⚡ 高效推理机制
- 异步执行(Async Execution):视频帧生成与动作预测并行
- KV Cache:跨 chunk 缓存,避免重复计算历史上下文
- 单 GPU 推理 VRAM:~24GB(offload 模式)
- 图像转视频动作(i2av)生成:~18GB VRAM
- Server-Client 分离架构:仿真环境与模型独立部署
📦 训练细节
- 动作空间:30 维(左/右臂 EEF×7 + joints×7 + gripper×1,各臂共 15)
- 视频处理:VAE 潜在编码,256×256 降采样,5-15 fps
- 数据格式:LeRobot 格式 + 动作分割配置 (action_config)
- 分布式:FSDP 8/多 GPU,梯度累积支持大批量
- 后训练数据集:RoboTwin Clean + Augmented (HuggingFace 开放)
🌟 "因果"的关键创新
- 序列格式:[o₀, a₀, o₁, a₁, ..., oₜ, aₜ] 交织生成
- 动作 token 以过去的所有视觉帧为条件
- 视觉帧以过去动作为条件,建模世界动态
- 区分概念:视频=世界状态 vs. 动作=控制信号,不混用
- 解决 WM 和 VLA 无法互通的关键断层
🔄 因果序列建模流程
观测 o₀
VAE 潜在帧
→
MoT 双流
视频流 + 动作流
→
动作 a₀
→
预测 o₁
下一帧
→
动作 a₁
→
...循环
KV Cache 加速:历史帧的注意力键值缓存,新帧只需计算增量注意力,推理效率大幅提升。
异步执行:在生成下一帧视频的同时,并行执行当前动作(GPU 利用率最大化)。
RoboTwin 2.0 仿真评测(50 任务平均成功率)
| 模型 | Easy SR (%) | Hard SR (%) |
| X-VLA | 72.9 | 72.8 |
| π0 | 65.9 | 58.4 |
| π0.5 | 82.7 | 76.8 |
| Motus | 88.7 | 87.0 |
| LingBot-VA | 92.9 (+4.2) | 91.6 (+4.6) |
⭐ 首个在 RoboTwin 2.0 中同时超越 90% 阈值的工作(Easy + Hard)
LIBERO 评测(平均成功率,4 子集)
| 模型 | Spatial | Object | Goal | Long | Avg |
| OpenVLA | 84.7 | 88.4 | 79.2 | 53.7 | 76.5 |
| π0 | 96.8 | 98.8 | 95.8 | 85.2 | 94.1 |
| π0.5 | 98.8 | 98.2 | 98.0 | 92.4 | 96.9 |
| X-VLA | 98.2 | 98.6 | 97.8 | 97.6 | 98.1 |
| LingBot-VA | 98.5 | 99.6 | 97.2 | 98.5 | 98.5 |
真实世界灵巧操作(6 任务,vs. π0.5)
| 任务 | π0.5 SR | LingBot-VA SR | π0.5 PS | LingBot-VA PS |
| Make Breakfast(长程) | 70.0% | 75.0% | 73.0% | 97.0% |
| Pick Screws(长程) | 50.0% | 70.0% | 74.0% | 82.5% |
| Insert Tube(精度) | 30.0% | 40.0% | 79.2% | 85.8% |
| Unpack Delivery(精度) | 25.0% | 65.0% | 73.0% | 84.5% |
| Fold Clothes(变形) | 30.0% | 35.0% | 62.9% | 48.8% |
| Fold Pants(变形) | 30.0% | 70.0% | 30.0% | 76.7% |
💡 亮点总结
- 史上首个在 RoboTwin 2.0 Easy+Hard 双超 90% 的工作,长程操作能力显著领先
- MoT 双流架构的核心创新:视频帧和动作 token 共享 Transformer 但独立参数,保持概念清晰性的同时实现联合建模
- KV Cache + 异步执行:解决视频生成模型用于机器人控制时推理延迟过高的工程难题
- 在真实操作中 Fold Pants 任务 SR 从 30% → 70%(+133%),长程和精度任务均显著提升
- 数据格式完全开放(LeRobot 格式 + 训练集 HuggingFace),社区可直接复现
核心出发点:机器人传感器获取的深度数据普遍存在噪声、缺失和精度不足问题(尤其是结构光/ToF 传感器在反光、薄边缘、远距场景下的失效)。LingBot-Depth 通过 掩码深度建模(Masked Depth Modeling, MDM) 自监督预训练,在统一潜在空间联合对齐 RGB 外观与深度几何,从根本上提升传感器深度的质量,为下游机器人任务提供度量精确的 3D 感知基础。
🏗️ 模型架构
- 编码器:Vision Transformer Large(DINOv2 骨干)
- 创新:深度感知注意力机制(Depth-aware Attention)
- 解码器:多尺度特征金字塔 + 深度回归头
- 预训练:掩码深度重建自监督目标(MAE 范式延伸)
- 输入:RGB [B,3,H,W] + 原始深度图 [B,H,W] + 相机内参
- 输出:精化深度图 [B,H,W] + 3D 点云 [B,H,W,3]
📦 训练数据
- 总规模:3M RGB-D 样本
- 真实采集:200万 样本(住宅、办公室、商业环境)
- 仿真渲染:100万 样本(完美 GT 深度)
- 采集设备:Intel RealSense + Orbbec Gemini + Azure Kinect
- 覆盖:多种传感器类型、光照条件、场景复杂度
- 数据集计划 2026 年 3 月中开放(待许可)
🔑 掩码深度建模(MDM)
- 灵感来源:MAE(Masked Autoencoder)的掩码重建范式
- 掩码策略:随机遮挡深度图的连续区域
- 重建目标:从 RGB + 部分深度还原完整度量深度
- 跨模态注意力:深度查询 Token 对齐 RGB 空间对应区域
- 深度感知可视化:不同查询点关注不同空间区域,语义一致
🤖 下游任务应用
- 深度补全/精化:填补缺失区域,度量精度优化
- 场景重建:高保真室内 3D 建图,强深度先验
- 4D 点跟踪:动态目标(人体运动)的度量空间追踪
- 灵巧抓取:钢杯/玻璃杯/玩具车精确几何理解
- LingBot-VLA 集成:作为 MoRGBD 子模块注入 VLA
🔄 Masked Depth Modeling 预训练与推理
RGB 图像
[B,3,H,W]
+
噪声/缺失深度
[B,H,W] meters
+
相机内参
[B,3,3] 归一化
统一潜在空间
RGB-D 跨模态对齐
→
深度回归头
多尺度特征金字塔
→
精化深度
度量精确
+
3D 点云
[B,H,W,3]
预训练时:随机掩码深度图 → 重建完整深度(自监督)。
精化/补全时:输入残缺传感器深度 → 输出高质量度量深度。
集成到 LingBot-VLA 时:作为 MoRGBD 子模块,输出深度特征注入 Query Distillation 层。
模型版本与应用场景
| 模型 | 适用场景 | 特点 |
| LingBot-Depth-v0.5 ⭐推荐 | 通用深度精化 + 补全 | 修复 v0.1 bug,综合性能最强 |
| LingBot-Depth-v0.1 | 通用深度精化 | 初代版本 |
| LingBot-Depth-DC | 稀疏深度补全(RGB-D 传感器缺失) | 针对稀疏输入优化 |
💡 亮点总结
- 首个将 MAE 掩码自监督范式专门用于 RGB-D 联合建模的机器人深度感知基础模型
- 统一潜在空间的 RGB-Depth 对齐:深度查询 Token 的注意力可视化证明了跨模态空间对应关系
- 度量精确输出:不是相对深度,而是实际米制深度,可直接用于点云重建和抓取规划
- 作为系列工作的感知基础组件,被 LingBot-VLA 作为 MoRGBD 子模块直接集成,体现模块化设计
- 3M 规模混合数据集(真实 2M + 仿真 1M),跨传感器、跨场景的强泛化能力
🏛️ 四项工作的系统关系
📐 LingBot-Depth
空间感知基础模块
掩码深度建模
3M 数据预训练
↓ 集成为 MoRGBD
🌍 LingBot-World
世界仿真引擎
Wan2.2 扩散生成
实时交互 <1s
↓ 提供多样场景数据
🎬 LingBot-VA
因果视频-动作建模
MoT 双流架构
RoboTwin 92.9%
↓ WM建模能力上移
🤖 LingBot-VLA
实用 VLA 基础模型
20,000h 真实数据
Depth 原生集成
↑ 最终决策输出
| 维度 |
LingBot-VLA |
LingBot-World |
LingBot-VA |
LingBot-Depth |
| 主要任务 |
VLA 策略执行 |
视觉世界仿真 |
视频+动作联合建模 |
深度感知精化 |
| 核心创新 |
大规模真实数据 + 深度增强 |
实时 <1s + 分钟级记忆 |
因果交织自回归 + MoT |
掩码深度自监督 MDM |
| 基础骨干 |
Qwen2.5-VL-3B |
Wan2.2 DiT |
Wan2.2 + MoT |
DINOv2 ViT-L |
| 动作生成 |
Flow Matching |
无(纯生成) |
自回归 token |
无(感知模块) |
| 关键数据 |
20,000h 真实双臂 |
互联网多样视频 |
RoboTwin + LIBERO |
3M RGB-D(2M+1M) |
| GitHub Stars |
961 |
3,200 |
836 |
957 |
| 代表指标 |
GM-100 Avg SR 35.4% |
<1s 延迟 @16fps |
RoboTwin Easy 92.9% |
4D 跟踪 + 灵巧抓取 |
与同期竞品的差异化定位:
vs. π0/π0.5(Physical Intelligence): 都是通用 VLA 基础模型,但 LingBot-VLA 强调"实用主义"——更大规模真实数据、更高训练效率、Depth 原生集成。在 GM-100 上 LingBot-VLA-Depth 平均 SR 35.4% vs. π0.5 的 27.7%。
vs. GR00T N1(NVIDIA): 都针对双臂/人形机器人,但 LingBot-VLA 的 20,000 小时真实数据规模远超 GR00T N1 的仿真主导路线,跨平台真实泛化能力更强。
vs. Genie/WorldDreamer(Google): LingBot-World 是同类中最快开源的实用级世界模型,弥补了闭源 WM 在机器人学习社区的空白,且直接支持机器人动作条件控制。
LingBot-VA vs. LingBot-VLA: 两者定位互补——VA 是 WM+VLA 深度融合的"统一模型"路线(视频与动作共建模),VLA 是纯 VLA 路线(视觉-语言-动作 Flow Matching),VA 在长程操作上优势更大,VLA 在实际双臂机器人部署上更成熟。
🔮 研究启示与未来方向
- 系统级设计:四项工作组成完整技术栈(感知→仿真→建模→策略),研究者可在任意层次接入或替换模块
- WM×VLA 融合路线:LingBot-VA 的因果交织架构是最接近"完全融合"的范式,预计是未来主流方向
- 深度感知的价值再认知:Depth 增强在 GM-100 上给 VLA 带来 +1.7% 平均 SR,在结构化真实场景中几何信息至关重要
- 数据规模的决定性作用:20,000h 真实数据 vs. 2,000h 仿真数据的质量对比,再次验证了 RT-1 的核心结论
- 开源生态建设:所有 4 个工作均 Apache 2.0 开源,相比 π0、GR00T N1 等工业系统开放程度更高
- 待补足:LingBot-VA 在 Fold Clothes 上 SR 仅 35%(PS 48.8%),可变形物体操作仍是开放问题;LingBot-World 的 Fast 版本尚待发布