--- source_url: "https://mp.weixin.qq.com/s/N8WlG3OydsmcV_o9lIvaxw" ingested: 2026-06-26 sha256: 19f6aac7ce69518c --- sha256: 044d37786ef20697 --- title: "国产预训练具身大模型开源:Wall-OSS-0.5零样本上真机,预训练即可部署" source: wechat source_url: https://mp.weixin.qq.com/s/N8WlG3OydsmcV_o9lIvaxw author: 关注具身智能的 feed_name: 机器之心 review_value: 8 review_confidence: 8 review_recommendation: strong review_stars: 4 date: 2026-05-28 created: 2026-05-28 updated: 2026-05-28 tags: [wall-oss, vla-model, embodied-ai, robotics, x-square-robot, pretraining, zero-shot, gradient-bridging, action-tokenizer, dmuon, open-source] type: article provenance_state: synthesized sha256: dce6c0ab23e2a6262c58ba5dd367b469f9c50d2a47a8c382ed778ccfc6881ad8 --- # 国产预训练具身大模型开源:Wall-OSS-0.5零样本上真机,预训练即可部署 > **来源**:机器之心,2026年5月28日 > **背景**:自变量机器人(X Square Robot)开源 Wall-OSS-0.5——首个预训练 checkpoint 直接上真实机器人零样本任务,在17个任务上测试,400k步checkpoint中4个超过80分 ## 一句话 自变量机器人开源 **Wall-OSS-0.5**:国产 VLA(视觉-语言-动作)模型,预训练 checkpoint 不经任何任务微调直接上真机,在 17 个零样本任务上测试,含梯度桥接、语义动作 Tokenizer、动作空间监督、DMuon 优化器四项核心技术,全部开源。 ## 行业困境 大多数 VLA 模型评测都是**微调之后**才汇报成绩——相当于先上"考前培训"再考试,让人无法判断是预训练(大学课程)还是微调(培训班)起了作用。 **Wall-OSS-0.5 的核心问题**:如果不允许微调,预训练的模型能干什么? ## 模型架构 Wall-OSS-0.5 是 VLA 模型,在超过 **20 种机器人形态、每轮超过 100 万条轨迹**的数据上完成预训练,同时混入约 **9000 万条多模态语料**。 ## 四项核心技术 ### 1. 梯度桥接(Gradient Bridging) **问题**:VLM 主干永远学不会"动作",它只是在为动作专家提供特征,并不真正理解物理世界的可操作结构。 **方法**:将动作离散化为特殊的「字符 Token」,与文本 Token 拼接到同一自回归序列中,用大模型原生的交叉熵损失训练。 **效果**:架起一座"梯度桥",强迫主干在预训练阶段就把"看、说、动"统一在同一套表征空间里。砍掉这座桥,真实机器人任务成功率断崖式下降。 ### 2. 视觉对齐的动作 Tokenizer **问题**:业界广泛使用的 FAST Tokenizer 能还原动作,但传进主干的是没有物理意义的编号,主干只学到统计学共现。 **方法**:训练一个视觉对齐的残差向量量化 Tokenizer——量化动作的同时,强制 Token 表征与对应时刻视觉特征对齐,并要求预测下一帧视觉变化。 **效果**:每个动作 Token 同时承载「电机怎么转」和「画面怎么变」两层信息,进入与视觉、语言同一语义空间,主干网络预测下一个动作时,就是在脑海里进行高维度时空推演。 ### 3. 动作空间监督 **问题**:流匹配的标准做法是预测"速度"(噪声到目标的瞬时方向),但机器人物理动作轨迹的高频细节几乎不影响成败,模型会把大量算力浪费在拟合无关的高频抖动上。 **方法**:把损失从「预测速度」改写为「预测重建出来的最终动作」——数学上等价于对动作轨迹成型初期(高噪声阶段)自动加权。 **效果**:让模型先集中精力把人体骨架打准,再描绘衣服褶皱——训练收敛速度和稳定性远超前人。 ### 4. DMuon(分布式 Muon) **问题**:VLM 骨干(大规模预训练)和动作头(从头初始化)三路损失反传的梯度量级系统性失配。Muon 优化器能缓解,但原生单步开销离谱。 **方法**:DMuon = 分布式 Muon。结合 LPT 专属所有权调度 + 回收迭代冗余计算的 CuteDSL 内核,把引入 Muon 的整体开销从 2x 降至 0.02x(缩减约 100 倍)。 ## 核心实验结果 **零样本任务(400k 预训练 checkpoint)**: - 17 个任务涵盖语义理解、刚性物体操作、柔性物体操作、精细操作、长程多步操作五大类 - **4 个任务得分超过 80 分(满分 100)** - 400k 预训练步数的 checkpoint 即达到及格分数 **微调后**:进一步大幅领先 **动作训练还能倒逼感知能力进化** ## 工程意义 四项设计各有所指,指向同一目标:让主干网络在预训练阶段就真正"经历"过动作,而不只是"见过"动作数据。 ## 开源 - 模型权重、训练配方、消融实验、底层优化器实现全部公开 - 配套训练代码与技术文档 - 「具亮计划 2026」黑客松鼓励开发者在真实机器人上复现与创新 ## 局限 - 毛巾折叠和充电器插接还在 10 分以下 - 长程任务仍依赖单帧视觉输入 - 具身智能还有很长的路要走 ## 一句话总结 Wall-OSS-0.5 验证了"让预训练主干真正经历动作"的可行性——梯度桥让动作监督穿透主干,语义 Tokenizer 传递有物理意义的信号,DMuon 让这套精密配方在真实集群上跑得起来。 --- *自变量机器人(X Square Robot)| 机器之心*