---
source_url: "https://mp.weixin.qq.com/s/N8WlG3OydsmcV_o9lIvaxw"
ingested: 2026-06-26
sha256: 19f6aac7ce69518c
---
sha256: 044d37786ef20697
---
title: "国产预训练具身大模型开源：Wall-OSS-0.5零样本上真机，预训练即可部署"
source: wechat
source_url: https://mp.weixin.qq.com/s/N8WlG3OydsmcV_o9lIvaxw
author: 关注具身智能的
feed_name: 机器之心
review_value: 8
review_confidence: 8
review_recommendation: strong
review_stars: 4
date: 2026-05-28
created: 2026-05-28
updated: 2026-05-28
tags: [wall-oss, vla-model, embodied-ai, robotics, x-square-robot, pretraining, zero-shot, gradient-bridging, action-tokenizer, dmuon, open-source]
type: article
provenance_state: synthesized
sha256: dce6c0ab23e2a6262c58ba5dd367b469f9c50d2a47a8c382ed778ccfc6881ad8
---

# 国产预训练具身大模型开源：Wall-OSS-0.5零样本上真机，预训练即可部署

> **来源**：机器之心，2026年5月28日
> **背景**：自变量机器人（X Square Robot）开源 Wall-OSS-0.5——首个预训练 checkpoint 直接上真实机器人零样本任务，在17个任务上测试，400k步checkpoint中4个超过80分

## 一句话

自变量机器人开源 **Wall-OSS-0.5**：国产 VLA（视觉-语言-动作）模型，预训练 checkpoint 不经任何任务微调直接上真机，在 17 个零样本任务上测试，含梯度桥接、语义动作 Tokenizer、动作空间监督、DMuon 优化器四项核心技术，全部开源。

## 行业困境

大多数 VLA 模型评测都是**微调之后**才汇报成绩——相当于先上"考前培训"再考试，让人无法判断是预训练（大学课程）还是微调（培训班）起了作用。

**Wall-OSS-0.5 的核心问题**：如果不允许微调，预训练的模型能干什么？

## 模型架构

Wall-OSS-0.5 是 VLA 模型，在超过 **20 种机器人形态、每轮超过 100 万条轨迹**的数据上完成预训练，同时混入约 **9000 万条多模态语料**。

## 四项核心技术

### 1. 梯度桥接（Gradient Bridging）

**问题**：VLM 主干永远学不会"动作"，它只是在为动作专家提供特征，并不真正理解物理世界的可操作结构。

**方法**：将动作离散化为特殊的「字符 Token」，与文本 Token 拼接到同一自回归序列中，用大模型原生的交叉熵损失训练。

**效果**：架起一座"梯度桥"，强迫主干在预训练阶段就把"看、说、动"统一在同一套表征空间里。砍掉这座桥，真实机器人任务成功率断崖式下降。

### 2. 视觉对齐的动作 Tokenizer

**问题**：业界广泛使用的 FAST Tokenizer 能还原动作，但传进主干的是没有物理意义的编号，主干只学到统计学共现。

**方法**：训练一个视觉对齐的残差向量量化 Tokenizer——量化动作的同时，强制 Token 表征与对应时刻视觉特征对齐，并要求预测下一帧视觉变化。

**效果**：每个动作 Token 同时承载「电机怎么转」和「画面怎么变」两层信息，进入与视觉、语言同一语义空间，主干网络预测下一个动作时，就是在脑海里进行高维度时空推演。

### 3. 动作空间监督

**问题**：流匹配的标准做法是预测"速度"（噪声到目标的瞬时方向），但机器人物理动作轨迹的高频细节几乎不影响成败，模型会把大量算力浪费在拟合无关的高频抖动上。

**方法**：把损失从「预测速度」改写为「预测重建出来的最终动作」——数学上等价于对动作轨迹成型初期（高噪声阶段）自动加权。

**效果**：让模型先集中精力把人体骨架打准，再描绘衣服褶皱——训练收敛速度和稳定性远超前人。

### 4. DMuon（分布式 Muon）

**问题**：VLM 骨干（大规模预训练）和动作头（从头初始化）三路损失反传的梯度量级系统性失配。Muon 优化器能缓解，但原生单步开销离谱。

**方法**：DMuon = 分布式 Muon。结合 LPT 专属所有权调度 + 回收迭代冗余计算的 CuteDSL 内核，把引入 Muon 的整体开销从 2x 降至 0.02x（缩减约 100 倍）。

## 核心实验结果

**零样本任务（400k 预训练 checkpoint）**：
- 17 个任务涵盖语义理解、刚性物体操作、柔性物体操作、精细操作、长程多步操作五大类
- **4 个任务得分超过 80 分（满分 100）**
- 400k 预训练步数的 checkpoint 即达到及格分数

**微调后**：进一步大幅领先

**动作训练还能倒逼感知能力进化**

## 工程意义

四项设计各有所指，指向同一目标：让主干网络在预训练阶段就真正"经历"过动作，而不只是"见过"动作数据。

## 开源

- 模型权重、训练配方、消融实验、底层优化器实现全部公开
- 配套训练代码与技术文档
- 「具亮计划 2026」黑客松鼓励开发者在真实机器人上复现与创新

## 局限

- 毛巾折叠和充电器插接还在 10 分以下
- 长程任务仍依赖单帧视觉输入
- 具身智能还有很长的路要走

## 一句话总结

Wall-OSS-0.5 验证了"让预训练主干真正经历动作"的可行性——梯度桥让动作监督穿透主干，语义 Tokenizer 传递有物理意义的信号，DMuon 让这套精密配方在真实集群上跑得起来。

---

*自变量机器人（X Square Robot）| 机器之心*