---
source: wechat
source_url: http://mp.weixin.qq.com/s?__biz=MzkzNzM4ODE0NQ==&mid=2247594739&idx=1&sn=934248cc36fb5d8e6b8456fd7b58acc2&chksm=c29303edf5e48afbd01d8e551f3b1d9fff5da63d9ba7621d3496accc9e74de37dc9c6f58cefd#rd
ingested: 2026-07-02
feed_name: 华为云开发者联盟
wechat_mp_fakeid: MP_WXS_3937388145
source_published: 2026-06-15
---

# 华为云、昇腾联合RLinf，共筑基于昇腾算力的具身智能开发生态

#  华为云、昇腾联合RLinf，共筑基于昇腾算力的具身智能开发生态

[ 华为云开发者联盟 ](<javascript:void\(0\);>)

__ _ _ _ _

在小说阅读器读本章

去阅读

在小说阅读器中沉浸阅读

近期，全球首个专为具身智能模型大规模强化学习后训练打造的开源框架RLinf正式发布v0.2版本，全面升级真实世界RL、多智能体RL与世界模型支持。围绕昇腾AI生态，华为云与昇腾团队合作完成了具身训练框架的一系列昇腾适配、精度对齐与性能优化工作，相关能力已原生合入RLinf开源社区，并在华为云CloudRobo具身开发平台上线具身模型大规模强化学习特性。

目前已支持GR00T、OpenPI、OpenVLA、DreamZero等前沿具身智能模型的强化学习后训练，并兼容Wan2.2世界模型、LIBERO等强化学习仿真环境。同时，我们进一步打通了“昇腾卡训推 + 渲染卡仿真”的跨节点异构RL训练方案，结合训练与仿真计算掩盖等优化技术，实现单步RL性能大幅提升，为昇腾AI生态下的大规模具身智能模型后训练提供了高效、可扩展的技术底座。

** 背景  **

在过去的几年里，大语言模型（LLM）和多模态视觉语言模型（VLM）彻底改变了我们与信息的交互方式。然而，AI发展的终极愿景并不止于“屏幕里的对话框”，而是能够感知物理世界、操作复杂工具并完成现实任务的具身智能（Embodied AI）。

随着视觉-语言-动作模型（VLA）的兴起，研究重点正从单纯的语义理解转向“感知-决策-执行”的闭环控制。然而，要训练出一个像人一样灵活的机器人大脑，面临着巨大的基础设施挑战：

仿真数据的渴求：现实世界的训练成本高且危险，必须依赖大规模并行仿真环境（如LIBERO、ManiSkill）。

计算效率的鸿沟：传统的强化学习（RL）框架在面对数十亿参数的视觉基座模型时，往往会出现“渲染等推理、推理等训练”的相互掣肘，导致硬件利用率低下。

软硬件适配的复杂性：在不同硬件架构（如GPU或NPU）上实现高效的内存管理和算力调度，一直是开发者的噩梦。

正是在这种“具身智能急需工业级引擎”的背景下，RLinf应运而生。

** RLinf介绍  **

RLinf（Reinforcement Learning Infrastructure）是由清华大学、北京中关村学院、无问芯穹（Infi-AI）、北京大学与加州大学伯克利分校等顶尖科研机构及企业在2025年9月联合发布的开源项目（网址链接：https://github.com/RLinf/RLinf）。它是全球首个专门为具身智能（Embodied AI）设计的“渲染、训练、推理”一体化大规模强化学习框架，旨在解决具身智能训练中面临的硬件利用率低、系统灵活性差等痛点。RLinf项目开源半年来已获得GitHub Star超3600次，Fork500余次。

RLinf本身是一个灵活且可扩展的开源基础架构，专为通过强化学习对基础模型进行后训练而设计。名称中的“inf”代表Infrastructure（基础架构），强调其作为新一代训练强大支撑系统的角色；同时也代表Infinite（无限），象征该系统支持开放式学习、持续泛化和智能发展的无限可能性。

** 核心技术亮点  **

M2Flow（Macro-to-Micro Flow）架构：
这是RLinf的核心“黑科技”。它通过宏观任务流与微观算子流的深度协同，打破了仿真渲染、模型推理与梯度训练之间的同步阻塞，实现了三者的极致并行。在同等硬件条件下，它能将具身任务的训练吞吐量提升数倍。

全场景仿真适配：
RLinf原生支持LIBERO、IsaacLab、ManiSkill等主流具身智能仿真环境，以及使用视频生成模型、世界模型例如Wan2.2作为环境模拟器。通过高度抽象的接口，开发者可以像调用标准Gym环境一样轻松调动复杂的物理引擎。

支持前沿VLA架构：
框架深度集成了包括GRPO、PPO、DAPO在内的多种强化学习算法，并支持OpenVLA、GR00T等多种主流机器人基座模型的快速微调。

RLinf将训练过程拆分为三个独立运行的算力集群（Actor Groups）：

Env Group（环境采样组）：负责驱动物理引擎（如LIBERO、MuJoCo）。它们执行模型动作，并“渲染”出下一帧的视觉观测（Observation）。

Rollout Group（模型推理组）：专门负责将观测数据输入大模型（如VLA模型），计算出下一个动作（Action）。

Training Group（策略优化组）：收集轨迹数据（Transitions），进行梯度计算并更新模型参数。

** 昇腾适配  **

RLinf已于三月合入了第一个昇腾NPU适配改动PR  #742  ，成功在昇腾上支持了OpenPI模型使用LIBERO的强化学习。同一时间也在SWR上传了对应镜像，预装了所有对应依赖，方便其他昇腾AI基础软硬件平台用户实现快速部署与验证。相关教程也已在RLinf官方文档发布：

** RLinf文档  **

镜像地址如下:

** 昇腾A2：  **

swr.cn-north-9.myhuaweicloud.com/rlinf/rlinf_npu:v1.0.1-910b

** 昇腾A3：  **

swr.cn-north-9.myhuaweicloud.com/rlinf/rlinf_npu:v1.0.1-a3

目前我们在RLinf具身智能的昇腾落地进展：

Simulators  |  VLA Models  |  WAM Models
---|---|---
ManiSkill ✅  |  π₀ ✅  |  DreamZero ✅
LIBERO ✅  |  π₀.₅ ✅  |  LingBot-VA (WIP)
RoboTwin ✅  |  OpenVLA✅  |

Wan 2.2 ✅  |  GR00T ✅  |

性能优化

训练仿真计算掩盖

###

在实验过程中，我们发现算法上可以提前触发重置环境函数的执行，在模型训练过程中同步完成下一轮的环境准备工作。

如图所示：

通过Bootstrap-Training Overlap（NPU A2, 4 Env Workers），单步RL时间从769.4s下降到了611.6，减少了15%-20%的耗时。该PR  #1088已经被社区接纳合入  。

训练/推理耗时优化

昇腾亲和高性能算子替换

基于GR00T+LIBERO强化学习的实际负载分析，识别到RMSNorm和Rope算子分别调用1470次和360次，该算子可以使用昇腾亲和的融合算子进行优化，RMSNorm算子单次耗时从4,665 μs降低到445 μs，单算子性能提升10x；Rope算子单次耗时从3,921 μs降低到1,435 μs，单算子性能提升2.7x。

优化后模型训练耗时提升约10%，推理耗时性能提升约30%，异构强化学习的端到端流程性能提升约10%。

训练负载分析

GR00T模型优化后，训练负载中实际计算占比90+%，计算利用率较高。模型中Cube算子耗时约Vector的2倍，整体对访存带宽要求高。

世界模型推理优化

世界模型（World Model）是一类能够表征环境状态、并预测状态间转移的模型；当前主流形态是理解世界与物理规律、并按需生成视频的生成式模型，例如Wan2.2。以世界模型充当环境模拟器具有两重优势：相比真机采样，可大幅降低成本、显著提升采样吞吐；相比传统仿真，则能生成更逼近真实世界的环境，有效缓解sim-to-real问题。

这一优势在昇腾硬件上尤为契合，世界模型仿真器的本质是模型推理负载，恰好能充分发挥昇腾NPU大显存、强算力的特点。为此，我们针对“世界模型仿真环境”这一场景进行了针对性适配与深度优化，使RLinf中Wan2.2的环境执行效率提升5倍以上，并提交了PR  #1234  。

###  OpenVLA-OFT + Wan2.2 VLA模型强化学习训练

世界动作模型训练优化

2026年上半年，世界动作模型DreamZero一经发布就在多项机器人基准测试登顶，在具身智能领域获得极大关注。RLinf也在近期支持并优化了DreamZero模型的训练。我们成功在NPU上适配了DreamZero通过RLinf进行SFT训练并优化了性能，单步训练时间在A3上相比初始版本减少68%，达到10秒以内。

上图中的测试都由8卡实现

结语

我们取得的阶段性成果包括：开箱即用的昇腾AI生态支持，RLinf框架已原生支持昇腾NPU后端，开发者无需额外适配即可在CloudRobo平台上直接运行强化学习训练任务。我们提供了预置的模型资产、仿真资产和配置模板，大幅降低了环境搭建门槛。在完全一致的实验配置下，昇腾NPU与业界主流算力的训练收敛曲线高度一致，且在长稳实验中，证明了RLinf在CloudRobo平台上的稳定性和有效性。

未来，CloudRobo具身开发平台将继续与开源强化学习框架RLinf深度合作，逐步上线具身场景更多的RL特性和能力，为开发者带来更高效、更易用的一站式具身智能开发体验。我们期待与社区一起，在自主创新算力的土壤上，见证更多能感知、会思考、善行动的智能实体诞生。

欢迎  ** 关注  ** 、  ** 点赞  ** 、  ** 分享  ** 、  ** 留言  **

发表更多  观点

一起交流，共同进步！

** 戳“

预览时标签不可点

[

微信扫一扫
关注该公众号

[ 知道了 ](<javascript:;>)

微信扫一扫
使用小程序

****

[ 取消 ](<javascript:void\(0\);>) [ 允许 ](<javascript:void\(0\);>)

****

[ 取消 ](<javascript:void\(0\);>) [ 允许 ](<javascript:void\(0\);>)

****

[ 取消 ](<javascript:void\(0\);>) [ 允许 ](<javascript:void\(0\);>)

×  分析

__

微信扫一扫可打开此内容，
使用完整服务

：  ，  ，  ，  ，  ，  ，  ，  ，  ，  ，  ，  ，  。  视频  小程序  赞  ，轻点两下取消赞  在看  ，轻点两下取消在看  分享  留言  收藏  听过