--- source: wechat source_url: http://mp.weixin.qq.com/s?__biz=MzkzNzM4ODE0NQ==&mid=2247594739&idx=1&sn=934248cc36fb5d8e6b8456fd7b58acc2&chksm=c29303edf5e48afbd01d8e551f3b1d9fff5da63d9ba7621d3496accc9e74de37dc9c6f58cefd#rd ingested: 2026-07-02 feed_name: 华为云开发者联盟 wechat_mp_fakeid: MP_WXS_3937388145 source_published: 2026-06-15 --- # 华为云、昇腾联合RLinf,共筑基于昇腾算力的具身智能开发生态 # 华为云、昇腾联合RLinf,共筑基于昇腾算力的具身智能开发生态 [ 华为云开发者联盟 ]() __ _ _ _ _ 在小说阅读器读本章 去阅读 在小说阅读器中沉浸阅读 近期,全球首个专为具身智能模型大规模强化学习后训练打造的开源框架RLinf正式发布v0.2版本,全面升级真实世界RL、多智能体RL与世界模型支持。围绕昇腾AI生态,华为云与昇腾团队合作完成了具身训练框架的一系列昇腾适配、精度对齐与性能优化工作,相关能力已原生合入RLinf开源社区,并在华为云CloudRobo具身开发平台上线具身模型大规模强化学习特性。 目前已支持GR00T、OpenPI、OpenVLA、DreamZero等前沿具身智能模型的强化学习后训练,并兼容Wan2.2世界模型、LIBERO等强化学习仿真环境。同时,我们进一步打通了“昇腾卡训推 + 渲染卡仿真”的跨节点异构RL训练方案,结合训练与仿真计算掩盖等优化技术,实现单步RL性能大幅提升,为昇腾AI生态下的大规模具身智能模型后训练提供了高效、可扩展的技术底座。 ** 背景 ** 在过去的几年里,大语言模型(LLM)和多模态视觉语言模型(VLM)彻底改变了我们与信息的交互方式。然而,AI发展的终极愿景并不止于“屏幕里的对话框”,而是能够感知物理世界、操作复杂工具并完成现实任务的具身智能(Embodied AI)。 随着视觉-语言-动作模型(VLA)的兴起,研究重点正从单纯的语义理解转向“感知-决策-执行”的闭环控制。然而,要训练出一个像人一样灵活的机器人大脑,面临着巨大的基础设施挑战: 仿真数据的渴求:现实世界的训练成本高且危险,必须依赖大规模并行仿真环境(如LIBERO、ManiSkill)。 计算效率的鸿沟:传统的强化学习(RL)框架在面对数十亿参数的视觉基座模型时,往往会出现“渲染等推理、推理等训练”的相互掣肘,导致硬件利用率低下。 软硬件适配的复杂性:在不同硬件架构(如GPU或NPU)上实现高效的内存管理和算力调度,一直是开发者的噩梦。 正是在这种“具身智能急需工业级引擎”的背景下,RLinf应运而生。 ** RLinf介绍 ** RLinf(Reinforcement Learning Infrastructure)是由清华大学、北京中关村学院、无问芯穹(Infi-AI)、北京大学与加州大学伯克利分校等顶尖科研机构及企业在2025年9月联合发布的开源项目(网址链接:https://github.com/RLinf/RLinf)。它是全球首个专门为具身智能(Embodied AI)设计的“渲染、训练、推理”一体化大规模强化学习框架,旨在解决具身智能训练中面临的硬件利用率低、系统灵活性差等痛点。RLinf项目开源半年来已获得GitHub Star超3600次,Fork500余次。 RLinf本身是一个灵活且可扩展的开源基础架构,专为通过强化学习对基础模型进行后训练而设计。名称中的“inf”代表Infrastructure(基础架构),强调其作为新一代训练强大支撑系统的角色;同时也代表Infinite(无限),象征该系统支持开放式学习、持续泛化和智能发展的无限可能性。 ** 核心技术亮点 ** M2Flow(Macro-to-Micro Flow)架构: 这是RLinf的核心“黑科技”。它通过宏观任务流与微观算子流的深度协同,打破了仿真渲染、模型推理与梯度训练之间的同步阻塞,实现了三者的极致并行。在同等硬件条件下,它能将具身任务的训练吞吐量提升数倍。 全场景仿真适配: RLinf原生支持LIBERO、IsaacLab、ManiSkill等主流具身智能仿真环境,以及使用视频生成模型、世界模型例如Wan2.2作为环境模拟器。通过高度抽象的接口,开发者可以像调用标准Gym环境一样轻松调动复杂的物理引擎。 支持前沿VLA架构: 框架深度集成了包括GRPO、PPO、DAPO在内的多种强化学习算法,并支持OpenVLA、GR00T等多种主流机器人基座模型的快速微调。 RLinf将训练过程拆分为三个独立运行的算力集群(Actor Groups): Env Group(环境采样组):负责驱动物理引擎(如LIBERO、MuJoCo)。它们执行模型动作,并“渲染”出下一帧的视觉观测(Observation)。 Rollout Group(模型推理组):专门负责将观测数据输入大模型(如VLA模型),计算出下一个动作(Action)。 Training Group(策略优化组):收集轨迹数据(Transitions),进行梯度计算并更新模型参数。 ** 昇腾适配 ** RLinf已于三月合入了第一个昇腾NPU适配改动PR #742 ,成功在昇腾上支持了OpenPI模型使用LIBERO的强化学习。同一时间也在SWR上传了对应镜像,预装了所有对应依赖,方便其他昇腾AI基础软硬件平台用户实现快速部署与验证。相关教程也已在RLinf官方文档发布: ** RLinf文档 ** 镜像地址如下: ** 昇腾A2: ** swr.cn-north-9.myhuaweicloud.com/rlinf/rlinf_npu:v1.0.1-910b ** 昇腾A3: ** swr.cn-north-9.myhuaweicloud.com/rlinf/rlinf_npu:v1.0.1-a3 目前我们在RLinf具身智能的昇腾落地进展: Simulators | VLA Models | WAM Models ---|---|--- ManiSkill ✅ | π₀ ✅ | DreamZero ✅ LIBERO ✅ | π₀.₅ ✅ | LingBot-VA (WIP) RoboTwin ✅ | OpenVLA✅ | Wan 2.2 ✅ | GR00T ✅ | 性能优化 训练仿真计算掩盖 ### 在实验过程中,我们发现算法上可以提前触发重置环境函数的执行,在模型训练过程中同步完成下一轮的环境准备工作。 如图所示: 通过Bootstrap-Training Overlap(NPU A2, 4 Env Workers),单步RL时间从769.4s下降到了611.6,减少了15%-20%的耗时。该PR #1088已经被社区接纳合入 。 训练/推理耗时优化 昇腾亲和高性能算子替换 基于GR00T+LIBERO强化学习的实际负载分析,识别到RMSNorm和Rope算子分别调用1470次和360次,该算子可以使用昇腾亲和的融合算子进行优化,RMSNorm算子单次耗时从4,665 μs降低到445 μs,单算子性能提升10x;Rope算子单次耗时从3,921 μs降低到1,435 μs,单算子性能提升2.7x。 优化后模型训练耗时提升约10%,推理耗时性能提升约30%,异构强化学习的端到端流程性能提升约10%。 训练负载分析 GR00T模型优化后,训练负载中实际计算占比90+%,计算利用率较高。模型中Cube算子耗时约Vector的2倍,整体对访存带宽要求高。 世界模型推理优化 世界模型(World Model)是一类能够表征环境状态、并预测状态间转移的模型;当前主流形态是理解世界与物理规律、并按需生成视频的生成式模型,例如Wan2.2。以世界模型充当环境模拟器具有两重优势:相比真机采样,可大幅降低成本、显著提升采样吞吐;相比传统仿真,则能生成更逼近真实世界的环境,有效缓解sim-to-real问题。 这一优势在昇腾硬件上尤为契合,世界模型仿真器的本质是模型推理负载,恰好能充分发挥昇腾NPU大显存、强算力的特点。为此,我们针对“世界模型仿真环境”这一场景进行了针对性适配与深度优化,使RLinf中Wan2.2的环境执行效率提升5倍以上,并提交了PR #1234 。 ### OpenVLA-OFT + Wan2.2 VLA模型强化学习训练 世界动作模型训练优化 2026年上半年,世界动作模型DreamZero一经发布就在多项机器人基准测试登顶,在具身智能领域获得极大关注。RLinf也在近期支持并优化了DreamZero模型的训练。我们成功在NPU上适配了DreamZero通过RLinf进行SFT训练并优化了性能,单步训练时间在A3上相比初始版本减少68%,达到10秒以内。 上图中的测试都由8卡实现 结语 我们取得的阶段性成果包括:开箱即用的昇腾AI生态支持,RLinf框架已原生支持昇腾NPU后端,开发者无需额外适配即可在CloudRobo平台上直接运行强化学习训练任务。我们提供了预置的模型资产、仿真资产和配置模板,大幅降低了环境搭建门槛。在完全一致的实验配置下,昇腾NPU与业界主流算力的训练收敛曲线高度一致,且在长稳实验中,证明了RLinf在CloudRobo平台上的稳定性和有效性。 未来,CloudRobo具身开发平台将继续与开源强化学习框架RLinf深度合作,逐步上线具身场景更多的RL特性和能力,为开发者带来更高效、更易用的一站式具身智能开发体验。我们期待与社区一起,在自主创新算力的土壤上,见证更多能感知、会思考、善行动的智能实体诞生。 欢迎 ** 关注 ** 、 ** 点赞 ** 、 ** 分享 ** 、 ** 留言 ** 发表更多 观点 一起交流,共同进步! ** 戳“ 预览时标签不可点 [ 微信扫一扫 关注该公众号 [ 知道了 ]() 微信扫一扫 使用小程序 **** [ 取消 ]() [ 允许 ]() **** [ 取消 ]() [ 允许 ]() **** [ 取消 ]() [ 允许 ]() × 分析 __ 微信扫一扫可打开此内容, 使用完整服务 : , , , , , , , , , , , , 。 视频 小程序 赞 ,轻点两下取消赞 在看 ,轻点两下取消在看 分享 留言 收藏 听过