--- title: "百度百舸 AI Infra 助力具身智能模型加速迭代" source: wechat url: https://mp.weixin.qq.com/s/96cmhuymVdUUBDpG_C4p4Q ingest_date: 2026-07-04 vxc: 49 stars: 4 sha256: aed3af6c6a1dab6d9c88f96711014356a3964865650613ea575a519c9446270c --- # 百度百舸 AI Infra 助力具身智能模型加速迭代 **来源**: 百度Geek说 **发布日期**: 2026-02-02 **原文链接**: https://mp.weixin.qq.com/s/96cmhuymVdUUBDpG_C4p4Q --- 。 点击蓝字,关注我们 本文整理自 百度智能云主任架构师应茹在文心 Moment 大会 2026· 上海站多硬件协同分论坛的演讲。 我今天分享的主题是:在具身智能行业飞速发展的背景下,百度百舸·AI 计算平台看到了哪些趋势和新需求,以及作为技术赋能者,如何助力具身智能模型的加速迭代。 2025 年以来,我们都能感受到自身处于具身智能的热潮之中。 在云端具身智能领域 ,听到最多的一个词是 VLA(Vision-Language-Action Model),它以视觉与自然语言解析 作为输入,生成 Action 序列,成为一种热门的建模范式。 从顶会论文统计数据或权威论文发布平台来看,以 VLA 为主题的文献数量在 2025 年呈现了十几到二十倍的爆炸性增长。深入这些文献内容可以发现,此前主流的机器人操作或机械臂评测任务集,平均成功率也已达到 95% 以上。同时,在设计 VLA 模型结构时,架构设计也逐步形成了一些共识。 我们看到,云端的具身智能开发者与研究者,开始将研究重点转向如何对模型参数量和算力训练规模进行 Scaling,使操作任务变得更长程、更复杂,并关注模型如何真正落地到产业端,例如关注推理速率、考量鲁棒性,能否在长程任务中实现稳定、持续、高成功率的操作。 在这样的变化背景下,具身行业对 AI Infra 平台、对百度百舸提出了一些新的要求。 首先, 简要介绍一下 具身智能模型基于云平台的典型开发流程与工作流 Workflow 。通常 ,AI Infra 或云厂商会提供包含几个层次的 Infra 底座: 首先是底层 IaaS,包含高性能算力,辅以机间高速互联的高性能网络,以及分布式高性能存储能力。 其上提供成熟的云原生分布式调度框架,将模型的训练和推理任务高效调度和部署到机器上。 具体模型如何运行?训练和推理框架会根据事先定义好的模型结构,调用底层 GPU 或加速芯片开放的算子接口来运行模型。通常还会通过切分的并行技术在多卡或多机之间进行加速运行,这主要由第三层训推加速框架负责。 具身智能的业务运行在此之上,核心流程主要涉及几个环节: 首先是训练数据准备。数据来源可以有多种:预置开源热门数据集,客户可直接使用。除了主流的 20 多种开源具身数据集,近期百度百舸也率先针对预训练场景集成了简智开源的 RealOmni 无本体数据集。 客户也可在云端部署仿真环境,通过键盘遥操作收集轨迹数据,或使用世界模型生成数据,还可将真机数据上传至云上,使用数据增强模型进行扩增。这些数据存储在云端的高性能存储集群中,可便捷地对接到训练集群或开发机,进入训练环节。 训练环节涉及具身大脑、运动小脑及世界模型的训练。百度百舸全面适配了 RDT、GR00T N1.5、π0.5 等一系列模型,并对开源模型的训练吞吐做了加速优化。 训练到一定阶段后进入模型效果评估环节,客户可使用云端预置的仿真评测环境进行模型鲁棒性、成功率的评测。百度百舸在此集成了 Isaac、Maniskill3、RoboTwin2 等主流仿真环境及典型任务集,训练完的模型 Checkpoint 可直接对接到仿真环境部署评估。 这便是当前具身智能在云端的主流开发工作流。 针对上述环节,我们将从 AI Infra 的角度,进一步剖析几个典型的挑战与需求。 首先是 VLA 架构设计逐渐形成的共识之一——双系统分层架构设计。该设计将 VLA 分为两层:一层是模拟人类快速反应的系统 1,另一层是模拟深度思考的系统 2。系统 2 对应大脑,即常提到的具身大脑,它依托视觉与自然语言输入进行环境感知与语义理解,完成场景中的物理识别与任务规划拆解,输出给具身小脑;小脑则实际产出动作序列,实时控制机器人或机械臂。大脑部分通常选用经过海量互联网数据预训练的视觉语言模型 VLM。 在分层双系统架构下,我们看到两种实现路径: 一种是左图所示,将双系统实现为两个独立模型:大脑部署在云端,小脑在端侧,端云协同。在此场景下,由于大脑部署在云端,其参数量可扩展至较大,例如超过 200B。此时大脑的训练是典型的大参数量 VLM 多机训练,模型结构通常为 MoE。这对云的要求是:具备极致吞吐的多机多卡并行训练加速能力。我们会在训练加速框架中,结合模型结构与具体算力平台特点,进行多维度并行加速优化,尽量减少多机并行带来的通信开销,充分发挥硬件潜力。 另一种路径是将双系统实现在一个单体模型中。由于该模型最终需部署在设备上,其参数量不会过大,通常在 10B 以下,甚至 7B 已算较大。这类模型的特点是融合了两种系统,结构多为多模块,开发者通常希望敏捷修改模型、快速试错。我们选择的方案是提供与模型结构解耦的灵活训练框架,支持敏捷迭代,与 Hugging Face 天然兼容,可快速引入社区新发布的开源模型结构,并具备良好的中小规模多机并行加速能力。 另外值得提及的是世界模型。我们看到与上述架构平行的一种实现方式是引入世界模型与 VLA 联合训练。一方面,世界模型本身带有对物理规律的理解;另一方面,世界模型预测未来帧的过程相对于 VLA 的 Action 有更密集的监督信号,对训练数据的利用效率更高,能增强 VLA 的训练效果。百舸在此也提供了主流开源世界模型的多机并行训练加速能力,尤其是输入序列的多机多卡并行能力。 另一个热门环节是强化学习。 我们通过这张流程图想说明,强化学习算法流程较为冗长。通常开源强化学习框架将该流程置于单个控制节点中,当训练推理任务需分布式运行时,借助分布式框架部署到多机,中间涉及较多环节间的输出与输入数据传输。 多模态模型的输入输出数据较大,在此架构下相比文本大语言模型更容易遇到单个控制节点数据预处理与分发的瓶颈。 同时,多模态数据输入之间长度差异变大,更容易遇到多卡多机间计算负载不均衡的问题。 此外,VLA 模型在强化学习时需与仿真环境交互,例如生成一系列动作移动杯子,仿真环境中的杯子需相应更新位置,为模型提供新的环境观察。这是现有强化学习框架缺失的部分。 总体而言,大语言模型领域在实践中已沉淀出一系列成熟的工具链与框架体系,但面对具身智能仍需深入具体场景进行适配与优化,才能更好发挥作用。 最后是仿真环节。除了强化学习中提供反馈的仿真环境外,仿真还用于生产数据和对模型效果进行评测。 以 NVIDIA 为例,其围绕 Sim-First Physical AI 理念构建了一套仿真生态。但深入拆解可发现该生态高度模块化,应用到具体场景时需对这些模块进行不同排列组合。 百度百舸为典型场景提供了开箱即用的产品矩阵。同时我们进一步发现,Isaac 的任务并非全是 GPU 算力敏感型,部分任务对 CPU 算力敏感,其性能随 CPU 架构、主频或 Cache 大小而变化。针对这一特点,我们也对不同算力平台进行了调优。 我们深入具身行业提供 AI Infra 底座,包括视觉语言模型后训练吞吐的大幅提升、世界模型推理延迟的优化、Isaac 仿真任务的 FPS 提升等能力,这些已集成 至百度百舸平台,开发者可开箱即用。 同时,我们持续关注具身行业的发展,例如 GEN-0 模型基于 27 万小时真实机器人数据进行预训练,其研究结果有效验证了具身智能基础模型也存在显著的 Scaling Law 规律 。 在训练数据量、模型参数量增大的背景下,百度百舸平台将持续为不同规模、不同结构的模型训练与推理提供结合硬件优化的高性价比解决方案。 最后是百度百舸的全景图。 我们提供的 AI Infra 能力与刚才提到的具身 Workflow 所依赖的每一层均对应:底层是高性能算力,包括自研昆仑芯及超节点;机间是我们为 MoE 模型优化的高性能 RDMA 网络;在此之上,我们提供了热门开源模型的加速版本及训推加速框架,整体支撑具身行业模型的高速迭代。 百度智能云已支持包括北京、上海、浙江、广东创新中心在内的具身国家队,并为产业链上超过 20 家重点企业提供强大支撑。我们真诚希望与更多具身企业深入合作,为具身行业的快速发展提供技术赋能。 END 推荐阅读 了解你的 AI 编码伙伴:Coding Agent核心机制解析 百度流式计算开发平台的降本增效之路 百度智能云网络智能化运维系统设计和实践 百度一站式全业务智能结算中台 播放器视频后处理实践(二)氛围模式 一键三连,好运连连,bug不见 👇