--- title: "李飞飞署名具身新论文:Sim2Real烧不起,Real2Sim量大管饱" source: wechat url: https://mp.weixin.qq.com/s/pu_gbJjuUuwEGRAA3FJuNQ ingest_date: 2026-07-04 vxc: 49 stars: 4 sha256: 66704bb62daef322bc28faaf14e4aff20b850f80686141e6fd1394465f6dcee5 --- # 李飞飞署名具身新论文:Sim2Real烧不起,Real2Sim量大管饱 ##### henry 发自 凹非寺 量子位 | 公众号 QbitAI **还在聊Sim2Real?现在机器人圈更火的是Real2Sim!** 最近,英伟达**GEAR** 联合**李飞飞** 团队、**佐治亚理工大学** 等机构联合发布全新Real2Sim系统—— **SimFoundry** 。 SimFoundry只需一段真实世界视频,就能自动生成一个可以交互、训练、评测的机器人仿真环境。 已关注 __ 关注 __ 重播 __ 分享 __ 赞 关闭 __ **观看更多** 更多 __ __ __ __ _退出全屏_ [ __]() _切换到竖屏全屏_ _退出全屏_ 量子位已关注 [ __]() 分享视频 __,时长 01:38 0/0 00:00/01:38 切换到横屏模式 继续播放 进度条,百分之0 __ [播放]() 00:00 / 01:38 01:38 [倍速]() _全屏_ __倍速播放中 [ 0.5倍 ]()[ 0.75倍 ]()[ 1.0倍 ]()[ 1.5倍 ]()[ 2.0倍 ]() [ 超清 ]()[ 流畅 ]() 您的浏览器不支持 video 标签 __ 继续观看 李飞飞署名具身新论文:Sim2Real烧不起,Real2Sim量大管饱 观看更多 __ 转载 , 李飞飞署名具身新论文:Sim2Real烧不起,Real2Sim量大管饱 __ 量子位 已关注 分享点赞在看 ____已同步到看一看[写下你的评论]() __ [ 视频详情 ]() 而且可不光是3D场景重建这么简单。 SimFoundry还能在保持物体功能和Affordance不变的前提下,自动更换物体、调整场景布局,甚至生成新的操作任务。也就是说,一段真实视频,不再只能得到一个仿真场景,而是能够自动扩展出**几乎无限的数据生成空间** 。 由此,SimFoundry不仅可以在仿真里训练机器人,还能较为可靠地预测不同机器人策略在现实中的真实表现。 更进一步,在SimFoundry生成的数据上训练出的策略,还能够**零样本部署到真实机器人** ,在多步操作、双臂协作、带关节物体操作等多个任务上完成真实世界迁移。 这是怎么做到的? ## 一段视频,生成无限训练场景 SimFoundry 的核心贡献,在于打通了**场景生成、数据生成、策略评测和策略训练** 的整个Real-to-Sim闭环。 一直以来,机器人策略的训练一直高度依赖真实世界数据,而真实机器人采集数据不仅昂贵、耗时,还很难规模化。 即便模型训练完成,真机测试同样受到场景有限、测试成本高等因素的制约。 正因如此,研究人员开始将**仿真(Simulation)** 作为训练和评估机器人策略的一种可扩展替代方案。 借助自动化数据生成技术,可以以极低的人力成本合成大量多样、高质量的训练数据,不断提升机器人在真实世界中的泛化能力。 与此同时,越来越多研究也发现,只要仿真环境足够逼真,其评测结果与真实世界的机器人表现往往具有很强的一致性。 不过,新的问题又出现了。 虽然仿真能够提供近乎无限的数据,但搭建一个具备真实几何、物理属性和交互能力的仿真环境,本身仍然需要大量人工建模。 于是,近两年**Real-to-Sim** 逐渐成为具身智能领域的热门方向。 简单来说,Real-to-Sim希望利用3D重建和生成模型,将真实世界快速转换成支持物理交互的仿真就绪(Sim-ready)环境,从而大幅降低人工搭建仿真场景的成本。 但问题在于,已有的Real-to-Sim方案往往只能解决其中一个环节:有的擅长重建3D场景,却无法生成训练数据; 有的能够进行策略评测,却依赖大量人工配置,也难以扩展到丰富的场景和任务。 基于此,SimFoundry 的思路就是把场景构建、数据生成、策略评测和策略训练串成了一条完整流水线。 整个系统主要完成三件事: * 自动重建可交互、可仿真的数字孪生(Digital Twin); * 自动扩展物体、场景和任务三个层面的数字表亲(Digital Cousins),持续生成训练数据; * 利用这些仿真环境同时完成策略评测和策略训练,形成从真实世界到仿真、再回到真实世界的完整闭环。 _(注:数字孪生(Digital Twin)是对真实场景的精确复刻;数字表亲(Digital Cousins)则保持场景的功能和交互方式不变,但会对物体、布局或任务进行合理变化。)_ 为了实现这一目标,SimFoundry设计了一套三阶段Pipeline。 ## 三阶段pipeline 整个SimFoundry的流程并不复杂,可以概括成三个阶段: **Extraction(提取)→Generation(生成)→Augmentation(增强)** 。 一句话来说,就是**先理解真实世界,再搭建数字世界,最后批量创造新的数字世界** 。 **第一步:Extraction(提取)——理解真实场景。** 系统输入一段普通RGB视频后,首先利用深度估计恢复三维点云,再通过视觉语言模型(VLM)和SAM 3等分割模型,将场景中的物体逐个识别、分割出来。 每提取一个物体,就利用图像修复(Inpainting)将其从画面中移除,继续寻找下一个目标,直到完成整个场景解析。 **第二步:Generation(生成)——搭建数字孪生。** 对于提取出的每个物体,SimFoundry会利用2D-to-3D模型生成三维网格,并结合FoundationPose等模型恢复其真实位姿;对于抽屉、柜门等关节物体,还会自动推导关节结构。 同时,系统进一步补充质量、摩擦力等物理属性,生成碰撞模型并修复穿模问题,最终导出可直接运行于IsaacLab等物理引擎中的仿真场景,完成Digital Twin(数字孪生)的构建。 **第三步:Augmentation(增强)——创造数字表亲。** 这是SimFoundry最核心的创新。 在数字孪生基础上,系统进一步自动生成Digital Cousins(数字表亲)。它主要从三个维度进行扩展: 一是改变物体外观和几何形态,但保持功能不变(Object Cousins); 二是调整物体布局或加入新物体,生成新的场景(Scene Cousins); 三是根据场景中的物体及其Affordance,自动推导新的机器人操作任务(Task Cousins)。 换句话说,一段真实视频,不仅能够重建一个数字孪生,还能自动扩展出大量保持相同行为语义的新物体、新场景和新任务,为机器人提供几乎无限的训练数据。 ## 实验验证 为了验证SimFoundry是否真的能够替代真实世界进行机器人训练和评估,研究在两套机器人平台、7类典型操作任务上进行了实验,并分别验证了Real-to-Sim策略评估和Sim-to-Real策略训练两项核心能力。 首先是策略评估。 实验结果显示,SimFoundry中机器人的表现与真实世界高度一致,平均皮尔逊相关系数达到0.911,平均最大排名违例(MMRV)仅0.018,相比此前最先进的评测框架PolaRiS有明显提升。 这意味着,研究人员可以在仿真中较为准确地预测策略在真实机器人的表现,而无需反复进行昂贵的实机测试。 更大的亮点来自论文提出的Digital Cousins。 研究发现,相比仅使用数字孪生进行训练,引入Object、Scene和Task Cousins后,机器人在真实世界中的平均任务成功率分别提升17%、21%和40%。 同时,仅利用SimFoundry自动生成的数据训练出的策略,也能够零样本部署到真实机器人,在多个操作任务上取得接近满分的成功率。 ## 作者介绍 最后让我们来简单介绍一下这篇文章的作者们。 SimFoundry作者阵容相当豪华,几乎汇集了NVIDIA GEAR、佐治亚理工学院、斯坦福大学、UT Austin和多伦多大学等机构的核心研究者。 第一作者Nadun Ranawaka Arachchige来自佐治亚理工学院,目前在NVIDIA GEAR实习,师从徐丹飞; Josiah Wong、Jiangyun Fan等人来自李飞飞团队;Tianyuan Dai来自朱玉可课题组,此前同样曾在李飞飞团队学习; Masoud Moghani是NVIDIA GEAR与多伦多大学联合培养博士;Hang Yin曾参与BEHAVIOR项目,现已加入OpenAI。 此外,作者名单还包括Jim Fan、李飞飞、徐丹飞、朱玉可、Ajay Mandlekar、Ruohan Zhang、Wenbowen等机器人领域知名研究者。 _参考链接_ _ _ _[1]https://arxiv.org/pdf/2606.28276v1_ _ _ _[2]https://research.nvidia.com/labs/gear/simfoundry/_ **一键三连****「点赞」「转发」「小心心」** **欢迎在评论区留下你的想法!** — **完**  — **🌟 点亮星标 🌟** **科技前沿进展每日见**