--- title: "Om AI三连发收官!VLX-Go压轴:0.6B跑通导航,VLM从「看懂」走向「行动」" source: wechat url: http://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247721360&idx=1&sn=8c3a73e2dc290220748b87412e82d77d&chksm=96e5be10a1923706a9ddbea05a42ff764e772739f1b280c4797572bae6363675a5cfc98d35b1#rd ingest_date: 2026-07-03 vxc: 56 stars: 4 sha256: 5e2db6deb1e8cfc8906a9dfed6da72a188022718904103a8c7a46083e9469d23 --- # Om AI三连发收官!VLX-Go压轴:0.6B跑通导航,VLM从「看懂」走向「行动」 # Om AI三连发收官!VLX-Go压轴:0.6B跑通导航,VLM从「看懂」走向「行动」 原创 让你更懂AI的 让你更懂AI的 [ PaperWeekly ]() __ _ _ _ _ 在小说阅读器读本章 去阅读 在小说阅读器中沉浸阅读 ## 从目标定位到下一步行动,VLX-Go 补上 VLX 系列的行动决策层。 让机器人跟上前面的人,并绕开突然出现的障碍物。 这个任务听起来简单,但对 VLM 来说,文字回答远远不够。真实设备要的是下一小段可以执行的运动目标:往哪里走,什么时候修正方向,怎样在新画面里避开障碍物。 这正是 VLX-Go 要处理的问题。 Om AI 的 VLX 端侧流式多模态模型系列 ,围绕的是端侧设备在物理世界里的连续能力: [ VLX-Flow ]() 让模型持续感知, [ VLX-Seek ]() 让模型精准定位, VLX-Go 则进一步把视觉语言状态转成可执行的局部路径。 在这个系列里,它是压轴登场的 行动决策层 。 VLX-Go 会把单目视频、历史视觉上下文和自然语言指令,转成 ** 短时航点 ** ,让视觉语言理解进入具身导航场景。 在 EVT-Bench STT 任务中,VLX-Go 使用 ** 0.6B 级规划器 ** ,拿到 ** 85.42% 的成功率 ** 和 ** 94.08% 的跟踪率 ** 。 VLX-Go 更聚焦 ** 目标跟随 ** 、 ** 局部导航 ** 和 ** 动态避障 ** 这类闭环任务。它不接管整套机器人控制栈,而是负责把视觉语言状态转换为面向控制链路的航点输出。 对端侧具身设备来说,导航决策会随着画面变化不断刷新。模型越轻,推理成本和部署压力越低,也越接近真实运行约束。 先看一段 VLX-Go 的实机 demo。机器人基于 RGB 视觉流、当前画面和语言指令,在跟随目标的同时完成绕障、刹停与恢复跟随。 ** ** 从理解到行动 真正的分界,在输出形式。普通 VLM 擅长图像和语言理解,但输出通常仍停留在文本层面。 传统局部规划器稳定、可控、工程成熟,却往往缺少对视觉目标和自然语言任务的理解。纯监督轨迹模型可以学习示范轨迹,但离线数据很难覆盖所有障碍物布局、遮挡情况和动态干扰。 VLX-Go 更接近 ** 感知和控制之间的局部策略层 ** 。它把视觉、语言和历史帧接入行动预测,输出局部运动目标。 VLX-Go ** 不替代底层控制器 ** 。它作为视觉驱动的局部策略模型,负责给出符合语义目标和视觉上下文的短时航点;速度命令、平台动力学和安全约束,仍交给下游控制器与安全层。 〓 跟随目标,并根据障碍物变化调整路线 短时航点预测 移动机器人面对的是持续变化的环境。目标会改变方向,障碍物可能突然进入视野,机器人执行后的实际轨迹也可能偏离预测路线。几秒前看起来安全的路线,很快就可能失效。 VLX-Go 把重点放在 ** 短时航点预测 ** ,而非一次性规划完整长路径。 模型 ** 每次只预测未来一小段轨迹 ** ,执行后再根据新画面更新下一段。整个过程更接近真实设备:视觉输入更新,模型预测航点,执行动作,环境反馈再进入下一轮预测。 新观测来了,局部路径可以马上修正;前一步预测出现偏差,也不会沿着一条长路线不断累积。输出保持在短时航点层面,后续执行和安全检查也更容易落地。 放到真实设备上,VLX-Go 每次要回答的是: ** 基于当前画面、视觉历史和语言指令,下一小段应该往哪里走。 ** 0.6B 规划器如何工作? VLX-Go 不是只看当前单帧。近期视频帧提供运动趋势和目标变化,当前帧提供即时视觉状态,自然语言指令定义任务目标。任务可以是跟随某个人、穿过走廊、接近目标,也可以是避开障碍。 VLX-Go 输出的,是一段面向短时间窗的 ** 航点序列 ** ,而不是“向左前方移动”这样的文字指令。 这里的短时航点可以表示位置、朝向,也可以是控制接口能够接收的其他运动表示。具体形式随数据集和控制接口而定,核心是每次只预测一小段,再随新观测更新。 训练数据围绕视频观测、语言指令和机器人运动轨迹组织。历史帧用于提供时序上下文,当前帧用于即时判断,指令给出任务目标,轨迹用于监督航点序列的预测。部分数据还包含速度或控制相关信号,用来衔接预测结果和实际执行。 这些信号帮助模型对齐执行环节,但主要输出依然是航点序 列。 〓 VLX-Go 接收语言指令、当前画面与视觉历史,预测未来短时航点 训练阶段,VLX-Go 先基于 ** 离线轨迹数据学习 ** 。系统可以预先缓存视频帧的视觉特征,减少训练过程中反复编码历史图像带来的开销。规划器读取视觉 token、历史帧信息和语言指令,学习预测未来一小段轨迹。 这一阶段主要让模型掌握视觉跟随、局部运动预测和指令条件下的轨迹生成。 监督目标包括航点回归、轨迹方向损失、可选速度或动作辅助损失,以及减少抖动和不稳定运动的平滑正则。这些训练目标都在压低轨迹抖动,让航点更稳定、更容易执行。 ** 0.6B 的价值,要放到真实部署里看。 ** ** ** 在具身系统里,航点预测会随着新画面不断刷新。模型越大,部署成本、调用开销和端到端延迟越难控制。0.6B 级规划器的意义,正是让 VLX-Go 更接近端侧设备的实际运行条件。 在闭环中学习避障 只靠离线轨迹学习还不够。离线数据可以提供示范,但很难覆盖所有失败模式。障碍物布局会变,目标可能被遮挡,执行几步之后的误差也会影响下一帧输入。真实运行时,模型面对的是连续交互,而不是一次离线预测。 在离线轨迹学习之外,VLX-Go 还加入 ** 在线强化学习优化 ** 。 在仿真器或闭环环境中,模型预测航点,控制器执行,环境再返回新的视觉观测和反馈信号。反馈可以来自碰撞、障碍物距离、目标保持、进度奖励、与目标指令的一致性、轨迹平滑和任务完成情况。 这些信号让模型在模仿离线轨迹的基础上,学到 ** 更安全、更平滑、更适合执行的局部策略 ** 。对动态避障和目标跟随来说,这类闭环反馈尤其重要。 在 VLX-Go 里,仿真器贯穿 ** 数据生成、在线优化和闭环评测 ** 三件事。 首先是数据。真实机器人采集跟随、绕障和遮挡数据成本较高,仿真器可以更快构建可控场景。 其次是在线优化。模型可以在仿真中尝试不同运动策略,并利用这些反馈持续修正策略。 最后是评测。离线评测更多衡量预测轨迹与标注轨迹的误差,但真实运行中,每一步动作都会改变下一帧输入。仿真器可以把模型放进连续交互里,观察成功率、跟踪率、碰撞率和轨迹稳定性。 〓 VLX-Go:从仿真数据、策略学习到在线优化与真实机器人部署 系统图把 VLX-Go 拆成四步链路。模型先通过仿真数据和专家轨迹建立基础策略,再在仿真闭环中优化避障能力、目标指令一致性和安全性,最后接入真实机器人部署。 这条链路强调职责拆分:模型负责视觉语言规划,控制器负责执行,安全层提供约束,仿真器提供反馈。这样一来,调试和评测都能落到具体模块上。 三项指标看表现 评测选择 EVT-Bench 的 STT 任务。STT 任务主要看三件事:能不能完成任务、能不能稳定跟住目标,以及过程中是否发生碰撞。 〓 EVT-Bench STT:VLX-Go 0.6B 在成功率和跟踪率上表现突出 从图中结果看,VLX-Go 0.6B 的优势集中在前两项: ** SR 达到 85.42%,TR 达到 94.08% ** ,在目标跟随任务中已经具备竞争力。CR 为 6.55%,后续仍可结合仿真环境、奖励设计和安全约束继续优化。 更重要的是,VLX-Go 把 VLM 的输出形式从文本答案推进到 ** 短时行动轨迹 ** 。对端侧具身智能来说,这一步正是区别于单纯参数竞争的地方。 对真实设备来说,理解画面只是起点。VLX-Go 把这一步落到行动接口上:视觉语言状态进入模型,输出变成机器人可以执行的局部航点。 到这里,VLX 三层能力形成了一条更完整的端侧物理智能链路: ** 持续看,精准锁,下一步就动。 ** ** ** ** 现在,VLX 系列相关能力也可以直接体验了。 Om AI 体验平台今日正式开放,入口如下: ** ➤ 体验平台 https://om-agent.cn/ ➤ GitHub 地址 https://github.com/om-ai-lab/VLX-Go ➤ HuggingFace 地址 https://huggingface.co/blog/omlab/vlx-go ➤ Om AI X 主页 https://x.com/OmAI_lab ** ** ** ** ** 关于 Om AI ** 杭州联汇科技股份有限公司(联汇科技 / Om AI)专注于终端智能和端侧多模态模型,依托自研 VLX 端侧多模态模型基座,为 AI PC、具身装备、可穿戴设备、机器人、无人机和 AIoT 等场景提供感知、决策、执行一体化能力。 Om AI 团队由 CEO 兼首席科学家赵天成博士带领,技术团队成员来自 CMU、清华、浙大、微软、阿里云等机构。公司已获得工信部首张多模态模型认证(OmModel 001 号),开源国内首个多模态智能体框架,并推出基于强化学习训练的多模态模型。 本次 VLX 系列发布,是 Om AI 面向物理世界端侧智能的一次系统化展示:VLX-Flow 对应持续感知,VLX-Seek 对应精准定位,VLX-Go 对应行动决策。三层能力连在一起,指向的是让 AI 从回答问题走向真实设备中的持续感知、目标定位和行动执行。 🔍 现在,在 ** 「知乎」 ** 也能找到我们了 进入知乎首页搜索 ** 「PaperWeekly」 ** 点击 ** 「关注」 ** 订阅我们的专栏吧 · 预览时标签不可点 微信扫一扫 关注该公众号 [ 知道了 ]() 微信扫一扫 使用小程序 **** [ 取消 ]() [ 允许 ]() **** [ 取消 ]() [ 允许 ]() **** [ 取消 ]() [ 允许 ]() × 分析 __ 微信扫一扫可打开此内容, 使用完整服务 : , , , , , , , , , , , , 。 视频 小程序 赞 ,轻点两下取消赞 在看 ,轻点两下取消在看 分享 留言 收藏 听过