---
title: "Om AI三连发收官！VLX-Go压轴：0.6B跑通导航，VLM从「看懂」走向「行动」"
source: wechat
url: http://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247721360&idx=1&sn=8c3a73e2dc290220748b87412e82d77d&chksm=96e5be10a1923706a9ddbea05a42ff764e772739f1b280c4797572bae6363675a5cfc98d35b1#rd
ingest_date: 2026-07-03
vxc: 56
stars: 4
sha256: 5e2db6deb1e8cfc8906a9dfed6da72a188022718904103a8c7a46083e9469d23
---

# Om AI三连发收官！VLX-Go压轴：0.6B跑通导航，VLM从「看懂」走向「行动」

#  Om AI三连发收官！VLX-Go压轴：0.6B跑通导航，VLM从「看懂」走向「行动」

原创  让你更懂AI的  让你更懂AI的  [ PaperWeekly ](<javascript:void\(0\);>)

__ _ _ _ _

在小说阅读器读本章

去阅读

在小说阅读器中沉浸阅读

##

从目标定位到下一步行动，VLX-Go 补上 VLX 系列的行动决策层。

让机器人跟上前面的人，并绕开突然出现的障碍物。

这个任务听起来简单，但对 VLM 来说，文字回答远远不够。真实设备要的是下一小段可以执行的运动目标：往哪里走，什么时候修正方向，怎样在新画面里避开障碍物。

这正是 VLX-Go 要处理的问题。

Om AI 的  VLX 端侧流式多模态模型系列  ，围绕的是端侧设备在物理世界里的连续能力：  [ VLX-Flow ](<https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247721233&idx=1&sn=0bddf9c0fd5f48e792045479c9ff9e38&scene=21#wechat_redirect>) 让模型持续感知，  [ VLX-Seek ](<https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247721282&idx=1&sn=743a9f0e74e36d8dc33f091018efe187&scene=21#wechat_redirect>) 让模型精准定位，  VLX-Go  则进一步把视觉语言状态转成可执行的局部路径。

在这个系列里，它是压轴登场的  行动决策层  。

VLX-Go 会把单目视频、历史视觉上下文和自然语言指令，转成  ** 短时航点  ** ，让视觉语言理解进入具身导航场景。

在 EVT-Bench STT 任务中，VLX-Go 使用  ** 0.6B 级规划器  ** ，拿到  ** 85.42% 的成功率  ** 和  ** 94.08% 的跟踪率  ** 。

VLX-Go 更聚焦  ** 目标跟随  ** 、  ** 局部导航  ** 和  ** 动态避障  ** 这类闭环任务。它不接管整套机器人控制栈，而是负责把视觉语言状态转换为面向控制链路的航点输出。

对端侧具身设备来说，导航决策会随着画面变化不断刷新。模型越轻，推理成本和部署压力越低，也越接近真实运行约束。

先看一段 VLX-Go 的实机 demo。机器人基于 RGB 视觉流、当前画面和语言指令，在跟随目标的同时完成绕障、刹停与恢复跟随。

**
**

从理解到行动

真正的分界，在输出形式。普通 VLM 擅长图像和语言理解，但输出通常仍停留在文本层面。

传统局部规划器稳定、可控、工程成熟，却往往缺少对视觉目标和自然语言任务的理解。纯监督轨迹模型可以学习示范轨迹，但离线数据很难覆盖所有障碍物布局、遮挡情况和动态干扰。

VLX-Go 更接近  ** 感知和控制之间的局部策略层  ** 。它把视觉、语言和历史帧接入行动预测，输出局部运动目标。

VLX-Go  ** 不替代底层控制器  ** 。它作为视觉驱动的局部策略模型，负责给出符合语义目标和视觉上下文的短时航点；速度命令、平台动力学和安全约束，仍交给下游控制器与安全层。

〓  跟随目标，并根据障碍物变化调整路线

短时航点预测

移动机器人面对的是持续变化的环境。目标会改变方向，障碍物可能突然进入视野，机器人执行后的实际轨迹也可能偏离预测路线。几秒前看起来安全的路线，很快就可能失效。

VLX-Go 把重点放在  ** 短时航点预测  ** ，而非一次性规划完整长路径。

模型  ** 每次只预测未来一小段轨迹  ** ，执行后再根据新画面更新下一段。整个过程更接近真实设备：视觉输入更新，模型预测航点，执行动作，环境反馈再进入下一轮预测。

新观测来了，局部路径可以马上修正；前一步预测出现偏差，也不会沿着一条长路线不断累积。输出保持在短时航点层面，后续执行和安全检查也更容易落地。

放到真实设备上，VLX-Go 每次要回答的是：  ** 基于当前画面、视觉历史和语言指令，下一小段应该往哪里走。  **

0.6B 规划器如何工作？

VLX-Go 不是只看当前单帧。近期视频帧提供运动趋势和目标变化，当前帧提供即时视觉状态，自然语言指令定义任务目标。任务可以是跟随某个人、穿过走廊、接近目标，也可以是避开障碍。

VLX-Go 输出的，是一段面向短时间窗的  ** 航点序列  ** ，而不是“向左前方移动”这样的文字指令。

这里的短时航点可以表示位置、朝向，也可以是控制接口能够接收的其他运动表示。具体形式随数据集和控制接口而定，核心是每次只预测一小段，再随新观测更新。

训练数据围绕视频观测、语言指令和机器人运动轨迹组织。历史帧用于提供时序上下文，当前帧用于即时判断，指令给出任务目标，轨迹用于监督航点序列的预测。部分数据还包含速度或控制相关信号，用来衔接预测结果和实际执行。

这些信号帮助模型对齐执行环节，但主要输出依然是航点序  列。

〓  VLX-Go 接收语言指令、当前画面与视觉历史，预测未来短时航点

训练阶段，VLX-Go 先基于  ** 离线轨迹数据学习  ** 。系统可以预先缓存视频帧的视觉特征，减少训练过程中反复编码历史图像带来的开销。规划器读取视觉 token、历史帧信息和语言指令，学习预测未来一小段轨迹。

这一阶段主要让模型掌握视觉跟随、局部运动预测和指令条件下的轨迹生成。

监督目标包括航点回归、轨迹方向损失、可选速度或动作辅助损失，以及减少抖动和不稳定运动的平滑正则。这些训练目标都在压低轨迹抖动，让航点更稳定、更容易执行。

** 0.6B 的价值，要放到真实部署里看。  **

**
**

在具身系统里，航点预测会随着新画面不断刷新。模型越大，部署成本、调用开销和端到端延迟越难控制。0.6B 级规划器的意义，正是让 VLX-Go 更接近端侧设备的实际运行条件。

在闭环中学习避障

只靠离线轨迹学习还不够。离线数据可以提供示范，但很难覆盖所有失败模式。障碍物布局会变，目标可能被遮挡，执行几步之后的误差也会影响下一帧输入。真实运行时，模型面对的是连续交互，而不是一次离线预测。

在离线轨迹学习之外，VLX-Go 还加入  ** 在线强化学习优化  ** 。

在仿真器或闭环环境中，模型预测航点，控制器执行，环境再返回新的视觉观测和反馈信号。反馈可以来自碰撞、障碍物距离、目标保持、进度奖励、与目标指令的一致性、轨迹平滑和任务完成情况。

这些信号让模型在模仿离线轨迹的基础上，学到  ** 更安全、更平滑、更适合执行的局部策略  ** 。对动态避障和目标跟随来说，这类闭环反馈尤其重要。

在 VLX-Go 里，仿真器贯穿  ** 数据生成、在线优化和闭环评测  ** 三件事。

首先是数据。真实机器人采集跟随、绕障和遮挡数据成本较高，仿真器可以更快构建可控场景。

其次是在线优化。模型可以在仿真中尝试不同运动策略，并利用这些反馈持续修正策略。

最后是评测。离线评测更多衡量预测轨迹与标注轨迹的误差，但真实运行中，每一步动作都会改变下一帧输入。仿真器可以把模型放进连续交互里，观察成功率、跟踪率、碰撞率和轨迹稳定性。

〓  VLX-Go：从仿真数据、策略学习到在线优化与真实机器人部署

系统图把 VLX-Go 拆成四步链路。模型先通过仿真数据和专家轨迹建立基础策略，再在仿真闭环中优化避障能力、目标指令一致性和安全性，最后接入真实机器人部署。

这条链路强调职责拆分：模型负责视觉语言规划，控制器负责执行，安全层提供约束，仿真器提供反馈。这样一来，调试和评测都能落到具体模块上。

三项指标看表现

评测选择 EVT-Bench 的 STT 任务。STT 任务主要看三件事：能不能完成任务、能不能稳定跟住目标，以及过程中是否发生碰撞。

〓  EVT-Bench STT：VLX-Go 0.6B 在成功率和跟踪率上表现突出

从图中结果看，VLX-Go 0.6B 的优势集中在前两项：  ** SR 达到 85.42%，TR 达到 94.08%  ** ，在目标跟随任务中已经具备竞争力。CR 为 6.55%，后续仍可结合仿真环境、奖励设计和安全约束继续优化。

更重要的是，VLX-Go 把 VLM 的输出形式从文本答案推进到  ** 短时行动轨迹  ** 。对端侧具身智能来说，这一步正是区别于单纯参数竞争的地方。

对真实设备来说，理解画面只是起点。VLX-Go 把这一步落到行动接口上：视觉语言状态进入模型，输出变成机器人可以执行的局部航点。

到这里，VLX 三层能力形成了一条更完整的端侧物理智能链路：  ** 持续看，精准锁，下一步就动。
**

**
**

** 现在，VLX 系列相关能力也可以直接体验了。  Om AI 体验平台今日正式开放，入口如下：  **

➤  体验平台

https://om-agent.cn/

➤  GitHub 地址

https://github.com/om-ai-lab/VLX-Go

➤  HuggingFace 地址

https://huggingface.co/blog/omlab/vlx-go

➤  Om AI X 主页

https://x.com/OmAI_lab

**
**

**
**

** 关于 Om AI  **

杭州联汇科技股份有限公司（联汇科技 / Om AI）专注于终端智能和端侧多模态模型，依托自研 VLX 端侧多模态模型基座，为 AI PC、具身装备、可穿戴设备、机器人、无人机和 AIoT 等场景提供感知、决策、执行一体化能力。

Om AI 团队由 CEO 兼首席科学家赵天成博士带领，技术团队成员来自 CMU、清华、浙大、微软、阿里云等机构。公司已获得工信部首张多模态模型认证（OmModel 001 号），开源国内首个多模态智能体框架，并推出基于强化学习训练的多模态模型。

本次 VLX 系列发布，是 Om AI 面向物理世界端侧智能的一次系统化展示：VLX-Flow 对应持续感知，VLX-Seek 对应精准定位，VLX-Go 对应行动决策。三层能力连在一起，指向的是让 AI 从回答问题走向真实设备中的持续感知、目标定位和行动执行。

🔍

现在，在  ** 「知乎」  ** 也能找到我们了

进入知乎首页搜索  ** 「PaperWeekly」  **

点击  ** 「关注」  ** 订阅我们的专栏吧

·

预览时标签不可点

微信扫一扫
关注该公众号

[ 知道了 ](<javascript:;>)

微信扫一扫
使用小程序

****

[ 取消 ](<javascript:void\(0\);>) [ 允许 ](<javascript:void\(0\);>)

****

[ 取消 ](<javascript:void\(0\);>) [ 允许 ](<javascript:void\(0\);>)

****

[ 取消 ](<javascript:void\(0\);>) [ 允许 ](<javascript:void\(0\);>)

×  分析

__

微信扫一扫可打开此内容，
使用完整服务

：  ，  ，  ，  ，  ，  ，  ，  ，  ，  ，  ，  ，  。  视频  小程序  赞  ，轻点两下取消赞  在看  ，轻点两下取消在看  分享  留言  收藏  听过