--- title: "中科院开源 MobileGym:浏览器内高并发安卓仿真平台,Mobile Agent 训练与评测基础设施" source_url: https://mp.weixin.qq.com/s/oI0QSJ7F5oRMPvGyaNG-Yg ingested: 2026-06-02 sha256: 21618cee60b7cfb16e0aa9bc7657a0b74f83ea9d3fa176de3335c588411d9b64 author: "新智元" feed: "新智元" published: 2026-06-02 tags: [mobilegym, mobile-agent, agent-benchmark, sim2real, gui-agent, browser-simulation, cas-institute, rl-training, use-metric, agent-safety, agent-eval] --- # 中科院开源 MobileGym:浏览器内高并发安卓仿真平台,Mobile Agent 训练与评测基础设施 > 来源:新智元 / 2026-06-02 / 中科院自动化所模式识别实验室开源 > 项目主页:mobilegym.dev · GitHub:github.com/Purewhiter/mobilegym · arXiv:arxiv.org/abs/2605.26114 ## 1. 核心命题 > **Mobile GUI Agent 的真正瓶颈不在模型,而在「地」——既没有靠谱的考场,也没有便宜的训练场。** 让 AI 像人一样操作手机(填表单、回消息、订车票、刷小红书)——Mobile GUI Agent 的目标就是只看屏幕截图,像真人一样把手机玩明白。 **问题**:在日常手机环境里到底有多强、怎么练得更强——几乎没人能可靠地说清楚。 ## 2. 训练/评测手机 Agent 的两大困境 ### 困境 1:安卓模拟器 - 装得上微信/支付宝,**但 App 风控一眼认出模拟器**——闪退、不稳、封号 - 只能退守计算器、设置这类系统工具 + 开源 App,**高频国民级 App 反而碰不得** - **一个实例动辄 4.5GB+ 内存**——大规模并行训练就是赤裸裸烧钱 ### 困境 2:真机 - 够稳、够真,**但代价**:并行得买上百台手机、养一堆真实账号 - **一台手机一次只能跑一个任务**——吞吐低 - **致命缺陷:连"并行 rollout"都做不到**——GRPO 这类 RL 算法要求从同一初始状态并行拉出一整组轨迹对比 - 一个微信号克隆不出 N 份内容/好友/余额完全一样的副本 ### 共同的死结 > **只要登的是真实账号,操作就是玩真的**——真转账就是真扣钱,真购票就是真下单。 - 想复位——靠人工或 Agent 反向操作一步步抠回去(繁琐易错) - 转账、注销这种**彻底不可逆**操作,反向操作都救不回来 - **一个任务测一遍,环境就「脏」了**——可复现、可批量的训练评测从根上立不住 评测只能退而求其次——让另一个大模型看截图当裁判(VLM-as-Judge)。**主观、易误判、难以审计**(后面会看到,**误判率高达 10.2%**)。 > **这一切的根源只有一个:日常 App 的内部状态,天生就读不到、没法改、也复制不了。** ## 3. 破局思路:交互保真(Interaction Fidelity) ### 「四两拨千斤」的脑回路转换 中科院团队的破局思路:既然真实 App 的状态读不到、改不回、复制不了——**那干脆别在真机上死磕了,索性自己在浏览器里造一个仿真的安卓世界**。 唯一的疑问:这么"造"出来的东西,Agent 会不会一眼看穿"是假的"? ### 核心洞察 > **GUI Agent 的眼里只有截图,手里只有点击。** > > 那又何必去复刻像素级的安卓内核、复刻真实 App 背后的服务器后端? > > **只要点下去,界面给出对的反应、该变的状态真的变了,对 Agent 来说,这个世界就足够「真」了。** 这就是论文中强调的核心——**交互保真(interaction fidelity)**。 ## 4. MobileGym 架构 ### 浏览器内仿真实现 团队硬是在浏览器里实现了一整套安卓运行时机制: - 任务栈 - 键盘 - 通知 - 权限流 - intent 路由 - 返回键派发 ### 28 个 App 覆盖 **12 个日常 App** + **16 个系统 App**: > 微信、小红书、支付宝、B 站、谷歌地图、12306、腾讯会议、微信读书、Spotify、Reddit、X、eBay 全都在内 **连主题切换、动态桌面小组件都做了**。 ### 仿真能力展示 - 微信:聊天列表、对话、底部 Tab 一比一还原 - 小红书:双列瀑布流、点赞、底部导航 - 腾讯会议:加入/预定会议、会议列表 - 桌面小组件:实时动起来 ### "套娃"现场 这个仿真浏览器**"真"能联网**——B 站网友挂上云原神直接玩;更有人"在 MobileGym 里打开 mobilegym.dev"——**手机里开手机,俄罗斯套娃**。 ## 5. 一份 JSON 解决三大难题 ### MobileGym 的核心数据结构 > **MobileGym 把整个环境的状态——App 数据、系统设置、设备信息——全部用一份结构化 JSON 来表示。** 正因为状态天生就是结构化的,前面那三个老大难瞬间被破解: | 能力 | 含义 | 效果 | |------|------|------| | **可读** ✅ | 程序直接读状态做确定性校验 | 余额/订单/设置项一览无余,**彻底告别 VLM 看截图瞎猜** | | **可写** ✅ | 任意配置、一键重置到任何初始状态 | 状态完全可控 | | **可复制** ✅ | 毫秒级快照,从同一状态复制跑多条轨迹 | **真机克隆不出的"同状态分身"一份状态拷贝搞定**,GRPO 要多少给多少 | | **零后果** ✅ | 跑完直接拿初始快照整个覆盖 | **毫秒级满血复活,绝无真实代价** | > 一份 JSON,把"读不到、改不回、复制不了" + "真实代价" 一次解决。 ## 6. 一鱼两吃:考、练通吃 > **同一套可验证信号,既是评测的成绩单,又是训练的奖励——一套环境,考、练通吃。** - 对**评测**:任务到底完没完成,**程序说了算**,不用大模型猜 - 对**训练**:Agent 做对了多少,**直接拿来喂给强化学习** ### 与前人方案的对比 "可验证环境的考练一体"本身并不稀奇:**AndroidWorld、MobileWorld 这些前辈**,靠程序化验证同样能既评测又训练。 **真正的难关**在于:它们只够得着文件管理、设置这类**系统工具和简单开源 App**——一旦面对微信、支付宝,这套一体化能力就彻底卡死。 > **MobileGym 的突破**:用"仿真 + 结构化状态",**第一次把这套可验证的"考练一体",延伸到了真正高频的日常 App 上。** ## 7. 轻量到能单机大规模并行 ### 资源效率 - 一个实例**只占约 400MB 内存** - **3 秒冷启动** - 一台服务器就能同时开**几百个并行环境** ### 成本对比 | 方案 | 成本 | 说明 | |------|------|------| | 256 题 VLM 评测 | 约 **158 元**(GPT-5.4) | 单次评测 | | 96 万条轨迹 RL 训练 | 约 **60 万元**(VLM 裁判 API) | 仅裁判成本 | | MobileGym 程序化判定 | **0** | 状态读取,免费 | > **把"可验证的考练一体"搬上日常 App,再叠加轻到能单机大规模并行——这套组合,过去几年模拟器和真机两条路谁都没能凑齐。** ## 8. 考场:MobileGym-Bench ### 416 个参数化任务模板(256 测试 + 160 训练) - 横跨 28 个 App - **每道题都不是死的**——通过参数化实例化能衍生出 **超过 27,000 个不同实例**,从根上防止模型"背答案" - 4 个难度等级 **L1-L4**——不是拍脑袋定的,**而是用 8 个参考模型实测校准出来的** ### "答题卡"判定法 传统评测靠字符串模糊匹配,经常闹笑话——意思对了却判错,或者 Agent 在思考里碰巧带出正确答案就被误判成功。 **MobileGym 的解法**:让 Agent 在界面上填一张结构化的"**答题卡**",系统按字段类型(精确文本、数值、格式、选项)**逐项核对**——堵死这种漏洞。 **意外收获**:这招还顺手治了 GUI 专用模型的老毛病(它们生来就是被训练去"点界面"的,你非让它按固定文本格式把答案规规矩矩吐出来,它常常不买账、格式乱套)。**答题卡把"答题"变成了"填表单"——这恰恰是它的看家本行**。 ### 9 个顶尖 Agent 同台竞技 **L4 最难任务上,9 个模型集体扑街,只有 Gemini 勉强保住 21.9%**。 **意义**: - 这套考题**区分度极强** - 既没被刷爆、也没难到全军覆没 - 是一把能真正照出手机 Agent 成色的好尺子 ### 评测效率 > 256 个并行实例,跑完整套 256 任务的评测,**实测只要 6 分钟**。 ## 9. 训练场:真机迁移 95.1% 增益 ### 资源对比 | 方案 | 资源 | |------|------| | 此前某方案 512 个安卓模拟器实例 | 10 台裸金属服务器、960 vCPU、3840GB 内存 | | **MobileGym GRPO 微调 Qwen3-VL-4B** | **一台服务器开 96 个环境实例** | | 并行跑 256 个环境实例 | **仅 100G 内存** | > 别人一个机房,这里一台机器。 ### 训练效果 | 指标 | 数据 | |------|------| | 测试集成功率 | **9.4% → 22.2%(+12.8pp)** | | 真机信号任务成功率 | **32.2% → 72.9%(+40.7pp)** | | **模拟训练增益 → 真机迁移率** | **95.1%** | > **在模拟世界里练的功夫,真机真能用。** ### 10.2% 误判率的人工复核 **10.2% 误判率从真机轨迹里一条条人工复核抠出来**: - 118 条轨迹,让 Qwen3.6-Plus 当裁判 - 判错了 12 条 **更强的模型行不行?** 团队把 GPT-5.4 请来重判一遍——**误判率还是 10.2%**,只不过判错的是另一批。 > **说白了,问题不在哪个模型不够强,而在"让大模型看截图当裁判"这条路本身就靠不住;MobileGym 用程序化状态校验,从源头就杜绝了这种误判。** ## 10. USE 指标:第一次抓出 Agent「顺手作恶」 > **USE = 意外副作用**(Unintended Side Effects)——MobileGym 独有的"独家武器"。 **设想**:你让 Agent 帮你发条消息,它确实发了,任务"成功"了。但它有没有在你不知道的情况下,**顺手错点了关注、错改了设置、甚至错发了另一条消息**? **只靠大模型看截图,很难发现**。 **MobileGym 的解法**:把任务前后的全环境状态做精确对比——**任何任务之外的改动都无所遁形**。 ### 实测发现 - 即便是成功率相近的开源模型,**"作恶"概率也能相差近 2 倍** - 论文测试了转账、注销、大批删除等高风险操作 - 前沿模型(**Gemini 3.1 Pro**)一旦被指令驱动,几乎**「无脑」高成功率执行,毫无安全刹车** ### 价值远超评测本身 > **这套"零后果 + 一键重置"的沙箱,天然成了 AI 安全对齐研究的理想试验田——让 Agent 在绝对安全的环境里,把危险动作先"演"一遍。** ## 11. 不是又一个 Benchmark,而是一整套基础设施 回过头看,MobileGym 真正的野心从来就不是"再做一个更大的手机榜单"。 > **它把日常 App 的训练与评测——这件过去昂贵又难复现的事——收进了同一个可验证、可大规模并行的仿真世界:** > - 同一套状态,**既是评测的成绩单,也是强化学习的奖励** > - 同一台机器,**既是几百场考试的考场,也是海量 rollout 的训练场** **当整个行业还在为"怎么可靠地训练和评测手机 Agent"头疼时,这支国产团队,已经悄悄把那块最难啃的地基,稳稳地铺好了。** ## 12. 关键数据汇总 | 维度 | 数据 | |------|------| | App 覆盖 | **28**(12 日常 + 16 系统) | | 任务模板 | **416**(256 测试 + 160 训练) | | 实例化参数 | **27,000+** | | 实例内存 | **400MB** | | 冷启动 | **3 秒** | | 256 任务评测时间 | **6 分钟** | | 96 环境 + Qwen3-VL-4B | **单台服务器** | | 256 并行实例内存 | **100GB** | | 测试集成功率提升 | **9.4% → 22.2%**(+12.8pp) | | 真机迁移率 | **95.1%** | | VLM-as-Judge 误判率 | **10.2%**(GPT-5.4 同等) | | 256 题 VLM 评测成本 | **158 元** | | 96 万条 RL 训练 VLM 裁判成本 | **60 万元** | | MobileGym 程序化判定成本 | **0** | | 9 个顶尖 Agent L4 最高分 | **Gemini 21.9%** | --- - 原文:新智元 / 2026-06-02 - 原始研究:中科院自动化所模式识别实验室 - 项目主页:mobilegym.dev - GitHub:github.com/Purewhiter/mobilegym - arXiv:arxiv.org/abs/2605.26114