---
title: "中科院开源 MobileGym：浏览器内高并发安卓仿真平台，Mobile Agent 训练与评测基础设施"
source_url: https://mp.weixin.qq.com/s/oI0QSJ7F5oRMPvGyaNG-Yg
ingested: 2026-06-02
sha256: 21618cee60b7cfb16e0aa9bc7657a0b74f83ea9d3fa176de3335c588411d9b64
author: "新智元"
feed: "新智元"
published: 2026-06-02
tags: [mobilegym, mobile-agent, agent-benchmark, sim2real, gui-agent, browser-simulation, cas-institute, rl-training, use-metric, agent-safety, agent-eval]
---

# 中科院开源 MobileGym：浏览器内高并发安卓仿真平台，Mobile Agent 训练与评测基础设施

> 来源：新智元 / 2026-06-02 / 中科院自动化所模式识别实验室开源
> 项目主页：mobilegym.dev · GitHub：github.com/Purewhiter/mobilegym · arXiv：arxiv.org/abs/2605.26114

## 1. 核心命题

> **Mobile GUI Agent 的真正瓶颈不在模型，而在「地」——既没有靠谱的考场，也没有便宜的训练场。**

让 AI 像人一样操作手机（填表单、回消息、订车票、刷小红书）——Mobile GUI Agent 的目标就是只看屏幕截图，像真人一样把手机玩明白。

**问题**：在日常手机环境里到底有多强、怎么练得更强——几乎没人能可靠地说清楚。

## 2. 训练/评测手机 Agent 的两大困境

### 困境 1：安卓模拟器

- 装得上微信/支付宝，**但 App 风控一眼认出模拟器**——闪退、不稳、封号
- 只能退守计算器、设置这类系统工具 + 开源 App，**高频国民级 App 反而碰不得**
- **一个实例动辄 4.5GB+ 内存**——大规模并行训练就是赤裸裸烧钱

### 困境 2：真机

- 够稳、够真，**但代价**：并行得买上百台手机、养一堆真实账号
- **一台手机一次只能跑一个任务**——吞吐低
- **致命缺陷：连"并行 rollout"都做不到**——GRPO 这类 RL 算法要求从同一初始状态并行拉出一整组轨迹对比
- 一个微信号克隆不出 N 份内容/好友/余额完全一样的副本

### 共同的死结

> **只要登的是真实账号，操作就是玩真的**——真转账就是真扣钱，真购票就是真下单。

- 想复位——靠人工或 Agent 反向操作一步步抠回去（繁琐易错）
- 转账、注销这种**彻底不可逆**操作，反向操作都救不回来
- **一个任务测一遍，环境就「脏」了**——可复现、可批量的训练评测从根上立不住

评测只能退而求其次——让另一个大模型看截图当裁判（VLM-as-Judge）。**主观、易误判、难以审计**（后面会看到，**误判率高达 10.2%**）。

> **这一切的根源只有一个：日常 App 的内部状态，天生就读不到、没法改、也复制不了。**

## 3. 破局思路：交互保真（Interaction Fidelity）

### 「四两拨千斤」的脑回路转换

中科院团队的破局思路：既然真实 App 的状态读不到、改不回、复制不了——**那干脆别在真机上死磕了，索性自己在浏览器里造一个仿真的安卓世界**。

唯一的疑问：这么"造"出来的东西，Agent 会不会一眼看穿"是假的"？

### 核心洞察

> **GUI Agent 的眼里只有截图，手里只有点击。**
>
> 那又何必去复刻像素级的安卓内核、复刻真实 App 背后的服务器后端？
>
> **只要点下去，界面给出对的反应、该变的状态真的变了，对 Agent 来说，这个世界就足够「真」了。**

这就是论文中强调的核心——**交互保真（interaction fidelity）**。

## 4. MobileGym 架构

### 浏览器内仿真实现

团队硬是在浏览器里实现了一整套安卓运行时机制：
- 任务栈
- 键盘
- 通知
- 权限流
- intent 路由
- 返回键派发

### 28 个 App 覆盖

**12 个日常 App** + **16 个系统 App**：

> 微信、小红书、支付宝、B 站、谷歌地图、12306、腾讯会议、微信读书、Spotify、Reddit、X、eBay 全都在内

**连主题切换、动态桌面小组件都做了**。

### 仿真能力展示

- 微信：聊天列表、对话、底部 Tab 一比一还原
- 小红书：双列瀑布流、点赞、底部导航
- 腾讯会议：加入/预定会议、会议列表
- 桌面小组件：实时动起来

### "套娃"现场

这个仿真浏览器**"真"能联网**——B 站网友挂上云原神直接玩；更有人"在 MobileGym 里打开 mobilegym.dev"——**手机里开手机，俄罗斯套娃**。

## 5. 一份 JSON 解决三大难题

### MobileGym 的核心数据结构

> **MobileGym 把整个环境的状态——App 数据、系统设置、设备信息——全部用一份结构化 JSON 来表示。**

正因为状态天生就是结构化的，前面那三个老大难瞬间被破解：

| 能力 | 含义 | 效果 |
|------|------|------|
| **可读** ✅ | 程序直接读状态做确定性校验 | 余额/订单/设置项一览无余，**彻底告别 VLM 看截图瞎猜** |
| **可写** ✅ | 任意配置、一键重置到任何初始状态 | 状态完全可控 |
| **可复制** ✅ | 毫秒级快照，从同一状态复制跑多条轨迹 | **真机克隆不出的"同状态分身"一份状态拷贝搞定**，GRPO 要多少给多少 |
| **零后果** ✅ | 跑完直接拿初始快照整个覆盖 | **毫秒级满血复活，绝无真实代价** |

> 一份 JSON，把"读不到、改不回、复制不了" + "真实代价" 一次解决。

## 6. 一鱼两吃：考、练通吃

> **同一套可验证信号，既是评测的成绩单，又是训练的奖励——一套环境，考、练通吃。**

- 对**评测**：任务到底完没完成，**程序说了算**，不用大模型猜
- 对**训练**：Agent 做对了多少，**直接拿来喂给强化学习**

### 与前人方案的对比

"可验证环境的考练一体"本身并不稀奇：**AndroidWorld、MobileWorld 这些前辈**，靠程序化验证同样能既评测又训练。

**真正的难关**在于：它们只够得着文件管理、设置这类**系统工具和简单开源 App**——一旦面对微信、支付宝，这套一体化能力就彻底卡死。

> **MobileGym 的突破**：用"仿真 + 结构化状态"，**第一次把这套可验证的"考练一体"，延伸到了真正高频的日常 App 上。**

## 7. 轻量到能单机大规模并行

### 资源效率

- 一个实例**只占约 400MB 内存**
- **3 秒冷启动**
- 一台服务器就能同时开**几百个并行环境**

### 成本对比

| 方案 | 成本 | 说明 |
|------|------|------|
| 256 题 VLM 评测 | 约 **158 元**（GPT-5.4） | 单次评测 |
| 96 万条轨迹 RL 训练 | 约 **60 万元**（VLM 裁判 API） | 仅裁判成本 |
| MobileGym 程序化判定 | **0** | 状态读取，免费 |

> **把"可验证的考练一体"搬上日常 App，再叠加轻到能单机大规模并行——这套组合，过去几年模拟器和真机两条路谁都没能凑齐。**

## 8. 考场：MobileGym-Bench

### 416 个参数化任务模板（256 测试 + 160 训练）

- 横跨 28 个 App
- **每道题都不是死的**——通过参数化实例化能衍生出 **超过 27,000 个不同实例**，从根上防止模型"背答案"
- 4 个难度等级 **L1-L4**——不是拍脑袋定的，**而是用 8 个参考模型实测校准出来的**

### "答题卡"判定法

传统评测靠字符串模糊匹配，经常闹笑话——意思对了却判错，或者 Agent 在思考里碰巧带出正确答案就被误判成功。

**MobileGym 的解法**：让 Agent 在界面上填一张结构化的"**答题卡**"，系统按字段类型（精确文本、数值、格式、选项）**逐项核对**——堵死这种漏洞。

**意外收获**：这招还顺手治了 GUI 专用模型的老毛病（它们生来就是被训练去"点界面"的，你非让它按固定文本格式把答案规规矩矩吐出来，它常常不买账、格式乱套）。**答题卡把"答题"变成了"填表单"——这恰恰是它的看家本行**。

### 9 个顶尖 Agent 同台竞技

**L4 最难任务上，9 个模型集体扑街，只有 Gemini 勉强保住 21.9%**。

**意义**：
- 这套考题**区分度极强**
- 既没被刷爆、也没难到全军覆没
- 是一把能真正照出手机 Agent 成色的好尺子

### 评测效率

> 256 个并行实例，跑完整套 256 任务的评测，**实测只要 6 分钟**。

## 9. 训练场：真机迁移 95.1% 增益

### 资源对比

| 方案 | 资源 |
|------|------|
| 此前某方案 512 个安卓模拟器实例 | 10 台裸金属服务器、960 vCPU、3840GB 内存 |
| **MobileGym GRPO 微调 Qwen3-VL-4B** | **一台服务器开 96 个环境实例** |
| 并行跑 256 个环境实例 | **仅 100G 内存** |

> 别人一个机房，这里一台机器。

### 训练效果

| 指标 | 数据 |
|------|------|
| 测试集成功率 | **9.4% → 22.2%（+12.8pp）** |
| 真机信号任务成功率 | **32.2% → 72.9%（+40.7pp）** |
| **模拟训练增益 → 真机迁移率** | **95.1%** |

> **在模拟世界里练的功夫，真机真能用。**

### 10.2% 误判率的人工复核

**10.2% 误判率从真机轨迹里一条条人工复核抠出来**：
- 118 条轨迹，让 Qwen3.6-Plus 当裁判
- 判错了 12 条

**更强的模型行不行？** 团队把 GPT-5.4 请来重判一遍——**误判率还是 10.2%**，只不过判错的是另一批。

> **说白了，问题不在哪个模型不够强，而在"让大模型看截图当裁判"这条路本身就靠不住；MobileGym 用程序化状态校验，从源头就杜绝了这种误判。**

## 10. USE 指标：第一次抓出 Agent「顺手作恶」

> **USE = 意外副作用**（Unintended Side Effects）——MobileGym 独有的"独家武器"。

**设想**：你让 Agent 帮你发条消息，它确实发了，任务"成功"了。但它有没有在你不知道的情况下，**顺手错点了关注、错改了设置、甚至错发了另一条消息**？

**只靠大模型看截图，很难发现**。

**MobileGym 的解法**：把任务前后的全环境状态做精确对比——**任何任务之外的改动都无所遁形**。

### 实测发现

- 即便是成功率相近的开源模型，**"作恶"概率也能相差近 2 倍**
- 论文测试了转账、注销、大批删除等高风险操作
- 前沿模型（**Gemini 3.1 Pro**）一旦被指令驱动，几乎**「无脑」高成功率执行，毫无安全刹车**

### 价值远超评测本身

> **这套"零后果 + 一键重置"的沙箱，天然成了 AI 安全对齐研究的理想试验田——让 Agent 在绝对安全的环境里，把危险动作先"演"一遍。**

## 11. 不是又一个 Benchmark，而是一整套基础设施

回过头看，MobileGym 真正的野心从来就不是"再做一个更大的手机榜单"。

> **它把日常 App 的训练与评测——这件过去昂贵又难复现的事——收进了同一个可验证、可大规模并行的仿真世界：**
> - 同一套状态，**既是评测的成绩单，也是强化学习的奖励**
> - 同一台机器，**既是几百场考试的考场，也是海量 rollout 的训练场**

**当整个行业还在为"怎么可靠地训练和评测手机 Agent"头疼时，这支国产团队，已经悄悄把那块最难啃的地基，稳稳地铺好了。**

## 12. 关键数据汇总

| 维度 | 数据 |
|------|------|
| App 覆盖 | **28**（12 日常 + 16 系统） |
| 任务模板 | **416**（256 测试 + 160 训练） |
| 实例化参数 | **27,000+** |
| 实例内存 | **400MB** |
| 冷启动 | **3 秒** |
| 256 任务评测时间 | **6 分钟** |
| 96 环境 + Qwen3-VL-4B | **单台服务器** |
| 256 并行实例内存 | **100GB** |
| 测试集成功率提升 | **9.4% → 22.2%**（+12.8pp） |
| 真机迁移率 | **95.1%** |
| VLM-as-Judge 误判率 | **10.2%**（GPT-5.4 同等） |
| 256 题 VLM 评测成本 | **158 元** |
| 96 万条 RL 训练 VLM 裁判成本 | **60 万元** |
| MobileGym 程序化判定成本 | **0** |
| 9 个顶尖 Agent L4 最高分 | **Gemini 21.9%** |

---

- 原文：新智元 / 2026-06-02
- 原始研究：中科院自动化所模式识别实验室
- 项目主页：mobilegym.dev
- GitHub：github.com/Purewhiter/mobilegym
- arXiv：arxiv.org/abs/2605.26114