---
title: "5亿视频炼出全球最大GUI开源数据集、推理Token省71%小模型反超大模型——小米AI团队多篇论文入选ICML 2026"
author: 小米技术
date: 2026-05-14
source: https://mp.weixin.qq.com/s/arVgzp3hGKgZaE3RCTXGGg
sha256: da769794d77c
review_value: 8
review_confidence: 9
review_score: 72
review_recommendation: 入库
tags:
  - icml-2026
  - xiaomi
  - gui-agent
  - video2gui
  - wildgui
  - guievalkit
  - come
  - led
  - veritime
  - visual-para-thinker
  - video-opd
  - mec
  - gad
  - r3
  - spark
  - mixture-of-experts
  - latent-exploration-decoding
  - neural-architecture-search
  - multimodal
  - audio-understanding
---
# 5亿视频炼出全球最大GUI开源数据集、推理Token省71%小模型反超大模型——小米AI团队多篇论文入选ICML 2026
> 小米技术 · 2026-05-14 · ICML 2026
## 概述
小米及合作单位共11篇论文入选 ICML 2026，构成完整 AI 能力进化拼图：
- **底座层**：MoE 训练稳定性（R3）、神经架构自动搜索（SPARK）
- **能力层**：推理增强（LED、VeriTime）、多模态理解（Visual Para-Thinker、Video-OPD、MECAT）
- **应用层**：GUI Agent 全栈（Video2GUI → GUIEvalKit → CoME → GAD）
---
## 01 GUI Agent
### Video2GUI：5亿视频→全球最大开源 GUI 数据集
**论文**：Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining
**合作单位**：北京大学
**核心pipeline**：
1. "元信息粗筛+视频内容细筛"两阶段流水线
2. 从5亿条视频 → 420万条高质量教程
3. Gemini-3-Pro 转为带任务指令、动作时间戳、屏幕坐标的结构化轨迹
**产出**：WildGUI — 全球最大开源 GUI 预训练数据集
- 1270万条轨迹
- 1.245亿张截图
- 覆盖1500+应用与网站、五大平台
**效果**：MiMo-VL-7B 预训练后，OSWorld-G 达67.6分（超越 Qwen3-VL-32B 与 Seed1.5-VL）；ScreenSpot-Pro 准确率从41.2→56.9（提升38%）。Scaling Experiments：扩展至200B Token 时仍未出现饱和。
### GUIEvalKit：GUI Agent 统一评测框架
**论文**：Scaling, Benchmarking, and Reasoning of Vision-Language Agents for Mobile GUI Navigation
**代码**：https://github.com/xiaomi-research/guievalkit
**三大贡献**：
1. **Scaling**：HyperTrack — 规模最大中文移动 GUI 导航数据集（16000+真实任务轨迹，674款中文Android应用，17个类别）
2. **Benchmarking**：GUIEvalKit — 集成五大主流基准，支持30+模型统一离线/半在线评测
3. **Reasoning**：决策级评估框架，从"执行正确率"→"行为分布模式"
**核心发现**：GRPO强化学习微调始终优于监督微调；推理模式扩展可行决策空间但降低稳定性。
### CoME：Channel-of-Mobile-Experts
**论文**：https://arxiv.org/abs/2602.24142
**合作单位**：中国人民大学、武汉大学、南洋理工大学、香港中文大学
**问题**：传统 MoE 用面向输入的专家激活，与 GUI Agent 推理四阶段（屏幕总结→子任务规划→动作决策→函数调用）所需能力错配。
**解法**：面向输出的专家激活，为每个阶段配置专门专家；引入信息增益自动筛选有效推理轨迹。
**效果**：更少激活参数和训练数据，优于 Dense GUI Agents 与 Sparse MoE Models。
---
## 02 推理增强
### LED：恢复 RL 训练后推理模型的探索多样性
**论文**：https://arxiv.org/abs/2602.01698
**代码**：https://github.com/AlbertTan404/LED
**合作单位**：中国人民大学、Unimore
**问题**：RL 训练后推理模型出现 **entropy collapse**——提高温度只制造噪声，无法产生多样路径。
**解法**：LED（Latent-Exploration-Decoding）不改模型、不加参数、不需训练，仅利用模型内部多层隐状态的聚合概率分布进行采样。
**通俗理解**：RL训练后的推理模型像一个"只会用标准解法的学生"，LED让它重新学会"试试别的思路"。
### VeriTime：时序推理 Token 省71%
**论文**：https://arxiv.org/pdf/2602.07830
**代码**：https://anonymous.4open.science/r/VeriTime-E017
**合作单位**：中山大学、新加坡国立大学
**问题**：缺乏时序 CoT 训练数据；没有专门针对时序数据的强化学习算法。
**解法**：TSRgen 自动合成流水线 + TSRBench（首个过程可验证标注的时序-文本多模态推理数据集）+ 两阶段强化微调（细粒度过程级奖励）
**效果**：推理 Token 消耗平均**降低71%**，3B-4B 模型达到/超越更大规模专有 LLM。
---
## 03 多模态理解
### Visual Para-Thinker：并行推理框架
**论文**：https://arxiv.org/pdf/2602.13310v1
**合作单位**：浙江大学、湖南大学
**问题**：垂直扩展（思维链/强化学习）在视觉领域容易陷入固定思维模式。
**解法**：首个 LMM 并行推理框架，路径感知注意力机制 + 可学习并行旋转位置编码。
**通俗理解**：以前 AI 看图是"盯着一个点使劲想"，Visual Para-Thinker 让它学会"分区并行看、最后汇总"。
### Video-OPD：时序视频定位 GRPO 改进
**论文**：https://arxiv.org/pdf/2602.02994
**合作单位**：浙江大学、中国人民大学
**问题**：GRPO 方法面临稀疏序列级奖励（信用分配困难）+ 多轮策略采样（计算开销巨大）。
**解法**：细粒度逐词元监督信号 + 教师验证差异聚焦训练课程策略。
**效果**：超越现有 GRPO 方法平均17%+，计算开销大幅降低。
### GAD：蒸馏后恢复噪声敏感性
**论文**：无公开链接（合作单位：武汉大学、巴黎综合理工学院）
**问题**：蒸馏后模型对初始噪声失去敏感性，不同随机种子生成结果趋同。
**解法**：GAD（Geometry-Aware Distillation）通过 Jacobian 响应对齐恢复局部敏感性，作为正则项无缝集成于多种蒸馏范式。
**效果**：布局/低级控制任务中显著恢复教师性能；缓解多样性与保真度权衡。
### MECAT：细粒度音频理解基准
**论文**：https://arxiv.org/abs/2507.23511
**代码**：https://github.com/xiaomi-research/mecat
**合作单位**：香港中文大学
**问题**：当前最强模型（Gemini系列）在细粒度音频描述任务上仅53.1%。
**解法**：多领域专家模型+LLM Chain-of-Thought推理+多级质量控制的自动化标注流水线（20000条，8个音频域）；DATE 指标（Discriminative-Enhanced Audio Text Evaluation）。
---
## 04 训练底座
### R3：MoE RL 训练稳定性
**论文**：https://arxiv.org/abs/2510.11370
**合作单位**：北京大学
**问题**：MoE 模型 RL 训练时极其不稳定，路由器在训练和推理阶段可能做出不同专家选择。
**解法**：R3（Rollout Routing Replay）在推理阶段记录路由分布，训练阶段重放——"谁干活，谁收反馈"。
**效果**：多个 MoE 模型族显著提高训练稳定性，避免崩溃；仅3.45%训练速度下降。
### SPARK：LLM 驱动的神经架构搜索
**论文**：https://arxiv.org/abs/2605.04057
**代码**：https://github.com/AIM-ResearchLab/SPARK
**合作单位**：西安交通大学、北方工业大学、中关村学院
**问题**：LLM 作为 NAS 搜索引擎时，候选架构频繁报错（"功能纠缠"：算子和调用方式被同时改动）。
**解法**：SPARK 提出"先定位、再修改"的结构化编辑范式——代码切成 Operator 和 Action 两块互斥区域，每轮只动其中一块。
**通俗理解**：从"想到哪改到哪"→"先想清楚改哪块，再只动那一块"。