---
source_url: https://mp.weixin.qq.com/s/7lIMXc0JWWrFrARszSnU5A
title: "GUI Agent「记与学」双修，长程任务有了专属记忆增强型自进化框架"
source: "机器之心"
ingested: 2026-06-01
sha256: 3f9ec2ddf5ff909c0f47b6d1cac57020372fe2db4fd982a210d703c3a3023147
---

# GUI Agent「记与学」双修，长程任务有了专属记忆增强型自进化框架

**来源：** 机器之心
**发布日期：** 2026年6月1日

**论文：** SE-GA: Memory-Augmented Self-Evolution for GUI Agents
**团队：** 天津大学 × 上海交通大学
**发表：** ICML 2026
**论文：** https://arxiv.org/abs/2605.16883
**代码：** https://github.com/jinshilong-dev/SE-GA

## 摘要

GUI 智能体在多步骤长周期任务中面临两大核心矛盾：「记不住」（上下文窗口受限导致关键信息丢失，误差累积）和「学不会」（策略静态固化，无法从过往经验中学习迁移）。天津大学+上海交大 ICML 2026 提出 SE-GA 框架，通过 TTME 分层记忆结构和 MASE 自我进化机制，让 GUI 智能体从「静态执行器」进化为「动态学习者」。

## 内容

## GUI 智能体的两大致命短板

GUI 导航任务形式化为**部分可观察马尔可夫决策过程（POMDP）**——智能体无法完全观察环境状态，只能局部观察决策。

### 1. 上下文窗口受限 → 关键信息「记不住」

任务执行过程中早期关键信息容易被上下文滑动「滑出」，导致智能体忘记早先操作和观察，做出错误决策。一个早期小错误引发连锁失败。

### 2. 策略静态固化 → 过往经验「学不会」

现实中的 GUI 任务往往是先前任务的变体或组合，需要复用过往策略。但当前 GUI 智能体在固定数据集上训练，使用静态策略，无法从交互中提取和学习成功经验。

**核心矛盾：** 缺乏统一机制将显式历史经验编码为隐式策略参数，只能静态执行，无法持续自我进化。

## TTME：给智能体装上「分层记忆」

**Test-Time Memory Extension (TTME)** — 借鉴人类认知架构，构建三种互补记忆类型：

### 情景记忆（Episodic Memory）

短期工作记忆，跟踪「刚才做了什么」。每个时间步记录前一步观察→动作→新观察。避免保留全部历史的计算开销，过滤过时信息。

### 语义记忆（Semantic Memory）

通用规则库，存储「怎么做才对」。存储跨任务通用的交互规则（如"需要先登录才能访问受限页面"、"搜索功能通常在页面顶部"）。

### 经验记忆（Experiential Memory）

过往成功经历库，复用「成功的经验」。存储过往任务轨迹和智能体自生成的反思总结。

**混合检索机制：** 同时考虑语义一致性和视觉相似性（文本+图像混合检索），比纯文本检索更精准地找到相似历史经验。

## MASE：两阶段训练，让智能体「学得会」进化

**Memory-Augmented Self-Evolution (MASE)** — 将 TTME 收集的经验数据转化为智能体的内在能力。

### 第一阶段：基础能力训练（Grounding Training）

监督微调，专家轨迹行为克隆。目标：让智能体学会「看懂屏幕、找对位置、做对动作」。

### 第二阶段：自我进化训练（Self-Evolution Training）

基于 **GRPO** 算法，从智能体与环境的交互数据中持续学习。

#### Hindsight Goal-Shifting：失败变废为宝

GUI 训练中失败轨迹不可避免，传统做法直接丢弃。SE-GA 的巧妙设计：

如果一条失败轨迹的前缀子序列已成功完成某个有效子目标（如成功打开应用但后续搜索失败），则将整条轨迹重新标注为对**该子目标**的成功实例。

**效果：** 失败样本转化为有价值的监督信号，大幅提升训练数据利用率。

## 实验结果

以 Qwen2.5-VL-7B 为基座，4K 条交互轨迹训练：

### ScreenSpot：GUI 定位精度

- SE-GA：**89.0%**，超越 UI-TARS-72B（88.4%）和 Qwen2.5-VL-72B
- 贡献：分层奖励设计（点定位奖励 + 包围框奖励）将视觉感知与精确空间反馈绑定

### AndroidControl & GUIOdyssey：长周期规划

- 超越所有同参数量基线，与 UI-TARS-72B 整体相当
- GUIOdyssey 跨应用导航：**83.9%** 步骤成功率 + **96.5%** 动作类型准确率（超越 UI-TARS-72B）

### AndroidWorld：动态环境泛化

- SE-GA：**39.0%** 成功率，显著领先
  - UI-TARS-7B：33.0%
  - GPT-4o：23.7%
- 证明自我进化机制能帮助智能体持续探索和适应动态环境

## 消融实验

TTME 和 MASE 各自贡献均不可替代。

## 局限与未来方向

- 经验记忆库规模持续增长，混合检索操作可能带来显著计算开销
- 未来方向：扩大数据集覆盖更多任务类型、分层任务分解应对超长工作流、跨平台迁移学习

## 核心结论

SE-GA 将「记忆」和「进化」紧密结合：

- **TTME** → 「记不住」→ 维护和检索丰富交互历史
- **MASE** → 「学不会」→ 将非参数化经验编码为参数化策略

让 GUI 智能体从「静态命令执行器」转变为能通过交互持续学习和改进的「动态学习者」。

未来的 GUI 智能体不应只是更大的模型，而是能记住过去、学习经验、持续进化的智能系统。