--- source_url: https://mp.weixin.qq.com/s/7lIMXc0JWWrFrARszSnU5A title: "GUI Agent「记与学」双修,长程任务有了专属记忆增强型自进化框架" source: "机器之心" ingested: 2026-06-01 sha256: 3f9ec2ddf5ff909c0f47b6d1cac57020372fe2db4fd982a210d703c3a3023147 --- # GUI Agent「记与学」双修,长程任务有了专属记忆增强型自进化框架 **来源:** 机器之心 **发布日期:** 2026年6月1日 **论文:** SE-GA: Memory-Augmented Self-Evolution for GUI Agents **团队:** 天津大学 × 上海交通大学 **发表:** ICML 2026 **论文:** https://arxiv.org/abs/2605.16883 **代码:** https://github.com/jinshilong-dev/SE-GA ## 摘要 GUI 智能体在多步骤长周期任务中面临两大核心矛盾:「记不住」(上下文窗口受限导致关键信息丢失,误差累积)和「学不会」(策略静态固化,无法从过往经验中学习迁移)。天津大学+上海交大 ICML 2026 提出 SE-GA 框架,通过 TTME 分层记忆结构和 MASE 自我进化机制,让 GUI 智能体从「静态执行器」进化为「动态学习者」。 ## 内容 ## GUI 智能体的两大致命短板 GUI 导航任务形式化为**部分可观察马尔可夫决策过程(POMDP)**——智能体无法完全观察环境状态,只能局部观察决策。 ### 1. 上下文窗口受限 → 关键信息「记不住」 任务执行过程中早期关键信息容易被上下文滑动「滑出」,导致智能体忘记早先操作和观察,做出错误决策。一个早期小错误引发连锁失败。 ### 2. 策略静态固化 → 过往经验「学不会」 现实中的 GUI 任务往往是先前任务的变体或组合,需要复用过往策略。但当前 GUI 智能体在固定数据集上训练,使用静态策略,无法从交互中提取和学习成功经验。 **核心矛盾:** 缺乏统一机制将显式历史经验编码为隐式策略参数,只能静态执行,无法持续自我进化。 ## TTME:给智能体装上「分层记忆」 **Test-Time Memory Extension (TTME)** — 借鉴人类认知架构,构建三种互补记忆类型: ### 情景记忆(Episodic Memory) 短期工作记忆,跟踪「刚才做了什么」。每个时间步记录前一步观察→动作→新观察。避免保留全部历史的计算开销,过滤过时信息。 ### 语义记忆(Semantic Memory) 通用规则库,存储「怎么做才对」。存储跨任务通用的交互规则(如"需要先登录才能访问受限页面"、"搜索功能通常在页面顶部")。 ### 经验记忆(Experiential Memory) 过往成功经历库,复用「成功的经验」。存储过往任务轨迹和智能体自生成的反思总结。 **混合检索机制:** 同时考虑语义一致性和视觉相似性(文本+图像混合检索),比纯文本检索更精准地找到相似历史经验。 ## MASE:两阶段训练,让智能体「学得会」进化 **Memory-Augmented Self-Evolution (MASE)** — 将 TTME 收集的经验数据转化为智能体的内在能力。 ### 第一阶段:基础能力训练(Grounding Training) 监督微调,专家轨迹行为克隆。目标:让智能体学会「看懂屏幕、找对位置、做对动作」。 ### 第二阶段:自我进化训练(Self-Evolution Training) 基于 **GRPO** 算法,从智能体与环境的交互数据中持续学习。 #### Hindsight Goal-Shifting:失败变废为宝 GUI 训练中失败轨迹不可避免,传统做法直接丢弃。SE-GA 的巧妙设计: 如果一条失败轨迹的前缀子序列已成功完成某个有效子目标(如成功打开应用但后续搜索失败),则将整条轨迹重新标注为对**该子目标**的成功实例。 **效果:** 失败样本转化为有价值的监督信号,大幅提升训练数据利用率。 ## 实验结果 以 Qwen2.5-VL-7B 为基座,4K 条交互轨迹训练: ### ScreenSpot:GUI 定位精度 - SE-GA:**89.0%**,超越 UI-TARS-72B(88.4%)和 Qwen2.5-VL-72B - 贡献:分层奖励设计(点定位奖励 + 包围框奖励)将视觉感知与精确空间反馈绑定 ### AndroidControl & GUIOdyssey:长周期规划 - 超越所有同参数量基线,与 UI-TARS-72B 整体相当 - GUIOdyssey 跨应用导航:**83.9%** 步骤成功率 + **96.5%** 动作类型准确率(超越 UI-TARS-72B) ### AndroidWorld:动态环境泛化 - SE-GA:**39.0%** 成功率,显著领先 - UI-TARS-7B:33.0% - GPT-4o:23.7% - 证明自我进化机制能帮助智能体持续探索和适应动态环境 ## 消融实验 TTME 和 MASE 各自贡献均不可替代。 ## 局限与未来方向 - 经验记忆库规模持续增长,混合检索操作可能带来显著计算开销 - 未来方向:扩大数据集覆盖更多任务类型、分层任务分解应对超长工作流、跨平台迁移学习 ## 核心结论 SE-GA 将「记忆」和「进化」紧密结合: - **TTME** → 「记不住」→ 维护和检索丰富交互历史 - **MASE** → 「学不会」→ 将非参数化经验编码为参数化策略 让 GUI 智能体从「静态命令执行器」转变为能通过交互持续学习和改进的「动态学习者」。 未来的 GUI 智能体不应只是更大的模型,而是能记住过去、学习经验、持续进化的智能系统。