---
title: "一句话生图要过时了？开源图像生成Agent进化出「工具编排」"
source_url: "https://mp.weixin.qq.com/s/qY75YeOY2Gnj-YfILEFuQg"
ingested: 2026-07-01
sha256: 5e8f14d4dd090f8097c748aeca69d00a485fe14edb8f7d5c78710e4d98cca7b7
---
---
source: wechat
source_url: https://mp.weixin.qq.com/s/qY75YeOY2Gnj-YfILEFuQg
ingested: 2026-07-01
feed_name: 机器之心
wechat_mp_fakeid: MP_WXS_3073282833
source_published: 2026-07-01
---

# 一句话生图要过时了？开源图像生成Agent进化出「工具编排」

图像生成正在从「  一句话生成一张图」，走向更接近真实创作流程的开放任务。

在实际使用中，用户常常不只是给出一个 prompt：他可能要求画面对齐某个地标、人物、商品或事件，也可能要求参考图身份一致、材质特殊、或者要求模糊的描述也能表达清楚。面对这些需求，单靠生成模型一次前向推理很难稳定完成。

近期，来自香港科技大学（广州）、美团、香港科技大学、新加坡国立大学等机构的研究团队提出  GenEvolve  ，一个面向开放图像生成的自我进化智能体框架。它将一次生成建模为一「  工具编排轨迹」：智能体先理解请求，再调用搜索、图像检索和生成知识工具，最后把外部证据、视觉参考和硬约束整理成 prompt-reference program，交给不同底层生成器渲染。

* 论文标题：  GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation

* 论文链接：https://arxiv.org/abs/2605.21605

* 项目页面：https://ephemeral182.github.io/GenEvolve/

* 代码链接：https://github.com/MeiGen-AI/GenEvolve

* 模型权重：https://huggingface.co/MeiGen-AI/GenEvolve

* 数据与评测：https://huggingface.co/datasets/MeiGen-AI/GenEvolve-Data-Bench

GenEvolve 使用同一套智能体策略，分别搭配开源 Qwen-Image-Edit 与强生成器 Nano Banana Pro。

从 prompt 到工具轨迹

GenEvolve 关注两类开放生成需求。第一类是  Knowledge-Anchored  ：生成结果依赖外部世界知识，例如真实建筑、公众人物、商品结构或事件线索。第二类是  Quality-Anchored  ：结果依赖可校验的视觉质量约束，例如文字、计数、布局、属性绑定、解剖、材质和美学。

为此，GenEvolve 给智能体配置三类工具：文本搜索 search (q) 用于补充事实证据；图像搜索 image_search (q) 用于获取视觉参考；生成知识查询 query_knowledge (skill) 用于激活内部对于文字渲染、空间布局、材质一致性等复杂需求所需要的技能。

因此，一次生成不再只是「  写一个更长的 prompt」，而是多轮决策：搜什么、看哪张参考图、调用哪类生成知识、最终程序里必须写入哪些约束。

数据与评测

为了训练这样的智能体，研究团队构建了 GenEvolve-Data 和 GenEvolve-Bench。作者团队没有直接收集普通 prompt-image 对，而是从约 2 万条结构化 recipe 出发，覆盖实体、地标、产品、事件、文字、布局、计数、属性、解剖、材质、美学和创意转化等场景。

每个请求都会先交给 Teacher Agent 走一遍完整工具流程：查事实、找参考、调用生成知识、写出最终 prompt-reference program。之后，数据还要经过程序检查、VLM 审计、GT 图像渲染和视觉过滤，最后切分成 SFT 轨迹、自我进化样本和 对应的 benchmark。

GenEvolve-Data 数据闭环：从结构化 recipe 到工具轨迹、VLM 审计、GT 图像过滤，再切分为训练和评测视图。

自我进化：先筛出更好的轨迹

训练过程分为两步。

首先，GenEvolve 使用高质量 Teacher 轨迹对 Qwen3-VL-8B-Instruct 做 SFT 冷启动，让模型学会基本工具调用和程序写法。

随后进入自我进化的 Rollout 阶段：对同一请求采样多条 rollout，渲染成图像后由视觉判分器和文本判分器共同打分，并使用 GRPO 优化轨迹级奖励。

视觉经验自蒸馏：把「  好在哪里」教给模型

仅有轨迹级奖励仍然不够。它能告诉模型「  哪条轨迹更好」，却很难说明「  好在哪里」。  因此，  GenEvolve 引入视觉经验自蒸馏：系统比较同一请求下的最优与最差轨迹，把差异总结成结构化 Decision Guide，例如该搜索什么、该选择哪类参考、该避免哪些失败写法。

接下来，这些经验只提供给训练阶段的 privileged teacher。Student 在同一批样本上仍然只看到普通输入，不直接读取经验库；teacher 则在 Decision Guide 的帮助下给出更好的 token 分布。我们再通过 token 级反向 KL，把 teacher 在关键决策 token 上的偏好蒸馏给 student。这样，模型学到的不是一条离线记忆，而是「  看到类似请求时应该如何搜索、选参考、组织约束」的决策习惯。

这也是 GenEvolve 和只做 RL 打分优化的主要区别。GRPO 提供的是「  哪条轨迹更值得强化」的方向，视觉经验自蒸馏提供的则是更细的 credit assignment：好轨迹到底好在工具计划、参考选择，还是最终 prompt-reference program 的某个约束写法。部署时，student 不需要再查 Decision Guide 或经验 buffer，经验已经被压进模型参数里。

GenEvolve 方法总览：智能体采样多条工具轨迹，比较最优与最差结果，将视觉经验蒸馏回部署模型。

实验结果

在自建的 GenEvolve-Bench 上，研究团队比较了主流直接生成模型和 agentic 工作流。当底层生成器固定为开源 Qwen-Image-Edit-2511 时，GenEvolve 的整体 KScore 达到  0.3663  ，超过 Gen-Searcher 的  0.3493  ；在更依赖事实和视觉细节的 Knowledge-Anchored 任务上，提升尤其明显。

当搭配更强的 Nano Banana Pro 渲染器时，GenEvolve 的 KScore 进一步提升到  0.5739  ，高于 Nano Banana Pro 裸生成的  0.5298  。这说明 GenEvolve 学到的不是某个生成器上的 prompt trick，而是一套可以迁移到不同渲染器上的工具编排策略。

GenEvolve-Bench 主结果。GenEvolve 在开源生成器设置和强生成器设置下均取得稳定提升。

消融实验显示，未调优的 Qwen3-VL 工作流已经能利用工具入口，但结果不够稳定；SFT 提升工具调用和最终程序质量；GRPO 提供轨迹级优化信号；加入视觉经验自蒸馏后，模型在 Visual correctness、Knowledge-Anchored 和 Quality-Anchored 等关键维度上继续提升。

研究团队还在公开的 WISE 知识密集型图像生成基准上进行了外推评估。在不做 in-domain 微调的情况下，GenEvolve 使用 8B 开源策略与开源 Qwen-Image-Edit 渲染器，整体 WiScore 达到  0.82  ，超过 GPT-4o 的  0.80  。

WISE 结果。GenEvolve 在开源生成器设置和强生成器设置下超过了之前的开源和闭源模型。

定性对比：橙色示例更依赖外部知识，蓝色示例更依赖内部生成技能。

小结

GenEvolve 的意义在于，它把开放图像生成从单次 prompt 优化，推进到可学习的工具编排过程。对于需要外部知识、参考图一致性和多重硬约束的任务，智能体不只是「  调用工具」，而是在训练中学会如何把工具结果转化为有效的生成程序。

目前，GenEvolve 已开源模型、代码、数据与评测集。对于图像生成智能体、工具使用、视觉反馈强化学习和开放生成评测等方向，这套框架提供了一个可复现的起点。

作者与单位

论文作者包括 Sixiang Chen、Zhaohu Xing、Tian Ye、Xinyu Geng、Yunlong Lin、Jianyu Lai、Xuanhua He、Fuxiang Zhai、Jialin Gao、Lei Zhu，来自港科广、美团、港科大和新加坡国立大学。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com