---
sha256: 490931ba388172bed8e02b69f6cef060172c4af0a3628ef3617df9c5891a5aa0
source: "https://mp.weixin.qq.com/s/4ytSFiJa2q8inb5U-Au9Nw"
title: "美团海报生成 AIGC 技术创新与实践"
author: 视觉智能（美团技术团队）
publisher: 美团技术团队
date: 2026-06-18
type: article
ingested: 2026-06-18
review_value: 10
review_confidence: 10
review_recommendation: ultra-strong
review_stars: 5
---

# 美团海报生成 AIGC 技术创新与实践

> 作者：美团技术团队 · 视觉智能 · 发布：2026-06-18 10:24

## 全文速读

**美团智能创作团队 2 年构建的"生成-编辑-评判"完整技术体系**：

- **PosterCraft**（**ICLR 2026**）：摒弃模块化流水线，端到端统一优化文字、视觉与版式，文字渲染准确率接近 SOTA 闭源商业系统
- **PosterOmni**（**CVPR 2026**）：单一模型覆盖 6 类设计任务（扩图/补全/比例调整/风格迁移/版式重组/ID-driven），更接近"基于参考稿工作的智能设计助手"
- **PosterReward**（**CVPR 2026**）：首个专门面向海报质量评估的奖励模型，**PosterRewardBench-Advanced 86.0% 准确率**，远超现有基线（40%-53%）

三者形成"生成-编辑-评判"技术闭环，相互支撑、持续自我进化。**全部开源于 MeiGen-AI 仓库**。

## 一、背景与挑战

### 1.1 业务背景：百万商家的"创意平权"难题

百万商家 4 重困境：
- **设计资源匮乏**：外包动辄数百至数千元
- **时效性苛刻**：临时促销要求**分钟级**交付（vs 传统 1-3 天）
- **内容同质化**：固定模板千篇一律
- **批量质量失控**：规模化后质量参差不齐

### 1.2 五大技术挑战

| 挑战 | 核心难点 |
|---|---|
| **1. 精准文字渲染** | 零容错；中文/多行/小字号短板 |
| **2. 和谐版式布局** | 对比/重复/对齐/亲密性等设计原则难规则化 |
| **3. 统一美学风格** | 餐饮"食欲感"/美妆"精致感"/科技"未来感"；多行业迥异 |
| **4. 多任务场景统一** | 局部编辑 + 全局创作两类范畴如何在单一模型同时支持 |
| **5. 质量评估可量化** | FID/IS 无法捕捉海报特有维度；人工评估不可规模化 |

## 二、技术体系全景

**演进路径**：基础模型能力提升 → 多任务统一模型融合 → 质量评估模型

| 层级 | 工作 | 职责 |
|---|---|---|
| **基础生成** | PosterCraft（ICLR 2026） | 端到端高美感海报生成 |
| **多任务编辑** | PosterOmni（CVPR 2026） | 6 类 image-to-poster 任务 |
| **质量评估（双线）** | 营销海报结构化 | 面向线上存量海报：构图/配色/氛围感结构化解析 + 美学评分 |
| | PosterReward（CVPR 2026） | 面向 AI 生成内容：偏好评估 + RL 奖励 + 线上质检 |

## 三、PosterCraft（ICLR 2026）：端到端高美感海报生成

### 3.1 核心思想

> 摒弃模块化流水线，让模型端到端地自由探索视觉连贯的设计组合。

**对比传统模块化方案**：VLM 规划布局 + 单独背景生成 + 文字叠加——**美学一致性差，受各模块短板拼接限制**。

### 3.2 四阶段级联优化工作流

| 阶段 | 数据集 | 核心方法 |
|---|---|---|
| **阶段一：大规模文字渲染优化** | **Text-Render-2M**（200 万样本） | Flow Matching 微调，显著提升文字渲染准确率（解决基础模型常见的文字缺失/重复/错误） |
| **阶段二：高质量海报微调 + 区域感知校准** | **HQ-Poster-100K**（10 万高质量） | **区域感知校准（Region-Aware Calibration）**：非文字区域 1.0 / 主要文字 0.6 / 次要文字 0.2 — 保持文字准确同时注重整体艺术性 |
| **阶段三：美学-文本强化学习** | **Poster-Preference-100K**（6000 偏好对） | 每 prompt 生成 5 张 + HPSv2 打分 + Gemini 验证文字准确性 + Best-of-N DPO |
| **阶段四：视觉-语言反馈精炼** | **Poster-Reflect-120K** | 每 prompt 生成 6 张 + Gemini 选优 + 结构化反馈 + InternVL-3-8B 微调为 VLM 评论家（推理时迭代优化） |

### 3.3 核心成果

PosterCraft 在**文字召回率、F-score、准确率**上显著超越所有开源基线，**接近 SOTA 闭源商业系统**（如 Gemini 2.0-Flash-Gen）的水平。

## 四、PosterOmni（CVPR 2026）：多任务统一图像到海报

### 4.1 核心思想：从 Text-to-Poster 到 Image-to-Poster

> 真实设计场景中，更常见的起点是**参考图/旧版海报/产品主视觉**——设计目标不是完全重做，而是在保留核心主体基础上完成扩图/补全/比例调整/风格迁移/版式重组。

### 4.2 6 类典型设计任务

| 任务 | 描述 |
|---|---|
| **Extending / Filling** | 扩图、补全（SAM2 构造局部 mask） |
| **Rescaling** | 比例变化 → 内容重排（借鉴 BrushNet） |
| **ID-driven** | 主体保持（PaddleDet 提取主体 + 增强编辑器） |
| **Layout-driven** | 版式驱动（继承布局但不直接复制） |
| **Style-driven** | 风格驱动（继承风格但不直接复制） |
| **其他 1 类** | （原文未明示） |

### 4.3 核心难点：多任务冲突的缓解

**任务间相互干扰**：局部编辑强调像素级一致 + 自然过渡；全局创作关注风格抽象 + 大幅度重构。直接混合训练 → "什么都会一点但都不稳"。

**PosterOmni 解法**："数据—蒸馏—奖励"闭环：
1. 分别训练局部编辑专家 + 全局创作专家
2. 通过任务蒸馏整合为统一学生模型（PosterOmni-SFT）
3. 加入统一奖励 + 强化学习（DiffusionNFT）

### 4.4 四阶段训练流水线

| 阶段 | 内容 |
|---|---|
| **阶段 1：自动化数据构建** | **PosterOmni-200K**（20 万高质量配对）：提示词+基础图生成（PaddleOCR/jina-clip-v2/SAM 2 过滤）→ 6 类任务配对（商品/美食/活动/自然/教育/娱乐六大主题） |
| **阶段 2：任务蒸馏** | 专家训练（局部编辑 / 全局创作 / 辅助文本渲染）→ 学生网络逼近专家的速度场/预测行为：`L_total = L_text_render + λ·L_distill` |
| **阶段 3：统一奖励模型训练** | **PosterOmni-SFT 生成多个候选 → Gemini-2.5-Pro 初筛 → 标注者选优**；关键创新：**negative-pair 策略**（输入参考图 = rejected / 编辑后输出 = chosen）显式强化"有效修改本身有价值"的认知；模型结构 = Qwen3-VL encoder + 轻量 MLP head + Bradley-Terry 损失 |
| **阶段 4：Omni-Edit 强化学习** | 沿用 **DiffusionNFT** 思路，正向扩散过程直接优化；task-aware 分数（"更像完成了这个任务"而非"仅更好看"） |

### 4.5 PosterOmni-Bench：统一评测基准

- **规模**：中英文共 **1020 条测试指令**（540 中文 + 480 英文）
- **覆盖**：6 类核心任务 × 6 大海报主题 × 单/多参考图输入
- **评测**：Gemini-2.5-Pro 打分（1-5 分）综合评价审美质量与任务完成度

### 4.6 实验结果

- **全部 6 类任务开源模型最佳**，整体评分**超过部分闭源模型**
- 提升来自"局部精修 + 全局创作"两类能力的同时增强
- 相较 Qwen-Image-Edit：**Layout-driven / Style-driven 增幅最大**（真正学到了布局/风格的生成规则）
- 相较 Seedream-4.0：整体平均**已实现反超**

## 五、PosterReward（CVPR 2026）：海报质量评估

### 5.1 双线并行体系

| 路线 | 对象 | 锚定 | 角色 |
|---|---|---|---|
| **真实海报结构化评估（营销海报图像结构化）** | 线上存量海报 | 专业设计规范显式标准 | 智能质检 + 规范管理 |
| **生成海报奖励模型** | AI 生成内容 | 用户主观偏好对齐 | 驱动生成持续进化（RL 奖励）+ 线上质检 |

### 5.2 营销海报图像结构化（三大维度）

| 维度 | 算法 | 关键数据 |
|---|---|---|
| **排版构图** | 12 种元素定位（文案/价格/修饰/卡通动漫/美团 Logo/其他 Logo/人像/美团 IP/红包/菜品/商品） + CNN 回归 | 准确率 **90%+**；5 分制误差仅 **0.3794**（归一化 0.0759）；近 **90%** 图片误差 ≤ 1 分 |
| **色系搭配** | 11 种色系识别（粉/绿/黑/白/橙黄/蓝/银灰/红/紫/棕/多色）+ 12 种基础色占比 + HSV 冷暖 | 准确率 **96.2%** |
| **氛围风格** | 12 种风格识别（节日/卡通/简洁/多彩/科技/柔美/素雅/促销/撞色/实拍/标准/其他） | 准确率 **91.50%** |

**整体美学综合评价**：在构图/色彩/氛围感 + 清晰度/分辨率基础上综合输出 → **基本拟合设计师主观评价**。

### 5.3 PosterReward：生成海报奖励模型

**核心思想**：首个专门面向海报质量评估的奖励模型，**集成结构布局 + 文字渲染准确性 + 美学表达**三个维度统一评分能力。**现有通用奖励模型主要关注全局图像美学，忽略了海报特有的排版质量和文字渲染维度，加之领域偏好数据极度稀缺**。

#### 5.3.1 AI 偏好数据集自动构建（Poster-Preference-70K）

**数据来源**：Seedream 3.0/4.0 + Qwen-Image-Lightning 生成的海报池（影视类/非影视类）

**级联式过滤**：
- 影视海报：HPSv3 初筛 → Kendall's W 一致性筛选 → 轻量闭源模型多轮排序 → 最终多模型验证
- 非影视海报：同尺寸过滤 → CLIP + DINOv3 差异性筛选 → 多模型最终验证

**最终多模型验证**：4 开源（CLIP/DINOv3/HPSv3/GLM-4.5V） + 3 闭源（Gemini-2.5-Flash-Lite/Gemini-2.5-Pro/GPT-5）多维度共识判定。

**最终产出**：**7 万高质量海报偏好对**，覆盖文字渲染/布局设计/美学价值/指令一致性等多个维度。

#### 5.3.2 四阶段级联训练策略

| 阶段 | 名称 | 核心 |
|---|---|---|
| 1 | **联合监督微调（Joint SFT）** | 双任务并行（单图分析 + 配对比较），24.6 万单图 + 16 万配对偏好，微调 Qwen3-VL-8B |
| 2 | **联合拒绝采样微调（Joint RSFT）** | 每 prompt 采样 3 个回答 → Gemini-2.5-Flash-Lite 选最高质量响应精炼 |
| 3 | **评分模块训练** | 判别式评分模块（Qwen3-VL-8B + 两层 MLP） + Bradley-Terry 损失 |
| 4 | **强化学习精炼（GRPO）** | 冻结评分模块为奖励函数 → GRPO 强化学习微调分析模块 |

#### 5.3.3 评测基准与核心成果

**两个基准**：PosterRewardBench（Basic + Advanced 双难度）+ PosterBench（评估文生图模型）

**核心数据**：PosterReward 在 PosterRewardBench-Advanced 上达到 **86.0% 准确率**，远超现有基线（40%-53%）。

### 5.4 评估体系演进逻辑

**结构化评估积累的维度定义经验**（构图/色彩/氛围感）→ **为 PosterReward 多维度分析模块提供领域知识参照**

**PosterReward 端到端学习能力** → **克服传统结构化评估在泛化性和可优化性上的瓶颈**

**两者的融合是未来评估体系演进的方向**。

## 六、技术闭环协同

| 模块 | 在闭环中的角色 |
|---|---|
| **PosterCraft** | 建立端到端生成基础能力；四阶段工作流已引入奖励模型驱动的美学优化 |
| **PosterOmni** | 在 PosterCraft 基础上拓展至多任务场景；其统一 Reward 模型是 PosterReward 理念的任务特化 |
| **营销海报结构化** | 从构图/配色/氛围感等维度提供可解释设计规范标准，为生成链路评估提供领域知识 |
| **PosterReward** | 将设计知识内化为端到端奖励信号：驱动生成模型持续进化（RL 奖励）+ 承担线上"质检线" |

**协同模式**：评估驱动生成优化，生成拓展编辑边界，编辑反哺评估标准 → 持续自我进化的后训练系统。

## 七、落地实践

### 案例 1：文生帖子功能（PosterCraft）

- **ALBALUZ 西班牙餐厅海报**：根据详细 prompt（黑猪火腿/42 月橡果饲养/4 年腌制）生成竖版 4:9 海报
- **重庆夏季城市图鉴文旅海报**：3D 微缩城市沙盘风格（洪崖洞/解放碑/长江索道/两江交汇/跨江大桥/立体街区/山城步道/滨江广场/吊脚楼建筑/轻轨穿楼/夏季绿植/夜市摊位/街灯 等 14+ 元素）

### 案例 2：美团品牌 IP 袋鼠团团

- **大寒节气海报**：袋鼠团团节日节气主题
- **2026 马年新年主视觉**：袋鼠团团骑白马 + 红色马鞍 + 红灯笼/烟花 + 唐代风格古建筑 + 毛笔创意字体"马年大吉"

### 案例 3：图生商品海报（PosterOmni 主体保持能力）

(原文图示，文字描述有限)

## 八、总结与展望

**已构建完整技术体系**：基础生成能力 → 多任务统一融合 → 精准质量评估（3 项工作全部开源）

**未来探索方向**：
- **更强可控性**：支持更精细设计意图传达
- **更广场景覆盖**：从静态海报 → 动态视觉；零售电商 → 酒旅/丽人服务电商
- **更深评估维度**：将结构化设计规范知识持续注入奖励模型，实现"可解释 + 可优化"统一
- **更紧产业闭环**：让规范标准与奖励模型 RL 信号深度融合，直接驱动生成模型自我进化

> 从效率到效能，从"能用"到"好用"，AIGC 海报生成正在重新定义百万商家的创意生产方式。

## 资源链接

- **MeiGen-AI 仓库**：https://github.com/MeiGen-AI（开源代码）
- **PosterCraft**：ICLR 2026 论文
- **PosterOmni**：CVPR 2026 论文
- **PosterReward**：CVPR 2026 论文
- **PosterRewardBench / PosterBench**：评测基准开源
- **美团技术团队** 公众号：本文作者