--- sha256: 490931ba388172bed8e02b69f6cef060172c4af0a3628ef3617df9c5891a5aa0 source: "https://mp.weixin.qq.com/s/4ytSFiJa2q8inb5U-Au9Nw" title: "美团海报生成 AIGC 技术创新与实践" author: 视觉智能(美团技术团队) publisher: 美团技术团队 date: 2026-06-18 type: article ingested: 2026-06-18 review_value: 10 review_confidence: 10 review_recommendation: ultra-strong review_stars: 5 --- # 美团海报生成 AIGC 技术创新与实践 > 作者:美团技术团队 · 视觉智能 · 发布:2026-06-18 10:24 ## 全文速读 **美团智能创作团队 2 年构建的"生成-编辑-评判"完整技术体系**: - **PosterCraft**(**ICLR 2026**):摒弃模块化流水线,端到端统一优化文字、视觉与版式,文字渲染准确率接近 SOTA 闭源商业系统 - **PosterOmni**(**CVPR 2026**):单一模型覆盖 6 类设计任务(扩图/补全/比例调整/风格迁移/版式重组/ID-driven),更接近"基于参考稿工作的智能设计助手" - **PosterReward**(**CVPR 2026**):首个专门面向海报质量评估的奖励模型,**PosterRewardBench-Advanced 86.0% 准确率**,远超现有基线(40%-53%) 三者形成"生成-编辑-评判"技术闭环,相互支撑、持续自我进化。**全部开源于 MeiGen-AI 仓库**。 ## 一、背景与挑战 ### 1.1 业务背景:百万商家的"创意平权"难题 百万商家 4 重困境: - **设计资源匮乏**:外包动辄数百至数千元 - **时效性苛刻**:临时促销要求**分钟级**交付(vs 传统 1-3 天) - **内容同质化**:固定模板千篇一律 - **批量质量失控**:规模化后质量参差不齐 ### 1.2 五大技术挑战 | 挑战 | 核心难点 | |---|---| | **1. 精准文字渲染** | 零容错;中文/多行/小字号短板 | | **2. 和谐版式布局** | 对比/重复/对齐/亲密性等设计原则难规则化 | | **3. 统一美学风格** | 餐饮"食欲感"/美妆"精致感"/科技"未来感";多行业迥异 | | **4. 多任务场景统一** | 局部编辑 + 全局创作两类范畴如何在单一模型同时支持 | | **5. 质量评估可量化** | FID/IS 无法捕捉海报特有维度;人工评估不可规模化 | ## 二、技术体系全景 **演进路径**:基础模型能力提升 → 多任务统一模型融合 → 质量评估模型 | 层级 | 工作 | 职责 | |---|---|---| | **基础生成** | PosterCraft(ICLR 2026) | 端到端高美感海报生成 | | **多任务编辑** | PosterOmni(CVPR 2026) | 6 类 image-to-poster 任务 | | **质量评估(双线)** | 营销海报结构化 | 面向线上存量海报:构图/配色/氛围感结构化解析 + 美学评分 | | | PosterReward(CVPR 2026) | 面向 AI 生成内容:偏好评估 + RL 奖励 + 线上质检 | ## 三、PosterCraft(ICLR 2026):端到端高美感海报生成 ### 3.1 核心思想 > 摒弃模块化流水线,让模型端到端地自由探索视觉连贯的设计组合。 **对比传统模块化方案**:VLM 规划布局 + 单独背景生成 + 文字叠加——**美学一致性差,受各模块短板拼接限制**。 ### 3.2 四阶段级联优化工作流 | 阶段 | 数据集 | 核心方法 | |---|---|---| | **阶段一:大规模文字渲染优化** | **Text-Render-2M**(200 万样本) | Flow Matching 微调,显著提升文字渲染准确率(解决基础模型常见的文字缺失/重复/错误) | | **阶段二:高质量海报微调 + 区域感知校准** | **HQ-Poster-100K**(10 万高质量) | **区域感知校准(Region-Aware Calibration)**:非文字区域 1.0 / 主要文字 0.6 / 次要文字 0.2 — 保持文字准确同时注重整体艺术性 | | **阶段三:美学-文本强化学习** | **Poster-Preference-100K**(6000 偏好对) | 每 prompt 生成 5 张 + HPSv2 打分 + Gemini 验证文字准确性 + Best-of-N DPO | | **阶段四:视觉-语言反馈精炼** | **Poster-Reflect-120K** | 每 prompt 生成 6 张 + Gemini 选优 + 结构化反馈 + InternVL-3-8B 微调为 VLM 评论家(推理时迭代优化) | ### 3.3 核心成果 PosterCraft 在**文字召回率、F-score、准确率**上显著超越所有开源基线,**接近 SOTA 闭源商业系统**(如 Gemini 2.0-Flash-Gen)的水平。 ## 四、PosterOmni(CVPR 2026):多任务统一图像到海报 ### 4.1 核心思想:从 Text-to-Poster 到 Image-to-Poster > 真实设计场景中,更常见的起点是**参考图/旧版海报/产品主视觉**——设计目标不是完全重做,而是在保留核心主体基础上完成扩图/补全/比例调整/风格迁移/版式重组。 ### 4.2 6 类典型设计任务 | 任务 | 描述 | |---|---| | **Extending / Filling** | 扩图、补全(SAM2 构造局部 mask) | | **Rescaling** | 比例变化 → 内容重排(借鉴 BrushNet) | | **ID-driven** | 主体保持(PaddleDet 提取主体 + 增强编辑器) | | **Layout-driven** | 版式驱动(继承布局但不直接复制) | | **Style-driven** | 风格驱动(继承风格但不直接复制) | | **其他 1 类** | (原文未明示) | ### 4.3 核心难点:多任务冲突的缓解 **任务间相互干扰**:局部编辑强调像素级一致 + 自然过渡;全局创作关注风格抽象 + 大幅度重构。直接混合训练 → "什么都会一点但都不稳"。 **PosterOmni 解法**:"数据—蒸馏—奖励"闭环: 1. 分别训练局部编辑专家 + 全局创作专家 2. 通过任务蒸馏整合为统一学生模型(PosterOmni-SFT) 3. 加入统一奖励 + 强化学习(DiffusionNFT) ### 4.4 四阶段训练流水线 | 阶段 | 内容 | |---|---| | **阶段 1:自动化数据构建** | **PosterOmni-200K**(20 万高质量配对):提示词+基础图生成(PaddleOCR/jina-clip-v2/SAM 2 过滤)→ 6 类任务配对(商品/美食/活动/自然/教育/娱乐六大主题) | | **阶段 2:任务蒸馏** | 专家训练(局部编辑 / 全局创作 / 辅助文本渲染)→ 学生网络逼近专家的速度场/预测行为:`L_total = L_text_render + λ·L_distill` | | **阶段 3:统一奖励模型训练** | **PosterOmni-SFT 生成多个候选 → Gemini-2.5-Pro 初筛 → 标注者选优**;关键创新:**negative-pair 策略**(输入参考图 = rejected / 编辑后输出 = chosen)显式强化"有效修改本身有价值"的认知;模型结构 = Qwen3-VL encoder + 轻量 MLP head + Bradley-Terry 损失 | | **阶段 4:Omni-Edit 强化学习** | 沿用 **DiffusionNFT** 思路,正向扩散过程直接优化;task-aware 分数("更像完成了这个任务"而非"仅更好看") | ### 4.5 PosterOmni-Bench:统一评测基准 - **规模**:中英文共 **1020 条测试指令**(540 中文 + 480 英文) - **覆盖**:6 类核心任务 × 6 大海报主题 × 单/多参考图输入 - **评测**:Gemini-2.5-Pro 打分(1-5 分)综合评价审美质量与任务完成度 ### 4.6 实验结果 - **全部 6 类任务开源模型最佳**,整体评分**超过部分闭源模型** - 提升来自"局部精修 + 全局创作"两类能力的同时增强 - 相较 Qwen-Image-Edit:**Layout-driven / Style-driven 增幅最大**(真正学到了布局/风格的生成规则) - 相较 Seedream-4.0:整体平均**已实现反超** ## 五、PosterReward(CVPR 2026):海报质量评估 ### 5.1 双线并行体系 | 路线 | 对象 | 锚定 | 角色 | |---|---|---|---| | **真实海报结构化评估(营销海报图像结构化)** | 线上存量海报 | 专业设计规范显式标准 | 智能质检 + 规范管理 | | **生成海报奖励模型** | AI 生成内容 | 用户主观偏好对齐 | 驱动生成持续进化(RL 奖励)+ 线上质检 | ### 5.2 营销海报图像结构化(三大维度) | 维度 | 算法 | 关键数据 | |---|---|---| | **排版构图** | 12 种元素定位(文案/价格/修饰/卡通动漫/美团 Logo/其他 Logo/人像/美团 IP/红包/菜品/商品) + CNN 回归 | 准确率 **90%+**;5 分制误差仅 **0.3794**(归一化 0.0759);近 **90%** 图片误差 ≤ 1 分 | | **色系搭配** | 11 种色系识别(粉/绿/黑/白/橙黄/蓝/银灰/红/紫/棕/多色)+ 12 种基础色占比 + HSV 冷暖 | 准确率 **96.2%** | | **氛围风格** | 12 种风格识别(节日/卡通/简洁/多彩/科技/柔美/素雅/促销/撞色/实拍/标准/其他) | 准确率 **91.50%** | **整体美学综合评价**:在构图/色彩/氛围感 + 清晰度/分辨率基础上综合输出 → **基本拟合设计师主观评价**。 ### 5.3 PosterReward:生成海报奖励模型 **核心思想**:首个专门面向海报质量评估的奖励模型,**集成结构布局 + 文字渲染准确性 + 美学表达**三个维度统一评分能力。**现有通用奖励模型主要关注全局图像美学,忽略了海报特有的排版质量和文字渲染维度,加之领域偏好数据极度稀缺**。 #### 5.3.1 AI 偏好数据集自动构建(Poster-Preference-70K) **数据来源**:Seedream 3.0/4.0 + Qwen-Image-Lightning 生成的海报池(影视类/非影视类) **级联式过滤**: - 影视海报:HPSv3 初筛 → Kendall's W 一致性筛选 → 轻量闭源模型多轮排序 → 最终多模型验证 - 非影视海报:同尺寸过滤 → CLIP + DINOv3 差异性筛选 → 多模型最终验证 **最终多模型验证**:4 开源(CLIP/DINOv3/HPSv3/GLM-4.5V) + 3 闭源(Gemini-2.5-Flash-Lite/Gemini-2.5-Pro/GPT-5)多维度共识判定。 **最终产出**:**7 万高质量海报偏好对**,覆盖文字渲染/布局设计/美学价值/指令一致性等多个维度。 #### 5.3.2 四阶段级联训练策略 | 阶段 | 名称 | 核心 | |---|---|---| | 1 | **联合监督微调(Joint SFT)** | 双任务并行(单图分析 + 配对比较),24.6 万单图 + 16 万配对偏好,微调 Qwen3-VL-8B | | 2 | **联合拒绝采样微调(Joint RSFT)** | 每 prompt 采样 3 个回答 → Gemini-2.5-Flash-Lite 选最高质量响应精炼 | | 3 | **评分模块训练** | 判别式评分模块(Qwen3-VL-8B + 两层 MLP) + Bradley-Terry 损失 | | 4 | **强化学习精炼(GRPO)** | 冻结评分模块为奖励函数 → GRPO 强化学习微调分析模块 | #### 5.3.3 评测基准与核心成果 **两个基准**:PosterRewardBench(Basic + Advanced 双难度)+ PosterBench(评估文生图模型) **核心数据**:PosterReward 在 PosterRewardBench-Advanced 上达到 **86.0% 准确率**,远超现有基线(40%-53%)。 ### 5.4 评估体系演进逻辑 **结构化评估积累的维度定义经验**(构图/色彩/氛围感)→ **为 PosterReward 多维度分析模块提供领域知识参照** **PosterReward 端到端学习能力** → **克服传统结构化评估在泛化性和可优化性上的瓶颈** **两者的融合是未来评估体系演进的方向**。 ## 六、技术闭环协同 | 模块 | 在闭环中的角色 | |---|---| | **PosterCraft** | 建立端到端生成基础能力;四阶段工作流已引入奖励模型驱动的美学优化 | | **PosterOmni** | 在 PosterCraft 基础上拓展至多任务场景;其统一 Reward 模型是 PosterReward 理念的任务特化 | | **营销海报结构化** | 从构图/配色/氛围感等维度提供可解释设计规范标准,为生成链路评估提供领域知识 | | **PosterReward** | 将设计知识内化为端到端奖励信号:驱动生成模型持续进化(RL 奖励)+ 承担线上"质检线" | **协同模式**:评估驱动生成优化,生成拓展编辑边界,编辑反哺评估标准 → 持续自我进化的后训练系统。 ## 七、落地实践 ### 案例 1:文生帖子功能(PosterCraft) - **ALBALUZ 西班牙餐厅海报**:根据详细 prompt(黑猪火腿/42 月橡果饲养/4 年腌制)生成竖版 4:9 海报 - **重庆夏季城市图鉴文旅海报**:3D 微缩城市沙盘风格(洪崖洞/解放碑/长江索道/两江交汇/跨江大桥/立体街区/山城步道/滨江广场/吊脚楼建筑/轻轨穿楼/夏季绿植/夜市摊位/街灯 等 14+ 元素) ### 案例 2:美团品牌 IP 袋鼠团团 - **大寒节气海报**:袋鼠团团节日节气主题 - **2026 马年新年主视觉**:袋鼠团团骑白马 + 红色马鞍 + 红灯笼/烟花 + 唐代风格古建筑 + 毛笔创意字体"马年大吉" ### 案例 3:图生商品海报(PosterOmni 主体保持能力) (原文图示,文字描述有限) ## 八、总结与展望 **已构建完整技术体系**:基础生成能力 → 多任务统一融合 → 精准质量评估(3 项工作全部开源) **未来探索方向**: - **更强可控性**:支持更精细设计意图传达 - **更广场景覆盖**:从静态海报 → 动态视觉;零售电商 → 酒旅/丽人服务电商 - **更深评估维度**:将结构化设计规范知识持续注入奖励模型,实现"可解释 + 可优化"统一 - **更紧产业闭环**:让规范标准与奖励模型 RL 信号深度融合,直接驱动生成模型自我进化 > 从效率到效能,从"能用"到"好用",AIGC 海报生成正在重新定义百万商家的创意生产方式。 ## 资源链接 - **MeiGen-AI 仓库**:https://github.com/MeiGen-AI(开源代码) - **PosterCraft**:ICLR 2026 论文 - **PosterOmni**:CVPR 2026 论文 - **PosterReward**:CVPR 2026 论文 - **PosterRewardBench / PosterBench**:评测基准开源 - **美团技术团队** 公众号:本文作者