--- title: "美团海报生成 AIGC 技术创新与实践" source: wechat url: http://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651782896&idx=1&sn=d13b5709795af1b2e75c9396956d5fc2&chksm=bd1227bd8a65aeab4d051f2e7553f490bff6ec4ddd302484574328f6c29d2780ccac77b10f55#rd ingest_date: 2026-07-03 vxc: 72 stars: 4 sha256: 06351fac09c3a406e8dcbb4b5a8aca636c62ffd68b8d3027bf9e606ebaddcbce --- # 美团海报生成 AIGC 技术创新与实践 # 美团海报生成 AIGC 技术创新与实践 原创 视觉智能 视觉智能 [ 美团技术团队 ]() __ _ _ _ _ 在小说阅读器读本章 去阅读 在小说阅读器中沉浸阅读 点亮👆 “☆”星标 ,不错过推送内容~ 全文速读 一张商业海报,对设计师来说可能是半天工作;对百万中小商家来说,却可能是一道迈不过去的门槛。 外包一张专业海报,少则数百、多则数千元;临时促销要求分钟级交付,传统设计流水线却要1到3天;好不容易批量生产出来,质量又参差不齐——这是美团平台上数百万商家每天都在面对的真实困境。 AIGC 给了我们一个新的答案,但「生成一张看起来还行的图」和「生成一张真正可用的商业海报」之间,横亘着精准文字渲染、和谐版式布局、多任务统一支持、质量可量化评估等多项相互交织的技术挑战。 过去两年,美团智能创作团队围绕这一问题,构建了覆盖「 能生成 、 能编辑 、 能评判 」的完整技术体系: * PosterCraft(ICLR 2026) :摒弃模块化流水线,端到端统一优化文字、视觉与版式,在文字渲染准确率上接近Top级别的闭源商业系统; * PosterOmni(CVPR 2026) :单一模型覆盖扩图、补全、比例调整、风格迁移等六类设计任务,更接近"基于参考稿工作的智能设计助手"; * PosterReward(CVPR 2026) :首个专门面向海报质量评估的奖励模型,在专项评测基准上达到 86% 准确率,远超现有基线,既驱动生成模型持续进化,也承担线上质检把关。 三者形成「 生成-编辑-评判 」的技术闭环,相互支撑、持续自我进化。目前三项工作均已全部开源于 [ MeiGen-AI ]() 仓库,并在美团外卖套餐图生成、品牌 IP 袋鼠团团、点评信息流治理等多个真实业务场景中完成落地。 本文将系统拆解这套技术体系的核心思路、关键创新与实战经验。 🎈我们还在文末增加了读者 互动环节 ,欢迎大家晒出自己的见解、思考,分享实践经验,一起交流学习。 本文目录 * 一、背景与挑战 * 1.1 业务背景:百万商家的"创意平权"难题 * 1.2 技术挑战:高质量海报生成的多维难题 * 1.3 我们的解法:构建"生成-编辑-评判"技术闭环 * 二、技术体系全景 * 三、端到端高美感海报生成:PosterCraft(ICLR 2026) * 3.1 核心思想 * 3.2 四阶段级联优化工作流 * 3.3 核心成果 * 四、多任务统一的图像到海报创作:PosterOmni(CVPR 2026) * 4.1 核心思想:从 Text-to-Poster 到 Image-to-Poster * 4.2 统一"图到海报"范式:单一模型覆盖六类典型设计需求 * 4.3 核心难点:多任务冲突的缓解 * 4.4 方法论:四阶段训练流水线 * 4.5 PosterOmni-Bench:统一评测基准 * 4.6 实验结果 * 五、海报质量评估:PosterReward(CVPR 2026) * 5.1 真实海报的结构化评估:营销海报图像结构化 * 5.2 生成海报的奖励模型 * 5.3 评估体系的演进逻辑 * 六、技术闭环:各模块如何协同? * 七、落地实践 * 八、总结与展望 * * * 一、背景与挑战 ### | 1.1 业务背景:百万商家的"创意平权"难题 美团连接数百万商家与数亿消费者,海报作为核心视觉营销载体,贯穿商家日常运营全场景。然而,百万商家普遍面临四重困境: * ** 设计资源匮乏 ** :专业营销海报外包动辄数百至数千元,中小商家难以承受;即便是大型连锁品牌,面对多城市、多门店的差异化营销需求,设计师团队同样捉襟见肘。 * ** 时效性要求苛刻 ** :天气突变、突发热点、临时促销等本地生活场景要求海报"分钟级"交付,传统设计流水线 1–3 天的周期已严重脱节。 * ** 内容同质化严重 ** :大量商家依赖固定模板做简单文字替换,海报千篇一律,在信息爆炸时代难以触达消费者,营销转化率持续走低。 * ** 批量生产质量失控 ** :从精雕细琢转向规模化生产后,如何保证每张海报达到商业可用标准,成为新的运营难题。 ### | 1.2 技术挑战:高质量海报生成的多维难题 AIGC 为上述问题提供了新思路,但 ** 高质量海报生成 ** 远非简单的文生图任务,面临五大相互交织的技术挑战。 ** 挑战一:精准的文字渲染 ** 海报文字要求"零容错"——任何错误、缺失或模糊都导致整张海报不可用。主流扩散模型在多行文字、中文字符和小字号文本上仍有明显短板,中文场景下难度尤甚。 ** 挑战二:和谐的版式布局 ** 优秀海报遵循对比、重复、对齐、亲密性等设计原则,这种"设计感"难以规则化,更多依赖对大量优秀作品的隐式学习,是一个开放性难题。 ** 挑战三:统一的美学风格 ** 色彩和谐、视觉层次、品牌调性等多维度共同构成美学判断,且不同行业标准迥异:餐饮要"食欲感",美妆要"精致感",科技要"未来感"。模型需在保持整体美学水准的同时适配多样化风格需求。 ** 挑战四:多任务场景的统一 ** 真实设计需求横跨"局部编辑"(文字排版叠加、局部填充)和"全局创作"(风格迁移、版式重组)两大范畴,如何在单一模型中同时支持所有场景,是模型设计和训练策略上的重大挑战。 ** 挑战五:质量评估的可量化 ** 现有图像质量指标(FID、IS 等)无法捕捉海报特有的排版质量、文字准确性和设计规范性,而人工评估成本高昂且难以规模化。我们需要一套既能驱动模型优化(作为 RL 奖励信号),又能承担线上质检的自动化评估体系。 ### | 1.3 我们的解法:构建"生成-编辑-评判"技术闭环 面对上述挑战,我们团队围绕海报生成构建了一套完整的技术体系,覆盖 ** 基础模型能力提升 ** 、 ** 多任务统一模型融合 ** 和 ** 质量评估模型 ** 三大核心环节,形成了"能生成、能编辑、能评判"的技术闭环。 * ** 能生成 ** :端到端高美感海报生成,精准文字渲染;技术方案→ [ PosterCraft ]() | [ Code ]() (ICLR 2026) * ** 能编辑 ** :六大任务统一,局部编辑与全局创作融合;技术方案→ [ PosterOmni ]() | [ Code ]() (CVPR 2026) * ** 能评判 ** :真实海报结构化解析 + 生成海报偏好评估;技术方案→营销海报结构化 + [ PosterReward ]() (CVPR 2026) 三者相互支撑、协同进化:评估驱动生成优化,生成拓展编辑边界,编辑反哺评估标准,共同构成一个持续自我进化的后训练系统。相关工作已产出三篇顶级学术会议论文,并全部开源于 [ MeiGen-AI仓库 ]() 。 ## 二、技术体系全景 我们的海报生成技术体系遵循一个清晰的演进路径: 各层相互支撑: ** PosterCraft ** 奠定端到端生成基础; ** PosterOmni ** 在此之上拓展至多任务统一编辑;质量评估层构建"双线并行"体系—— ** 营销海报结构化 ** 面向线上存量海报,提供构图、配色、氛围感的结构化解析与美学评分; ** PosterReward ** 面向 AI 生成内容,提供偏好评估信号,既驱动生成模型持续进化(RL 奖励函数),也承担工业化生产的质检把关。 ## 三、端到端高美感海报生成:PosterCraft(ICLR 2026) ### | 3.1 核心思想 过去的海报生成方法大多采用 ** 模块化设计 ** ——先由视觉语言模型规划布局,再将文字叠加到单独生成的背景上。这种流水线方案存在根本性缺陷:美学一致性难以保证,视觉质量受限于各模块的短板拼接。 PosterCraft 的核心思路是: ** 摒弃模块化流水线,让模型端到端地自由探索视觉连贯的设计组合 ** 。渐进式的组件级改进不足以带来美学层面的质的飞跃,需要一套统一框架来协同优化文字、视觉和版式。 ### | 3.2 四阶段级联优化工作流 PosterCraft 设计了四阶段训练流程,每个阶段针对一个关键瓶颈: ** 阶段一:大规模文字渲染优化 ** 构建 ** Text-Render-2M ** 数据集(200 万样本,涵盖多样文字内容、大小、位置和旋转角度)。通过 Flow Matching 微调,显著提升文字渲染准确率,有效解决基础模型常见的文字缺失、重复和错误问题。 ** 阶段二:高质量海报微调 + 区域感知校准 ** 构建 ** HQ-Poster-100K ** ,经多级管线筛选超过 10 万张高质量海报。关键创新是 ** 区域感知校准(Region-Aware Calibration) ** 机制,对不同区域差异化加权:非文字区域(1.0)、主要文字区域(0.6)、次要文字区域(0.2),在保持文字准确的同时更注重整体艺术性。 ** 阶段三:美学-文本强化学习 ** 构建 ** Poster-Preference-100K ** :对每个 prompt 生成 5 张海报,用 HPSv2 打分结合 Gemini 验证文字准确性,筛选出 6000 个高质量偏好对。采用 Best-of-N 偏好优化(DPO),让模型学习色彩和谐、版式平衡等高阶美学偏好。 ** 阶段四:视觉-语言反馈精炼 ** 构建 ** Poster-Reflect-120K ** :对每个 prompt 生成 6 张海报,由 Gemini 选择最优并生成结构化反馈建议。利用 InternVL-3-8B 微调为 VLM 评论家,在推理时提供迭代式反馈优化。 ### | 3.3 核心成果 PosterCraft 在文字召回率、F-score 和准确率上 ** 显著超越所有开源基线 ** ,接近 SOTA 闭源商业系统(如 Gemini 2.0-Flash-Gen)的水平,证明了统一端到端框架在海报生成任务上的巨大潜力。 ## 四、多任务统一的图像到海报创作:PosterOmni(CVPR 2026) ### | 4.1 核心思想:从 Text-to-Poster 到 Image-to-Poster 不少 AI 海报生成方法将输入设定为文本提示(Text-to-Poster),但真实设计场景中,更常见的起点是 ** 一张参考图、旧版海报或产品主视觉 ** ——设计目标不是完全重做,而是在保留核心主体的基础上完成扩图、补全、比例调整、风格迁移和版式重组。 PosterOmni 的核心定位: > ** A unified open model for versatile multi-task image/poster-to-poster generation. ** 它通过一个统一的开源模型覆盖多类设计需求,既能处理局部编辑,也能完成风格重塑和版式重构——更接近一个" ** 基于参考稿工作的智能设计助手 ** ",而非"编辑模块 + 生成模块"的简单拼接。 ### | 4.2 统一"图到海报"范式:单一模型覆盖六类典型设计需求 PosterOmni 将 image/poster-to-poster 场景中的常见需求整理为 ** 6 类任务 ** ,统一由一个模型完成: 这些能力共同对应了一个真实的设计流程: ### | 4.3 核心难点:多任务冲突的缓解 多任务统一建模的核心难点在于 ** 任务间的相互干扰 ** :局部编辑强调像素级一致性和自然过渡,全局创作则关注风格抽象和大幅度重构。直接混合训练容易导致模型"什么都会一点",但整体不稳定。 PosterOmni 采用"数据—蒸馏—奖励"闭环: * 分别训练局部编辑和全局创作两类专家模型。 * 通过任务蒸馏整合为统一学生模型(PosterOmni-SFT)。 * 加入统一奖励与强化学习,对齐审美偏好、编辑准确性和指令遵循能力。 ### | 4.4 方法论:四阶段训练流水线 #### 阶段 1:自动化数据构建(PosterOmni-200K) 构建 ** PosterOmni-200K ** ,形成完整数据闭环:创意描述生成 → 候选图生成 → 多模态筛选 → 任务配对整理。 ** (1)提示词与基础图生成:贴近真实设计 brief ** 组合主体/品类/场景/风格标签,借助 VLM(GPT、Qwen3)扩展为带版式约束的结构化描述,再用强 T2I 模型(Qwen-Image 等)渲染候选图,并过滤主体缺失、文字崩坏等不合格样本。 ** (2)多模态过滤:噪声控制是合成数据的真正瓶颈 ** 对于合成数据而言,真正的瓶颈往往不在数量,而在噪声控制。我们设计了一套分层过滤机制: * ** 训练集 ** :PaddleOCR 检查文本可读性 + jina-clip-v2 图文一致性判断。 * ** 评测集 ** :额外引入 Gemini 2.5 Flash 评估"任务匹配度"。 * ** 结构信号 ** :SAM 2 生成分割区域,为补全、扩图等任务提供 mask 级监督。 ** (3)六类任务配对构建 ** 基于经过过滤的"文本→海报"基础数据,进一步构造六类 image/poster-to-poster 训练任务。每一类任务对应一个模块化的数据生成器: * ** Extending / Filling ** :SAM2 构造局部 mask。 * ** Rescaling ** :借鉴 BrushNet,构建"比例变化→内容重排"监督对。 * ** ID-driven ** :PaddleDet 提取主体 + 增强编辑器构造"主体不变、其余可调"样本。 * ** Layout / Style-driven ** :prompt-controlled rerendering,继承布局或风格但不直接复制。 最终覆盖商品、美食、活动/旅行、自然、教育、娱乐六大海报主题,产出超过 ** 20 万个高质量配对样本 ** 。 #### 阶段 2:任务蒸馏——先拆开学,再合到一起 如果直接把六类任务混在一起联合训练,最容易出现的问题就是任务冲突:局部任务强调像素对齐与细节保真,全局任务则更关注构图重组与风格抽象,两者在同一个参数空间中往往会互相拉扯。为了解决这个问题,PosterOmni 采用: ** 先训练专家,再蒸馏成统一学生模型 ** 。 ** (1)专家训练: ** * ** 局部编辑专家 ** :负责 Extending / Filling / Rescaling / ID-driven,学习主体一致性与可控编辑能力。 * ** 全局创作专家 ** :负责 Layout-driven / Style-driven,学习版式组织逻辑与风格协调性。 同时加入辅助文本渲染训练信号,保证文字可读性。 ** (2)蒸馏到单一学生:PosterOmni-SFT ** 最终的统一模型不是简单做"参数拼接",而是训练一个学生网络去逼近专家模型的速度场/预测行为。整体损失由两部分组成: L_total = L_text_render (辅助文本渲染损失,保证文字稳定清晰)         + λ · L_distill  (任务蒸馏损失,复现专家输出) PosterOmni-SFT 同时具备"局部精修的稳定性"和"全局创作的生成性",不再依赖多个模型串联。 #### 阶段 3:统一奖励模型训练( ) SFT 使模型"会做",但难以进一步学会"做得更美观"。我们训练统一奖励模型 , ** 同时输出通用审美质量与任务完成度的综合分数 ** 。 ** 偏好数据构建: ** PosterOmni-SFT 生成多个候选,Gemini-2.5-Pro 初筛后由标注者选优。关键创新是 ** negative-pair 策略 ** :将"输入参考图"记为 rejected、"编辑后输出"记为 chosen,显式强化"有效修改本身有价值"的认知,防止模型在 layout/style 任务中直接拷贝参考图投机。 ** 模型结构: ** 基于 Qwen3-VL 编码器 + 轻量 MLP head,编码"视觉质量 + 指令 + 任务类型",采用 Bradley-Terry 目标优化排序损失 。最终, 学到的不只是"什么更好看",还有"对这个任务来说什么算做对、什么算偷懒"。 #### 阶段 4:Omni-Edit 强化学习 沿用 ** DiffusionNFT ** 思路,在正向扩散过程中直接优化,用对比式 Diffusion Loss 将速度预测器推向高奖励行为:从旧策略 构造隐式正/负策略,用奖励 对目标加权,同时做归一化以稳定训练尺度。 将 DiffusionNFT 适配到 image-to-poster 条件输入(输入图 + 指令 + 任务类型),在统一机制下同时处理局部编辑和全局创作。 ** 与通用 VLM 奖励的关键区别 ** :通用 VLM 打分不理解 poster 任务的完成标准,容易出现"看起来像但任务没做对"的投机解。 给出 ** task-aware ** 分数,使 RL 优化方向不仅是"更好看",也是"更像完成了这个任务"。 ### | 4.5 PosterOmni-Bench:统一评测基准 ** PosterOmni-Bench ** 是首个面向多任务设计场景的统一测试基准: * ** 规模 ** :中英文共 ** 1020 条 ** 测试指令(540 中文 + 480 英文)。 * ** 覆盖 ** :六类核心任务 × 六大海报主题,同时覆盖单/多参考图输入。 * ** 评测 ** :Gemini-2.5-Pro 打分,1–5 分范围内综合评价审美质量与任务完成情况。 这个 Benchmark 测的不是"能不能生成一张图",而是"能不能像设计师一样完成海报修改与再设计"。 ### | 4.6 实验结果 ** 定量结果:六项任务全面领先 ** 在 PosterOmni-Bench 上对比主流开源方法(Qwen-Image-Edit、FLUX.1 Kontext、BAGEL、UniWorld-V2 等)及闭源系统(Seedream 系列): * ** PosterOmni 在全部六类任务上均取得开源模型最佳表现 ** ,整体评分超过部分闭源模型。 * 提升来自"局部精修 + 全局创作"两类能力的 ** 同时增强 ** ,而非集中于某一子任务。 * 相较 Qwen-Image-Edit:在 Layout-driven / Style-driven 上增幅最大,说明模型真正学到了布局与风格背后的生成规则。 * 相较 Seedream-4.0:整体平均已实现反超,单一开源模型已具备处理复杂设计需求的实际可用性。 ** 定性对比:学风格/学布局 ≠ 直接 copy ** ** Style-driven 的常见失败 ** :很多 baseline 会把参考图的局部元素直接"贴"过来。PosterOmni 更偏向学习配色、材质感、字体气质等"风格本质",再迁移到新主体上。 ** Rescale / Layout-driven 的常见失败 ** :很多系统只做裁剪/拉伸。PosterOmni 更像在做"改比例→重排版":标题层级、留白、元素间距随之调整,主体也更稳定。 ## 五、海报质量评估:PosterReward(CVPR 2026) 海报评估是整个技术体系的"质量守门人",沿两条互补路线展开——核心差异不在于处理对象,而在于 ** 质量信号的来源方式 ** : * ** 真实海报的结构化评估 ** :面向线上运营海报素材,以 ** 专业设计规范的显式标准 ** 为锚,通过多维度结构化解析实现智能质检与规范管理 * ** 生成海报的奖励模型 ** :面向 AI 生成内容,以 ** 用户主观偏好对齐 ** 为驱动,通过端到端学习提供精准质量信号,驱动生成模型持续进化 两者共同构成"存量评估 + 增量优化"的完整评估体系。 ### | 5.1 真实海报的结构化评估:营销海报图像结构化 #### 5.1.1 问题定义 营销海报是"人工制作"的信息载体,具有明确的信息要素和规则搭配,简单的整图美学评分存在显著局限。 我们提出 ** 营销海报图像结构化 ** 解析方案:将海报从多维度拆解分析,把视觉信息转换为规范化的结构化描述,并输出各维度量化美学评分。整套方案围绕三大核心维度展开: ** 排版构图、色系搭配、氛围风格 ** 。 #### 5.1.2 排版构图解析 营销海报设计遵循页面排版四大基础原则: ** 对比、重复、对齐、亲密性 ** 。要理解海报构图的好坏,首先需要对海报内容元素做精准解析。 ** 内容定位算法 ** 构建营销海报内容定位模型(准确率 90%+ ),定位 ** 12 种常见元素 ** : > 文案、价格、修饰、卡通动漫、美团Logo、其他Logo、人像、美团IP、红包、菜品、商品 模型对任意输入的海报图,返回各元素在图中的位置坐标及对应类别,覆盖不同类型、不同尺寸的营销海报。 ** 构图美学评价算法 ** 基于元素定位结果,通过 CNN 回归模型拟合设计师主观评价,输出量化构图美学分数: * 5 分制构图得分误差仅 ** 0.3794 ** (归一化误差 0.0759)。 * 近 ** 90% ** 的图片得分误差控制在 1 分以内。 算法可判断海报构图手法(上下/左右/居中构图等),并评估主体占比、布局紧凑度、画面留白等维度。 营销海报构图人机打分差异 #### 5.1.3 色系搭配识别 色彩是营销海报传达情感的重要介质。不同业务类型适配不同的色系——粉色系营造浪漫/女生氛围,绿色系迎合健康环保调性,黑色系打造科技感或高端奢华风格。 ** 主色系识别算法 ** 模型准确率 96.2% ,支持识别 ** 11 种色系 ** : > 粉色系、绿色系、黑色系、白色系、橙黄系、蓝色系、银灰系、红色系、紫色系、棕色系、多色系 同时输出各色系置信度,对多色系海报也有良好理解能力。 海报主色系识别算法结果展示 ** 色彩解析算法 ** 支持 12 种基础颜色的占比识别,以及基于 HSV 色彩空间的冷暖色调判断,为色彩和谐度评估提供基础数据。 海报色彩解析算法结果展示 ** 色彩美学评价 ** 将色彩美学拆解为 ** 色彩饱和度 ** 和 ** 颜色和谐度 ** 两个维度,通过深度学习拟合设计师主观评价,输出量化色彩美学分值。 色彩美学评价得分展示 #### 5.1.4 氛围感风格识别 一张优秀的营销海报需要告别千篇一律的模板感,让消费者感受到身临其境的独特氛围——这也是海报从"能看"到"吸引人"的关键跃迁。 ** 风格识别算法 ** 模型准确率 91.50% ,支持识别 ** 12 种常见海报风格 ** : > 节日、卡通、简洁、多彩、科技、柔美、素雅、促销、撞色、实拍、标准、其他 海报风格与文案/商品内容无关,由海报模板及装饰元素营造的 ** 整体氛围感 ** 决定。 营销海报常见风格定义 #### 5.1.5 整体美学综合评价 在构图、色彩、氛围感等主观维度,以及清晰度、分辨率等客观维度的基础上,综合输出 ** 整体美学评分 ** ,基本拟合设计师的主观评价标准。 海报整体美学得分展示 ### | 5.2 生成海报的奖励模型 #### 5.2.1 核心思想 PosterReward 是 ** 首个专门面向海报质量评估的奖励模型 ** ,集成结构布局、文字渲染准确性和美学表达三个维度的统一评分能力。现有通用奖励模型主要关注全局图像美学,忽略了海报特有的排版质量和文字渲染维度,加之领域偏好数据极度稀缺,生成海报评估长期是制约生成质量提升的核心瓶颈。PosterReward 的评估维度继承了结构化评估的实践经验——构图、色彩、整体美学在两套方案中形成概念对齐与技术递进。 #### 5.2.2 AI 偏好数据集自动构建(Poster-Preference-70K) 高质量偏好数据是训练奖励模型的基石。我们设计了一套自动化偏好数据构建管线: ** 数据来源 ** :Seedream 3.0、Seedream 4.0 和 Qwen-Image-Lightning 生成的海报池(覆盖影视类和非影视类两大场景)。 ** 级联式过滤 ** : * 影视海报:HPSv3 初筛 → Kendall's W 一致性筛选 → 轻量闭源模型多轮排序 → 最终多模型验证。 * 非影视海报:同尺寸过滤 → CLIP+DINOv3 差异性筛选 → 多模型最终验证。 ** 最终多模型验证 ** :四个开源模型(CLIP、DINOv3、HPSv3、GLM-4.5V)和三个闭源模型(Gemini-2.5-Flash-Lite、Gemini-2.5-Pro、GPT-5)进行多维度共识判定,最终产出 ** 7万高质量海报偏好对 ** ,覆盖文字渲染、布局设计、美学价值、指令一致性等多个维度。 #### 5.2.3 级联式多阶段训练 PosterReward 采用四阶段级联训练策略: ** 阶段一:联合监督微调(Joint SFT) ** 双任务并行——单图分析 + 配对比较,使用 24.6万 单图分析样本 + 16万 配对偏好样本微调 Qwen3-VL-8B。 ** 阶段二:联合拒绝采样微调(Joint RSFT) ** 每个 prompt 采样三个回答,由 Gemini-2.5-Flash-Lite 选择最高质量响应精炼。 ** 阶段三:评分模块训练(Score Module Training) ** 训练判别式评分模块(Qwen3-VL-8B + 两层 MLP),采用 Bradley-Terry 损失优化。 ** 阶段四:强化学习精炼(GRPO) ** 以冻结的评分模块为奖励函数,通过 GRPO 对分析模块进行强化学习微调。 #### 5.2.4 多变体适配 为适应不同应用场景,PosterReward 提供三种变体: #### 5.2.5 评测基准与核心成果 我们发布了两个评测基准: ** PosterRewardBench ** (Basic + Advanced 两个难度级别,评估奖励模型偏好判断准确性)和 ** PosterBench ** (评估文生图模型的海报生成能力)。 在 PosterRewardBench-Advanced 上,PosterReward 达到 ** 86.0% 准确率 ** ,远超现有基线(大多在 40%–53% 之间)。 ** PosterReward-Pairwise ** 在 pairwise 评测中保持强竞争力,位置偏置更小,平衡式数据构造和顺序交换策略有效提升了判断稳定性。 ### | 5.3 评估体系的演进逻辑 回顾整个评估体系的建设路径,可以看到一条清晰的技术演进线: 结构化评估积累的维度定义经验(构图、色彩、氛围感)为 PosterReward 的多维度分析模块提供了领域知识参照;PosterReward 的端到端学习能力则克服了传统结构化评估在泛化性和可优化性上的瓶颈。两者的融合是未来评估体系演进的方向。 ## 六、技术闭环:各模块如何协同? 整个技术体系并非独立存在的几块工作,而是构成了一个 ** 自我进化的后训练系统 ** : * ** PosterCraft ** 建立端到端生成的基础能力,四阶段工作流已引入奖励模型驱动的美学优化。 * ** PosterOmni ** 在 PosterCraft 基础上拓展至多任务场景,其统一 Reward 模型是 PosterReward 理念的任务特化。 * ** 营销海报结构化 ** 从构图、配色、氛围感等维度提供可解释的设计规范标准,为生成链路的评估维度提供领域知识支撑。 * ** PosterReward ** 将设计知识内化为端到端奖励信号,既驱动生成模型持续进化(RL 奖励函数),也承担线上"质检线"的品质保障。 ## 七、落地实践 ** 实际案例 1:与美团平台合作上线文生帖子功能(PosterCraft复杂图文海报生成能力) ** 生图 prompt 01(下左) :根据下方信息,设计一张竖版海报,比例 4:9。ALBALUZ是沪上坚持地道风味的西班牙餐厅,8年来一直坚守初心,呈现正宗的西班牙手工菜。招牌菜:42个月橡果饲养黑猪火腿正宗的西班牙火腿只选用猪后腿,经过盐渍、发酵和干燥处理,42个月的精心腌制并熟成,相当于需要耗费将近4年的时间才能得到一块火腿成品,真正意义上的自然与时间的杰作。 生图 prompt 02(上右) : 一张竖版高级城市文旅海报,主题为【重庆夏季城市图鉴】,画面采用精致的 3D 微缩城市沙盘风格,等距鸟瞰视角,像一本城市地图和旅行画册的封面。右侧主体是一座漂浮在山城地形上的立体城市模型,包含【洪崖洞】、【解放碑】、【长江索道】、两江交汇、跨江大桥、立体街区、山城步道、滨江广场、吊脚楼建筑、轻轨穿楼、夏季绿植、夜市摊位和街灯。建筑细节丰富,层层叠叠依山而建,江面泛着夏日光泽,街道有行人、游客和暖黄色灯光。前景有一个背包行人走在石阶山路上,脚印或行走路线通向城市深处,营造旅行与探索感。左侧大面积留白,用于排版城市名称、英文副标题、坐标、图例说明和小型线性图标,整体像高端旅游地图海报、城市纪念插画、夏季限定文创封面。画面色调为雾白、山城灰、江水蓝绿、夏日翠绿、砂岩米色、霓虹红和暖橙色,带有潮湿夏夜的空气感与柔和城市灯光,细腻阴影,电影级光影,超高细节,精致模型质感,纸雕地图边缘,梦幻但真实,热烈、立体、浪漫、收藏级视觉。竖版构图,超高清,细节丰富。 ** 实际案例 2:与美团设计师合作上线美团品牌IP(PosterCraft生成能力) ** 生图 prompt(下左) :给我设计一张袋鼠团团的大寒的节日节气海报。 生图 prompt(上右) :袋鼠团团三维C4D风格,2026年马年新年主视觉,整体节日氛围浓厚,主色调为红色与金色。画面中央是袋鼠团团骑着白马(红色的马鞍,无马缰绳,马蹄上有金和红穗子配饰点缀,呼应生肖主题,活力精神的马年生肖,),面带开心、喜庆的表情,角色主体有柔和的轮廓光,氛围强,作为画面核心主体。画面中点缀烟花、红灯笼等新年元素。背景为中国唐代风格的古建筑群,具有浓厚的东方传统节日氛围。整体画面呈现热闹、喜庆、隆重的新年庆祝场景。主标题: “马年大吉”顶部居中,毛笔创意字体金色,笔触流畅设计感强,大师字体,副标题:“Happy New Year 2026”主标题下面。 ** 实际案例 3:图生商品海报(PosterOmni 的主体保持能力) ** ## 八、总结与展望 我们通过 PosterCraft、PosterOmni 和 PosterReward 三项工作,构建了覆盖" ** 基础生成能力 → 多任务统一融合 → 精准质量评估 ** "的完整技术体系,三项工作全部开源,期待推动海报/图形设计生成领域的共同发展。 ** 未来,我们将继续探索: ** * ** 更强的可控性 ** :支持更精细的设计意图传达。 * ** 更广的场景覆盖 ** :从静态海报延伸至动态视觉内容,从零售电商拓展到酒旅、丽人等服务电商场景。 * ** 更深的评估维度 ** :将结构化设计规范知识持续注入奖励模型,实现"可解释 + 可优化"的统一。 * ** 更紧的产业闭环 ** :让规范标准与奖励模型的 RL 信号深度融合,直接驱动生成模型自我进化。 从效率到效能,从"能用"到"好用",AIGC 海报生成正在重新定义百万商家的创意生产方式。 你在使用 AI 生图工具时,最大的痛点是什么?欢迎给我们留言,我们会认真查看每一条反馈。当然,如果你对文中某个技术方向感兴趣,也欢迎直接跟我们交流。 \---------- END ---------- | [ 美团LongCat大模型人才校招全球启动 ]() | [ 从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源 ]() | [ 从月球漫步到赛博都市,WBench测出了世界模型的边界 ]() ❤️❤️❤️ 如果这篇文章对你有帮助,欢迎大家帮忙点赞、评论,分享给更多的小伙伴。 ⬇️ 预览时标签不可点 修改于 微信扫一扫 关注该公众号 [ 知道了 ]() 微信扫一扫 使用小程序 **** [ 取消 ]() [ 允许 ]() **** [ 取消 ]() [ 允许 ]() **** [ 取消 ]() [ 允许 ]() × 分析 __ 微信扫一扫可打开此内容, 使用完整服务 : , , , , , , , , , , , , 。 视频 小程序 赞 ,轻点两下取消赞 在看 ,轻点两下取消在看 分享 留言 收藏 听过