--- name: GordenImage2PPTX description: >- 把「图片格式的 PPT 文档 / 幻灯片截图 / 任意图片页」逆向还原成**可编辑的 .pptx**。强制四层流程: 复刻背景图 + 绿幕抠出整体框架图 + 绿幕抠出元素图标/装饰 + GPT 视觉提取文字,再合成(文字是真文本框、框架图/图标是可移动图片;只有用户明确要求框架切分时才切成框架部件)。 Converts slide images back into an editable PPTX via background + skeleton + icons + text layers. 当用户要 "把 PPT 图片/截图转可编辑 PPTX、把图片PPT还原为可编辑PPT、抠图标、复刻背景、提取文字、还原排版"时使用。输入是图片,输出是可编辑 .pptx。 --- # GordenImage2PPTX — 图片 PPT → 可编辑 PPTX **一张一张处理**每张图片,强制拆成四层再合成可编辑 .pptx(从下到上)。其中前三个图片层必须由 imagegen 生成或提取,文字层由 GPT 视觉能力提取并写成真文本框: ``` 背景图(复刻) + 整体框架图(绿幕抠图,默认不切分) + 元素图标/装饰(绿幕抠图,切片) + 文字(GPT视觉提取) ``` > 🟣 **直接转换原则**:用户给出图片并要求转可编辑 PPTX 时,**不要先扫描当前目录、历史输出或其它项目,去寻找/复用类似源页**。直接把用户提供的当前图片作为唯一源图,按 B1-B9 流程提取背景图、框架图、元素图标和文字,建立新的 PPTX 文档。只有用户明确要求复用旧素材、续做某个历史输出、或指定已有源文件时,才读取对应历史文件。 > 🧱 **任务隔离原则(防串文件)**:每次转换开始前必须创建唯一任务根目录 `RUN_ROOT`,例如 `image2pptx_runs/<时间戳>_<源图slug>/`,并把本次所有中间产物、prompt、manifest、layout、预览、QA 和最终 PPTX 都写到该目录下。禁止把新任务直接写到工作区固定的 `editable/01`、`out/`、`qa/` 或 `slide-01/`,也禁止从这些固定路径读取素材。若目录已存在,必须换一个新目录,不得复用或覆盖。 > > `layout.json` 的图片路径必须在同一个 `RUN_ROOT` 内解析:单页 layout 优先**省略** `assets_dir`(让 `compose_pptx.py` 自动用 layout 所在目录),或写成绝对页目录;不得写 `"assets_dir": "editable/01"` 这类会受当前工作目录影响的相对路径。manifest 的 `copied_to` 也必须是 `RUN_ROOT` 内的绝对路径。 > 🟦 **框架图 = 一页里「背景、元素图标/装饰/艺术字、普通文本」之外的所有图像**:容器/卡片(含底色填充与标题条)、分隔/连接线、**全部图表图形(折线/柱状/阶梯/饼图/坐标网格/趋势线)**、缎带、装饰线条与色块——统统归框架图,一次性提取,且**形状·大小·位置与原图 1:1 一致**(别漏数据折线/装饰)。 > > 🟨 **艺术字 = 装饰元素,不是普通文本**:凡是带有渐变颜色、书法/笔刷造型、形变、描边/阴影/纹理、徽章式排版或普通字体无法直接写出的文字,都归入 B4 图标/装饰层,以图片元素提取和摆放。例如封面大字“灵芝”。B7 GPT 视觉文本层只处理普通字体可直接还原的文字。 > 🔴 **强制四层,缺一不可(核心铁律)**:**背景图 → 整体框架图 → 元素图标 → 文本**。这四步是本技能的本质,**任何一页都必须实打实地出"框架图(B3)"和"元素图标图(B4)"并绿幕抠图**,默认用整张透明 `frame.png` 作为框架视觉层合成;只有用户明确要求"框架可移动部件/切分框架/拆成一块块"时,才把框架图按透明区域切成 `frame_parts/` 后合成。 > **禁止的退化做法**:① 直接拿原图当背景叠文字(双重文字);② 用 PPT 原生 `shapes` / 色块 / 线条重画背景、卡片、标题条、图表、时间轴、装饰;③ 从原图裁切局部当作背景、框架或图标素材;④ 省略框架/图标;⑤ 用代码/PIL/SVG/HTML/Canvas 画出图片层。 > 背景图、框架图、元素图标图都必须来自 **imagegen 提取式生成**:背景用 imagegen 复刻干净背景;框架图用固定 B3 提示词在纯色抠图底上生成全幅框架层;图标/装饰用 imagegen 在纯色抠图底上生成图标表,图标表里不画网格分割线。`chroma_key.py` 只负责去底,`slice_grid.py` 只允许切分 **imagegen 生成并已去底的图标表**;若用户明确要求框架切分,才允许切分已去底的 `frame.png`。不得切原始幻灯片截图。 > **生成证据硬门禁**:B2/B3/B4 必须在 `imagegen-assets-manifest.json` 中记录真实 imagegen 调用证据:`backend` 必须是 imagegen 类后端,`generated_source` 必须指向或描述真实生成结果,`prompt_file` 必须指向本页使用的提示词文件,且 `copied_to` 必须是交付目录内对应图片。若 manifest 显示 `programmatic`、`local layer generator`、`PIL`、`SVG`、`HTML`、`Canvas`、`matplotlib`、`screenshot renderer`、`null prompt_file` 等非 imagegen 生成迹象,本页转换失败,必须重做,不能交付。 ## 图片层生成硬门禁 本技能中的“图片 → 可编辑 PPTX”不是用 PPT 色块重画页面。可编辑边界是: - 文字:写成可编辑文本框。 - 背景/框架/图标/装饰/图表图形:由 imagegen 生成为图片层;框架图默认以整张透明 `frame.png` 放入 PPT(可整体移动、替换、缩放),图标放入 PPT 后可移动、可替换、可缩放。只有用户明确要求框架切分时,才把框架图去底后按透明区域切成可移动框架部件。 禁止使用以下方式替代图片层: - 在 PPTX 中用原生 shapes、填充色块、线条、箭头、表格、图表组件重画背景/卡片/框架/图标/装饰/图表。 - 从原始幻灯片截图裁切局部作为背景、框架、车辆、图标或装饰素材。 - 用 Python/PIL、SVG、HTML、Canvas、matplotlib 或截图渲染生成背景/框架/图标图片。 - 先用原生 PPT 元素搭页面,再导出为图片层。 允许代码做的事仅限: - `probe_palette.py` 探色。 - 复制 imagegen 生成的图片到本次 `RUN_ROOT/editable/NN/`。 - `chroma_key.py` 给 imagegen 生成的框架图/图标图去底。 - `slice_grid.py --auto/--grid` 切分 imagegen 生成的图标表。 - 可选:仅当用户明确要求框架切分时,使用 `slice_grid.py --components` 按透明区域切分 imagegen 生成并去底后的 `frame.png`,再用 `frame_parts_to_icons.py` 生成 `icons[] role:"frame_part"`。 - 写 `layout.json` / `deck.json`,合成 PPTX 和预览。 - `layout_guard.py` 校验或修正 `layout.json` 的坐标契约:`ref_width/ref_height` 必须匹配源图实际像素尺寸,`source_bbox` 与 `x/y/w/h` 必须一致。 - `visual_compare_qa.py` 把源图和最终 PPTX 预览统一尺寸后生成并排图、叠图、差异热图和诊断指标,供 GPT 视觉判断文字/图标是否与原始 PPT 图片对位。 - 可选地裁切/缩放**整张 imagegen 生成图**以统一比例;不得裁原图局部冒充素材。 每页必须写 `imagegen-assets-manifest.json`,记录 B2/B3/B4 的 `generated_source`、`copied_to`、`layer`、`prompt_file`、`backend`、`key_color`。没有 manifest,或任一图片层缺 `generated_source` / `prompt_file`,或任一图片层的 `backend` 不是 imagegen,本页转换失败,不能交付。 完整流水线、提示词、坐标/字号换算、QA 反馈环见 **[`references/image-to-pptx.md`](references/image-to-pptx.md)**;运行时与图片后端见 **[`references/runtime-notes.md`](references/runtime-notes.md)**。 ## 运行时与图片后端(先读) 1. 出图(复刻背景、框架图、图标图)必须用 raster 图像生成后端:Codex 用内置 `imagegen` / imagegen(**支持把原图作为输入做"提取式"出图**);其它运行时用其原生出图工具。**禁止** SVG/HTML/Canvas/代码画图、PPT shapes、裁原图局部冒充。 2. 抠透明用本技能自带 **`scripts/chroma_key.py`(保色保线/保形)**——内部不透明像素颜色 100% 保留(红/藏青/灰/白绝不褪色),默认不腐蚀边缘(细线/辉光不丢);`frame-safe` / `icon-safe` 会增强半透明边缘 alpha,并只用二值 gap repair 修补细线断点,避免横竖线不齐、圆弧残缺。框架/图标默认加 `--scale 2` 先超采样抠图,再在 PPT 里缩回目标尺寸,让横竖线和圆弧更顺。**别用激进的 `--soft-matte --despill --edge-contract` 组合**去抠扁平图(会变色+丢线)。 3. 看图(文字/图标定位)必须用 GPT 自身视觉能力,输出结构化 JSON。不要先跑 tesseract、EasyOCR、系统 OCR 等传统 OCR 引擎。 ### imagegen 传图 / edit target 硬门禁 Codex 内置 `image_gen` 生成 B2/B3/B4 时,**必须先用 `view_image` 打开当前页源图**,让这张图成为当前对话里可见的 **edit target**,然后再调用 `image_gen`。Prompt 必须明确写“以刚刚显示的这张图片作为唯一编辑目标 / edit target,在它的基础上提取或擦除生成目标层”。**不要只把源图当作风格参考图**,更禁止只在 prompt 里写本地文件路径来冒充传图:路径文本不会自动把图片传给 imagegen,模型会凭描述猜,框架图和图标图会跑偏。 多页任务必须一页一页处理:生成第 1 页 B2/B3/B4 前只显示第 1 页源图;生成第 2 页前重新 `view_image` 第 2 页源图,并在 prompt 中指向“刚刚显示的这张图是本次编辑目标”。若 imagegen 产物无法证明基于当前 edit target 提取,或明显与源图不一致,本页 B2/B3/B4 判失败,必须重出,不能进入 B5-B9。 ## 每页工作流(逐项打勾) ``` - [ ] B0 隔离目录:为本次任务创建唯一 `RUN_ROOT`,所有文件只写入/读取该目录;不得复用工作区固定 `editable/01`、`out/`、`qa/` - [ ] B0a 传图:每页 B2/B3/B4 调 imagegen 前,必须先 `view_image` 当前页源图;prompt 写“以刚刚显示的这张图片作为唯一编辑目标 / edit target,在它的基础上提取或擦除生成目标层”;不得只写本地路径、不得只作为风格参考或凭文字描述猜图 - [ ] B1 探色:probe_palette.py 判断该页是否含绿 → 定本页抠图底色(默认 #00ff00;含绿改 #ff00ff 等) - [ ] B2 背景:用 imagegen 复刻干净背景(无任何文字/图标/框架/卡片/占位块),禁止用 PPT 色块、程序绘图或裁原图;写 prompt 文件并登记真实 imagegen 调用记录 - [ ] B3 框架图:用 imagegen 在抠图底色上提取框架图,生成图片提示词固定为“生成一张图片,提取这张图片中的框架图,纯色背景,背景色值为XXXXXX,「框架图」= 原图里**除背景/图标/装饰/艺术字/普通文本外的一切**(容器轮廓与**底色填充/标题条/辉光**、分隔/连接线、**全部图表图形:折线/柱状/阶梯/饼图/坐标网格/趋势线**、缎带/装饰)→ 形状·大小·位置与原图 **1:1 一致**,保留原色与填充,别漏数据折线/装饰、别自己额外加空心线框、占位框;不要出现文字、不要出现图标;”;只允许把 XXXXXX 替换为 B1 决定的背景色值(默认 #00ff00;原图有绿色则改 #ff00ff、#8000ff 等原图没有的颜色);写 prompt 文件并登记真实 imagegen 调用记录 - [ ] B4 图标图:先用 GPT 视觉对比**原图 vs B3 frame 预览**,列出「源图全部图标/装饰/艺术字清单」和「已误入 frame 的图标清单」;B4 prompt 只生成 frame 里没有的元素,避免同一图标在 frame 与 icons 双重出现;用 imagegen 把缺失元素排成 N×N 等分方格网(小图标 4×4,大装饰/物品图/艺术字 2×2 或单独大格),多了出多张;方格网不要画分割线,不画实线和虚线,提示词里要明确写出这一点;如果最终生成的图片不小心有了方格分割线也没关系,先抠图,然后裁剪掉分割线就好(因为每个网格有留白);禁止从原图裁图标、程序绘制图标或艺术字;写 prompt 文件并登记真实 imagegen 调用记录 - [ ] B5 抠图与图标切分:scripts/chroma_key.py 给 imagegen 生成的框架图+图标图去底(框架用 `--preset frame-safe`,图标/艺术字用 `--preset icon-safe` 保边)→ 默认保留整张透明 `frame.png`,不做框架切分;图标表用 `slice_grid.py --auto --pad 24 --contact-sheet` 按透明空隙切成单个透明图标 → 查看 `icons_contact_sheet.png`、`frame.png` 灰底自检;任一图标被切断、粘连、缺边、edge_touch 异常,必须重出或重切,不能交付。若用户明确要求框架切分,再运行 `slice_grid.py --components --pad 0 --contact-sheet --prefix fp` 把 `frame.png` 切成 `frame_parts/` - [ ] B6 定位:默认最终 `layout.json` 使用整张 `frame.png` 作为框架视觉层:写 `"frame":"frame.png"`,不要把框架切成 `frame_parts`。再逐个量出每个普通图标/艺术字在**源图实际像素坐标系**里的 `x/y/w/h` bbox,并换算成比例写入:`x=x_px/ref_width`、`y=y_px/ref_height`、`w=w_px/ref_width`、`h=h_px/ref_height`(manifest 只有素材表尺寸,必须补原图实测坐标;保持宽高比、尺寸贴合原图)→ `layout.json` 默认用 `units:"fraction"`;`view_image`/浏览器/预览图显示的缩略坐标不能直接写入,必须按 `源图宽/显示宽` 与 `源图高/显示高` 分别换回源图像素;禁止只把 x 放大、y 不放大这类混合坐标。首次合成后必须按预览反向校准普通图标尺寸/位置,缩放一律以源图 bbox 中心点为锚点,禁止按切片素材尺寸或视觉感觉直接摆放。若用户明确要求框架切分,才运行 `frame_parts_to_icons.py` 读取 `frame_parts/icons_manifest.json`,按每个框架切片在 `frame.png` 中的 bbox 映射成比例坐标,生成 `icons[] role:"frame_part"` 条目;这个 bbox 回放是拼回原 `frame.png` 布局的保证 - [ ] B7 文字:用 GPT 视觉读取原图所有**普通字体文字**(内容/像素位置/字号/颜色/粗细/对齐) → 先量**源图实际像素 bbox**,再按比例写入 layout:`x/y/w/h` 用 fraction,字号优先用 `size_ratio = 源图实际文字高度像素 / ref_height`(或 `size_pct = size_ratio*100`),如果用户或源 PPT 期望 PowerPoint 号数字号,也可以直接写 `size` 绝对 pt;不要把缩略图上的文字高度当作源图 `size_px`。换算公式是 `pt = size_ratio × (slide_height_in×72) = size_px × (slide_height_in×72) / ref_height`,反推为 `size_px = 目标pt × ref_height / (slide_height_in×72)`。如果坐标来自 2048×1143 这类缩略显示,而源图是 4096×2286,必须先把 `x/y/w/h/source_bbox/size_px` 全部乘以 2 后再写入;例如 7.441in 高、2286px 源图中,20px 只会得到 4.69pt,9pt 应写约 38.4px。艺术字只记录为 B4 图标/装饰定位,不写入普通文本框;首次预览后必须对照源图微调文本框比例、字号比例和行距,确保换行、基线和相对图标位置还原原图。**先定字体粗细/字号/行距,再回校位置**:`bold` 默认 `false`,普通正文不要全加粗,只有各级标题、按钮标题、重点词按原图加粗;多行正文段落优先用约 `line_spacing:1.2`,否则后续改粗细/行距会改变换行和视觉 bbox,让已量好的坐标再次漂移。 - [ ] B7a 坐标与样式契约校验:合成前必须运行 `layout_guard.py 源图 layout.json --strict`。`ref_width/ref_height` 必须等于源图实际像素尺寸;`source_bbox` 必须覆盖源图中真实对象,而不是覆盖 `view_image` 缩略坐标位置。若量测来自同宽高比缩略图,先把 bbox 与 `size_px` 缩放回源图像素,或用 `--fix-ref-to-source --fix-fractions --in-place` 归一化,再重新人工复查关键文本和图标。`layout_guard --strict` 还会拦截疑似半分辨率字号(默认低于 6pt、或 `source_bbox` 行高明显大于 `size_px`)和“正文全加粗”(6 个以上文本框超过 85% bold);真实小字必须显式写 `small_text_ok:true`,真实全粗体页必须写 `allow_all_bold_text:true` 并在 QA 备注说明。`layout_guard` 不用页面覆盖高度判错;任何 `source_bbox` 与 `x/y/w/h` 不一致、字号/粗细警告未处理,都不能进入 B8。 - [ ] B7b 源图 bbox 视觉复核:合成前先运行 `placement_qa.py` 只画源图框并打开 `slide_01_source_boxes.png`,确认每个文本/图标框真实圈住源图对象。`layout_guard` 只能发现坐标字段不一致,不能发现“bbox 一致但量错对象/量到错误行”的问题;发现错框必须先改 `source_bbox`,再让 `x/y/w/h` 由 bbox 换算。 - [ ] B7c 框架锚点回校:B7a/B7b 通过后,必须再看**最终合成预览中的 `frame.png`**,对贴在框架上的文本做二次校准:分区标题条、面板标题、按钮文字、底部总结条、页脚/横幅、步骤标签等,不只按源图 bbox 放置,还要按生成后的 `frame.png` 标题条/按钮/底栏的视觉中心线或内边距回校。若 `frame.png` 相对源图有轻微漂移,文本应跟随最终 frame 锚点移动;`layout_guard` 通过不代表这些文本已经视觉对位。记录每个被调整文本的 `frame_anchor`(如 `left_panel_title_bar`、`bottom_summary_bar`)、`dy_px` 和原因到 QA 笔记或 layout 旁文件。 - [ ] B8 合成:compose_pptx.py 生成 .pptx,并 --preview-dir 出预览图 - [ ] B9 QA:检查 `imagegen-assets-manifest.json` 中 B2/B3/B4 是否都有 imagegen 后端、生成源、prompt 文件、交付复制路径,且没有 programmatic/local/PIL/SVG/HTML/Canvas/matplotlib 等违规来源;检查 `frame.png` 叠背景后完整对位、线条/圆弧/填充干净,检查 `icons_contact_sheet.png` 无缺边;运行 `visual_compare_qa.py 源图 最终预览 --out-dir ...`,打开 `side_by_side.png`、`blend.png`、`diff_heatmap.png`,用 GPT 视觉对比源图与最终预览,逐项核对:图标无缺失、无重复叠影、无被切断、位置/大小贴合、文字可读;再用 placement_qa.py 在源图和预览图上画 bbox → 至少执行一轮 `layout.json` 回校(先修图标中心点/尺寸,再修文字框/字号/行距,最后修贴框文本的 frame_anchor 偏移)→ 对比整页预览;图标明显偏小/偏大、压字、离源位置漂移,或文字换行/位置不贴合,都不得交付 ``` > 叠放顺序(从下到上):背景 → 整体框架图(`frame`) → 元素图标(`icons`) → 文字(`texts`)。如果用户明确要求框架切分,则顺序为:背景 → 框架部件(`icons[]` 中 `role:"frame_part"`) → 元素图标(`icons`) → 文字(`texts`)。默认不使用 `shapes`;除非用户明确要求原生形状重建,否则 `shapes` 不得承载任何视觉内容。 ## 关键命令 ```bash # B0 本次任务隔离目录( 用源图名或用户任务名的安全短名) mkdir -p "$PWD/image2pptx_runs" export RUN_ROOT="$(mktemp -d "$PWD/image2pptx_runs/$(date +%Y%m%d-%H%M%S)__XXXXXX")" mkdir -p "$RUN_ROOT/editable/01/icons" "$RUN_ROOT/editable/01/prompts" "$RUN_ROOT/out/preview" # B1 探色(含绿则推荐改非绿底色) python3 scripts/probe_palette.py "$RUN_ROOT/editable/01/slide-01.png" # B5 去底(框架图 + 图标图都去底,保色保线)→ 默认保留整张 frame.png + 图标切片 → 合到灰底自检 python3 scripts/chroma_key.py --input "$RUN_ROOT/editable/01/frame_raw.png" --out "$RUN_ROOT/editable/01/frame.png" --preset frame-safe --scale 2 --force python3 scripts/chroma_key.py --input "$RUN_ROOT/editable/01/icons_raw_1.png" --out "$RUN_ROOT/editable/01/icons_t_1.png" --preset icon-safe --scale 2 --force python3 scripts/slice_grid.py "$RUN_ROOT/editable/01/icons_t_1.png" "$RUN_ROOT/editable/01/icons" --auto --pad 24 --contact-sheet --prefix ic # 非绿底:--auto-key none --key-color "#ff00ff";只有严格等分且元素居中时才用 --grid 4x4 # 可选:仅当用户明确要求框架切分/框架部件可移动时执行 mkdir -p "$RUN_ROOT/editable/01/frame_parts" python3 scripts/slice_grid.py "$RUN_ROOT/editable/01/frame.png" "$RUN_ROOT/editable/01/frame_parts" --components --pad 0 --contact-sheet --prefix fp python3 scripts/frame_parts_to_icons.py "$RUN_ROOT/editable/01/frame_parts/icons_manifest.json" --ref-width <源图宽px> --ref-height <源图高px> --out "$RUN_ROOT/editable/01/frame_parts/frame_parts_layout_icons.json" # B8 合成 + 预览 + 摆放 QA python3 scripts/layout_guard.py "$RUN_ROOT/editable/01/slide-01.png" "$RUN_ROOT/editable/01/layout.json" --strict python3 scripts/placement_qa.py "$RUN_ROOT/editable/01/slide-01.png" "$RUN_ROOT/editable/01/layout.json" --slide-index 1 --out-dir "$RUN_ROOT/editable/01/qa-source-boxes" python3 scripts/compose_pptx.py "$RUN_ROOT/editable/01/layout.json" "$RUN_ROOT/out/.pptx" --preview-dir "$RUN_ROOT/out/preview" python3 scripts/placement_qa.py "$RUN_ROOT/editable/01/slide-01.png" "$RUN_ROOT/editable/01/layout.json" --slide-index 1 --preview "$RUN_ROOT/out/preview/slide_01.png" --out-dir "$RUN_ROOT/editable/01/qa-placement" python3 scripts/visual_compare_qa.py "$RUN_ROOT/editable/01/slide-01.png" "$RUN_ROOT/out/preview/slide_01.png" --out-dir "$RUN_ROOT/editable/01/qa-visual" ``` 要点: - **目录隔离**:每次转换必须先建唯一 `RUN_ROOT`,所有 `background.png`、`frame_raw.png`、`frame.png`、可选的 `frame_parts/`、`icons_raw_*.png`、`layout.json`、`imagegen-assets-manifest.json`、预览图和最终 PPTX 都在 `RUN_ROOT` 下;不要读写工作区固定同名目录。 - **imagegen 必须传图且作为 edit target**:每页每次生成 B2/B3/B4 之前,先 `view_image` 当前源图,让源图成为 imagegen 可用的可见编辑目标;prompt 中写“以刚刚显示的这张图片作为唯一编辑目标 / edit target,在它的基础上提取或擦除生成目标层”。不要只写 `/path/to/slide.png`,本地路径文本不是传图;也不要只把源图当作风格参考。 - **抠图底色**:默认纯绿 `#00ff00`;B1 报告含绿则改非绿(如品红 `#ff00ff`),B3/B4 出图底色与 B5 `--key-color` 同步。 - **图片层来源**:`background.png`、`frame_raw.png`、`icons_raw_*.png` 必须是 imagegen 生成图;不得来自 PPT 色块绘制、代码绘图或原图局部裁切。 - **不做历史源页搜索**:除非用户明确要求复用旧文件,否则不要为了转换图片而扫描当前目录或历史 `outputs/` 寻找相似源页;直接处理用户给出的当前图片。 - **B3 提示词固定**:框架图生成 prompt 固定为“生成一张图片,提取这张图片中的框架图,纯色背景,背景色值为XXXXXX,「框架图」= 原图里**除背景/图标/装饰/艺术字/普通文本外的一切**(容器轮廓与**底色填充/标题条/辉光**、分隔/连接线、**全部图表图形:折线/柱状/阶梯/饼图/坐标网格/趋势线**、缎带/装饰)→ 形状·大小·位置与原图 **1:1 一致**,保留原色与填充,别漏数据折线/装饰、别自己额外加空心线框、占位框;不要出现文字、不要出现图标;”。只替换 XXXXXX 为 B1 选出的背景色值。 - **框架图保真与默认整图**:框架图 = 除背景/图标/装饰/艺术字/普通文本外的一切(含**全部图表图形与装饰**),连同卡片**底色填充/标题条/辉光/渐变**一起提取——抠出的框架合到背景上应≈原图去掉普通文本、图标和艺术字,且与原图 **1:1 一致**。别漏标题下短线、卡片顶部色条、下划线、**数据折线/阶梯/饼图**、坐标轴/网格线、缎带装饰。**不能额外添加原图没有的占位框、线框**。去底后的 `frame.png` 默认作为整体框架视觉层放入 PPT;只有用户明确要求框架切分时,才按透明连通区域切成 `frame_parts/` 并以 `icons[] role:"frame_part"` 放入 PPT。 - **图标生成前先去重**:B3 之后必须看 `frame.png` 叠背景的预览,列出已经出现在 frame 的图标/装饰;B4 只生成 frame 中没有的元素。若某元素已经在 frame 里且位置正确,就不要再放进 `icons[]`,否则会出现重叠双影。 - **图标/艺术字切片保边**:一张图里生成多个图标可以保留,但必须留足空隙;切片优先 `slice_grid.py --auto --pad 24 --contact-sheet`,固定网格只在元素严格居中时用。必须查看 `icons_contact_sheet.png`:任一图标缺角、缺边、被裁半截、或 manifest 里任一 `edge_touch` 为 true,说明边框可能被切坏,必须重出图标表(加大格子/留白/拆成多张)或重切,不能交付。 - **图标缺失硬门禁**:最终预览必须和源图并排做视觉核对,源图中每个普通图标/装饰/艺术字必须满足二选一:已在 `frame` 中正确出现,或已在 `icons[]` 中正确摆放。不能因为图标层偏移、遮挡或难切就从最终 layout 删除图标后交付。 - **坐标契约硬门禁**:`ref_width/ref_height` 必须写源图实际像素尺寸;`source_bbox` 也必须是同一源图像素坐标。`view_image`、浏览器截图、PPT 预览 PNG 常常是缩略图,不是源图坐标系;若在缩略图上量到坐标,必须按 `scale_x=源图宽/缩略图宽`、`scale_y=源图高/缩略图高` 分别换回源图像素,并同步缩放 `size_px`。禁止把 2048px 预览坐标和 4096px 源图尺寸混用,尤其禁止 x 已按源图估、y 仍停留在缩略图高度,结果会让文字/图标全部挤到 PPTX 上半部分。`layout_guard.py --strict` 不负责判断视觉对位,视觉对位必须看最终合成预览与源图。 - **源图框视觉硬门禁**:`layout_guard` 通过只表示 bbox 与 fraction 数学一致,不表示 bbox 量对了对象。合成前必须打开 `qa-source-boxes/slide_01_source_boxes.png`,逐项确认文本/图标框覆盖源图真实位置;像“关键动作”这种文本框若圈到上方流程区而非底部按钮,即使 guard 通过也必须重测。 - **框架锚点回校硬门禁**:`source_bbox` 对了仍可能错位,因为 B3 的 `frame.png` 是 imagegen 生成层,标题条、按钮、底栏可能相对源图有轻微纵向/横向漂移。凡是贴在框架上的文本(分区标题、按钮文字、底栏总结、页脚横幅、卡片标题)必须在最终预览里按 `frame.png` 的视觉锚点再次回校:以标题条/按钮/底栏的中心线、内边距或框内留白为准,必要时整体下移/上移几个到几十个源图像素,并记录 `frame_anchor` 与 `dx/dy_px`。这一步在 `layout_guard --strict` 之后执行。 - **摆放坐标精度**:默认用比例坐标。先在源图上量 `x/y/w/h` 像素 bbox,再按 `x/ref_width`、`y/ref_height`、`w/ref_width`、`h/ref_height` 写入 `layout.json`,并设置 `units:"fraction"`。保留 `source_bbox:[x_px,y_px,w_px,h_px]` 方便 QA。 - **图标/艺术字尺寸定位**:**对照原图逐个量出 `x/y/w/h` 像素 bbox,再换算成比例写进 layout.json**(manifest 只有素材表尺寸,没有原图位置;用宽高比定 h、别给方形);摆放后必须跑 `placement_qa.py`,在源图和预览图上看 bbox 是否压准,不能只看最终 PPT 预览。 - **图标预览回校硬门禁**:首次预览后必须逐个图标检查“预览视觉 bbox vs 源图视觉 bbox”。若偏小/偏大,按中心点锚定调整:`new_x = cx - new_w/2`、`new_y = cy - new_h/2`;不得只改 `w/h` 导致图标漂移,也不得按切片素材原始尺寸直接摆。图标与文字重叠时,优先恢复源图相对位置;若源图无重叠而预览重叠,必须改图标或文字 bbox 后重跑 B8/B9。 - **最终视觉对位硬门禁**:必须打开 `qa-visual/side_by_side.png`、`qa-visual/blend.png`、`qa-visual/diff_heatmap.png`,用 GPT 视觉判断合成 PPTX 预览里的文字和图标是否与原始 PPT 图片对应。页面内容只在上半页、下半页或局部区域都可以;判断标准是源图中对应对象的位置/大小/相对关系是否一致,而不是元素覆盖了页面多少高度。 - **生成证据**:每页必须包含 `imagegen-assets-manifest.json`,记录背景、框架图、图标表的真实 imagegen 生成源路径、后端和 prompt 文件;缺失、`prompt_file:null`、或显示程序生成来源即不合格。 - **文字抽取**:用 GPT 视觉直接看原图,按 `texts[]` JSON schema 输出逐段文本和像素位置样式;禁止把外部 OCR 输出当最终文本结果。长文本框 bbox 要覆盖原文字整块,不要用视觉中心点估算。 - **文字位置回校**:最终预览里的文本必须与源图的文本块左/中/右边界、首行基线、换行节奏和相邻图标间距一致。若可编辑字体与源图手写字体宽度不同,优先微调 `w/h` 比例、`size_ratio/size_pct`、`line_spacing` 和 `align`,不要为了避开错位把图标删除或缩小到不符合源图。文字回校顺序固定为:先定 `bold` / 字号 / `line_spacing`,再修 bbox;否则全粗体或行距变化会改变字宽、换行和视觉高度,导致刚校准过的位置再次漂移。 - **坐标/字号**:layout.json 推荐 `units:"fraction"`;字号推荐 `size_ratio = 源图实际文字高度像素 / ref_height`,compose 时换算为 `pt = size_ratio × (页高in×72)`。旧字段 `size_px`/`size` 仍兼容,但 `size_px` 必须是源图实际像素,不是 2048px 预览测量值;若需要正常 PowerPoint 号数,直接写 `size` 绝对 pt 更稳。反推公式:`size_px = 目标pt × ref_height / (页高in×72)`。 - **文字粗细硬门禁**:`bold` 默认 `false`;不得为了“更像截图”把所有 `texts[]` 都设成 `bold:true`。只有标题、按钮标题、重点数字/关键词按原图加粗;普通正文和说明段默认常规字重。`layout_guard --strict` 会对疑似全粗体正文报错,除非原图确实全粗体并显式写 `allow_all_bold_text:true`。 - 多页:把每页 `slides[]` 汇进一个 deck.json 一次合成整本。 - 交付:最终答复必须给出可点击的最终 `.pptx` 绝对路径;若另存了便捷副本,也同时给出 RUN_ROOT 内原始输出路径和副本路径。 ## 脚本与依赖 | 脚本 | 干嘛 | |---|---| | `scripts/probe_palette.py` | 探测某页是否含绿,推荐安全抠图底色 | | `scripts/chroma_key.py` | **保色保线/保形**抠图:绿幕(或指定底色)变透明,不褪色;预设会增强抗锯齿边缘并修补细小 alpha 断点,配合 `--scale 2` 超采样,避免横竖线和圆弧被抠毛 | | `scripts/slice_grid.py` | `--grid N×N` 或 `--auto` 把透明图标表切成单个图标;可选 `--components` 按透明连通区域把框架图切成可移动框架部件;产出 manifest | | `scripts/frame_parts_to_icons.py` | 可选框架切分辅助:把 `frame_parts/icons_manifest.json` 的 bbox 映射到源图坐标,生成可直接并入 `layout.icons[]` 的 `role:"frame_part"` 条目,保证框架部件按原 `frame.png` 布局拼回 | | `scripts/layout_guard.py` | 合成前校验坐标契约:源图实际尺寸、`ref_width/ref_height`、`source_bbox`、`x/y/w/h` 是否一致;可把同宽高比缩略图坐标归一化回源图像素;不做页面覆盖高度启发式判断 | | `scripts/placement_qa.py` | 把 layout 的图标/文本 bbox 画回源图和预览图,生成摆放 QA 标注图与源/预览叠图 | | `scripts/visual_compare_qa.py` | 把源图和最终 PPTX 预览统一尺寸后输出并排图、叠图、差异热图和诊断指标,用于 GPT 视觉核对文字/图标是否真正对位 | | `scripts/compose_pptx.py` | 把 背景+整体框架图(frame)+图标(icons)+文字(texts) 按 layout/deck.json 合成可编辑 .pptx,`--preview-dir` 出预览;用户要求框架切分时也支持 frame_parts;默认不使用 shapes 承载视觉内容 | - 依赖:`python3` + `python-pptx`、`Pillow`、`numpy`(缺就 `pip3 install python-pptx pillow numpy`)。 - 输入若是"图片型 PPT",通常由 **GordenImagePPTGen** 产出;要一键"先出图再转可编辑" → 用 **GordenSuperPPTSkill**。