Seikai in Void

Back

Paper Reading--Multi-layout image generation and editingBlur image

几个评价指标#

图形设计的要求相比普通2D生成多了一些在美观和可编辑性方便的要求,有这几个比较常用的指标:

  • GPT-4V:用gpt在几个维度指标方面打分,例如layout(空间布局是否合理),compliance(设计是否符合用户的prompt),color(颜色整体有无违和感),Graphic Style(元素图形的美观性)

  • 人工打分。

CreatiPoster#

图形设计的几个要求:

  • 文本准确性。
  • 资产保真性,最终生成的图形设计中用到的元素必须和用户所提供的assets保持一致。
  • 可编辑性,如果用户想要替换其中的元素或者仅仅修改文字,必须要方便修改。
  • 美观,设计要符合审美。

于是CreatiPoster将生成任务分散到了两个模型上,一个Protocol model和一个background model,前者负责接收用户的assets和prompt,然后对每个layout(一个text或者image算一个layout)生成详细的json描述属性:大小,位置,字体等等,同时还可以给出每个layout所想要的背景的简洁需求。接着将所有json文件送入引擎比如Skia等就可以渲染得到foreground文件,最后将foreground和promt送入background model就能得到所需的背景,background + foreground拼接就可以得到完整的图形设计。

总体来看: 系统工作流程 第一阶段 - 协议生成: 用户输入 → 协议模型 → JSON协议规范

第二阶段 - 前景渲染: JSON协议 → Skia等渲染引擎 → 完全可编辑的前景图层

第三阶段 - 背景生成: 前景图像 + 背景提示 → 背景模型 → 匹配的背景图像

第四阶段 - 最终合成: 前景 + 背景 → 完整的多层图形设计

前景模型(FM)训练时采用了两种范式,prompt-only和prompt-assets两种,前者提供描述即可,由引擎渲染出前景,送入BM即可得到背景;后者会先捕捉资产特征,然后在渲染的时候注意指定assetes的摆放位置以及其他特征。

arxiv

CreatiDesign#

Paper Reading--Multi-layout image generation and editing
https://astro-pure.js.org/blog/paper-reading-multi-layout
Author Void / 无我
Published at June 29, 2025
Comment seems to stuck. Try to refresh?✨