ArticleMetadataMain page

source · 2026-04-16

DLT(ICCV 2023):把 layout generation 做成离散-连续联合 diffusion

DLT(ICCV 2023):把 layout generation 做成离散-连续联合 diffusion

会议:ICCV 2023
发表日期:2023/03/07
资料加入日期:2026-04-16

一句话结论

这篇工作把布局控制本身变成 diffusion 的一个正式建模对象:它同时处理离散类别和连续位置/尺寸,让用户可以对任意属性子集做条件布局生成。

问题定义

真实世界布局生成既有离散变量,如组件类别,也有连续变量,如位置与尺寸。扩散模型虽然强,但如何自然处理这种混合表示,并支持交互式部分条件控制,一直不清楚。

方法概述

DLT 提出 Joint Discrete-Continuous Diffusion Layout Transformer,用 transformer backbone 同时建模类别、位置和尺寸,并通过灵活 conditioning 机制支持对任意属性子集做条件布局生成。

关键发现

  • 它把 batch-f 从“图像里的 controllability”推进到“布局本身的 controllability”,说明 composition 并不只是最终渲染阶段的问题。
  • DLT 和 sources/2026-04-14-layoutdiffusion 形成一组很有价值的 layout evidence:一个做 layout-to-image,一个做 conditioned layout generation。
  • 它说明 diffusion 的控制接口可以前移到更抽象的中间表示层,而不是只在像素生成阶段施加约束。
  • 在本库里,这篇工作帮助我们把 guidance / layout composition 看成同一条更长的控制链。

局限或疑问

  • 它更偏布局生成建模,不直接回答最终图像质量与真实感问题。
  • 与直接对图像采样施加控制的方法相比,它需要一条更长的中间表示链路。
  • 当前价值更多在方法谱系定位:说明 controllability 还在持续往抽象结构层前移。

原始链接

  • https://arxiv.org/abs/2303.03755
  • https://arxiv.org/pdf/2303.03755.pdf

相关页面

备注

它在本库中的价值,是把 control / layout composition 这条长尾从“prompt 可以控制一点生成”推进到“attention、语义覆盖、布局建模和多路径组合都能成为独立接口设计问题”。