DLT：以联合离散—连续 Transformer diffusion 做属性级布局生成

一句话结论

DLT 用同一个 4 层 Transformer encoder 联合去噪离散类别与连续 boxes，并在训练中显式标记任意 class/size/location 条件子集；它在 RICO、PubLayNet、Magazine 多数布局指标上领先，但输出只是结构化 layout，不渲染图像，100-step 推理也不是 image DiT 或通用扩散加速证据。

问题定义

graphic layout 同时含离散类别与连续位置/尺寸。把几何量化成 token 会损失精度；只在推理期覆盖已知属性，又不能让模型区分固定条件和待生成属性。DLT 将两种随机过程联合训练，并引入属性级 condition embedding。

方法概述

boxes $\bar x_0\in\mathbb R^{N\times4}$ 使用 Gaussian diffusion，网络直接预测 clean coordinates。
classes $\bar y_0$ 使用 [MASK] absorbing discrete diffusion，网络预测 clean class logits。
联合目标：$L_{model}=5L_{box}+L_{cls}$；两个预测头都读取 noisy boxes/classes 与条件。
每个组件 embedding 拼接 position、size、class；每个属性若是条件，加入独立 binary condition embedding。
训练随机采样 category、category+size、unconditional，并只对未条件属性计算 loss。

Layout 条件接口

接口	已知输入	生成输出
category	所有组件类别	位置与尺寸
category+size	类别与尺寸	位置
unconditional	无	类别、位置、尺寸
任意属性子集	部分组件的 class/size/location	其余属性

输出不包含元素内容、字体、图标或页面像素；组件数量固定上限，实验排除 >10 components。

数据、训练与成本

数据集	样本	类别	划分/过滤
RICO	91K	27（保留 top 13）	85/5/10；≤10 elements
PubLayNet	330K	5	official split；≤10 elements
Magazine	4K	6	official split

Transformer encoder：4 layers、8 heads、hidden 512；线性 box/class heads。
cosine schedule；连续 100 steps，离散步数 $T/10$；$eta=0.15$。
训练时三种标准条件设置均匀采样；推理 100 steps。
未报告 GPU、参数量、训练 steps/epochs、wall-clock、显存或绝对延迟。
相对 LT/BLT/VTN：RICO/PubLayNet 推理约慢 2×，Magazine 约快 1.65×。

核心结果

数据/条件	DLT FID↓	最佳 baseline FID↓
PubLayNet category	10.3	VTN 22.1
PubLayNet category+size	11.4	VTN 17.9
PubLayNet unconditional	13.8	VTN 14.5
RICO category / category+size / unconditional	9.5 / 6.3 / 13.9	14.3 / 7.1 / 15.2
Magazine category / category+size / unconditional	26.2 / 21.7 / 40.9	37.6 / 27.3 / 42.6

DLT 在多数 FID、pIOU、Overlap、DocSim 上领先；Alignment 并非所有设置最佳。FID 来自布局分类网络 feature，不可与图像 Inception FID 横向比较。

关键消融

条件机制

PubLayNet category+size + 半数位置固定：仅推理期 editing / 无 condition embedding / 完整 DLT 的 FID 为 14.1 / 4.3 / 2.9；Overlap 为 16.6 / 5.3 / 4.5。该设置直接支持训练期 conditioning 与显式属性状态。

附录同时显示：当所有组件的条件状态一致时，condition embedding 影响很小；其主要价值在同一属性跨组件混合“固定/生成”时消除歧义。

联合过程

PubLayNet unconditional FID：class-before-box 50.8，box-before-class 20.5，joint 20.1；joint 推理约比串行快 2×。因此联合优势对第一种顺序很强，对第二种顺序只有小幅质量改善。

Backbone 证据边界

DLT 的 Transformer 是结构化 layout component denoiser：不处理 image patches，没有 VAE/VQGAN、U-Net 或 image decoder。它可支持“Transformer 用于 mixed-type layout diffusion”，但不能作为图像 DiT scaling、采用率或画质证据；论文引用 DiT 只是相关背景。

局限或疑问

作者明确指出没有建模组件内容，无法用内容语义解决布局歧义。
只测三类 graphic layout，没有真实用户工作流与下游渲染评估。
100-step sampling，绝对交互延迟未知。
过滤复杂页面，长度外推不足。
Magazine 只有 4K 样本。
没有参数量和训练成本，也没有与同期 LayoutDiffusion 的直接对照。

对当前 Wiki 判断的影响

直接支持：联合离散—连续 diffusion 与训练期属性状态 embedding 可实现细粒度 layout conditioning。
有限支持：joint process 相比串行更快且通常更好，优势依赖串行顺序。
不支持：最终图像生成、低延迟、无限长度 layout、image DiT 主干趋势。
与 efficiency engineering 的关系只限相对 runtime，不应作为通用加速证据。

原始链接

证据评级

A-：有界 graphic layout 属性级条件生成的强主证据；内容、复杂长度、绝对成本与 image generation 外推受限。

DLT以联合离散—连续 Transformer diffusion 做属性级布局生成

一句话结论

问题定义

方法概述

Layout 条件接口

数据、训练与成本

核心结果

关键消融

条件机制

联合过程

Backbone 证据边界

局限或疑问

对当前 Wiki 判断的影响

原始链接

相关页面

证据评级

被引用3

一句话结论

问题定义

方法概述

Layout 条件接口

数据、训练与成本

核心结果

关键消融

条件机制

联合过程

Backbone 证据边界

局限或疑问

对当前 Wiki 判断的影响

原始链接

相关页面

证据评级

关联页面

相关主题2

被引用3