DiT 与 Transformer 风格去噪器已成为主要可扩展生成主干之一

当前判断

有限支持 · 持续复核

DiT 的 scaling 与图像、视频侧改造已有直接证据；“整个生成领域的默认主干”仍需采用率统计和 DiT 专属工程证据。

4 / 1

支持证据 4

All Are Worth Words：把 ViT 直接变成扩散模型主干 Scalable Diffusion Models with Transformers：DiT 把 Transformer 真正坐实为可扩展扩散主干 D²iT：用于高精度图像生成的动态扩散 Transformer Tora：面向视频生成的轨迹导向扩散 Transformer

反证与边界 1

Diffusion Models Without Attention：不用注意力也能做高分辨率扩散

仍待验证

需要更多同规模、同预算、跨任务的受控比较，才能继续提升判断强度。

审计结论

Verdict：部分支持，中等置信。

当前证据支持把 DiT / Transformer 风格去噪器视为前沿图像与视频生成中的主要可扩展平台之一。现有样本尚未提供跨年份、venue、任务和代表模型的采用率统计，因此“整个生成领域的默认主干”仍属于待验证的趋势判断。

本页于 2026-07-10 按论文 PDF、全文文本和现有深分析重新核验。详细审计见 docs/evidence-audit/claim-semantic-audit-2026-07-10.md。

命题

U-ViT 与 DiT 分别提供了 Transformer 扩散主干的可行性和 ImageNet scaling 证据；D²iT 与 Tora 表明，后续图像和视频生成工作确实会在 DiT 底座上继续改造表示粒度与控制接口。这些材料共同支持“DiT 已成为重要可扩展主干之一”。

直接支持证据

Transformer 扩散主干的可行性与 scaling

sources/2026-04-15-all-are-worth-words 提出 U-ViT，以 ViT 替代 CNN U-Net，并报告具有竞争力的扩散生成表现。它支持 Transformer backbone 的可行性，没有单独证明后续采用率已经收敛。
sources/2026-04-15-scalable-diffusion-models-with-transformers 系统扩展 DiT 的深度、宽度和 token 数，在 ImageNet 类条件生成中观察到计算量增加与 FID 改善的稳定关系。它直接支持 scaling 子命题。

图像与视频侧的 DiT 直接改造

sources/2026-04-12-d2it 在标准 DiT 上加入 Dynamic Grain Transformer 与 Dynamic Content Transformer，是明确的 DiT 内部结构改造。
sources/2026-04-12-tora 以 OpenSora 的 Spatial-Temporal DiT 为基础模型，并向 DiT block 注入轨迹条件，是视频侧控制接口的直接证据。

混合与边界证据

sources/2026-04-12-lingen 把 vanilla DiT 作为参照框架，同时用双向 Mamba2 与 Temporal Swin Attention 替换标准自注意力。它说明 DiT 已经成为重要基线，也暴露了纯 attention DiT 在长视频中的二次复杂度边界。

有效反证

sources/2026-04-15-diffusion-models-without-attention 使用 state-space backbone 替代 attention，并直接与 DiT 比较计算扩展性。这说明可扩展 diffusion backbone 仍存在具有竞争力的替代路线。

通用 Diffusion 工程背景

以下工作证明 diffusion 范式已经形成成熟的加速、压缩与控制工程生态。它们的实验主干分别是 U-Net、ADM、Stable Diffusion 或 GLIDE，因此不计入 DiT 专属 evidence_for：

sources/2026-04-16-on-distillation-of-guided-diffusion-models — guidance distillation，teacher/student 使用 U-Net。
sources/2026-04-16-post-training-quantization-on-diffusion-models — PTQ 对象是 U-Net-like CNN。
sources/2026-04-16-towards-practical-plug-and-play-diffusion-models — 在 ADM 与 GLIDE 上研究外部 guidance。
sources/2026-04-16-self-guided-diffusion-models — 采用 traditional U-Net noise predictor。

2026-07-12 已完成以上四篇全文深分析。架构核验结果一致：生成去噪器分别是 U-Net、U-Net-like CNN、ADM/GLIDE 与 traditional U-Net/LDM；论文里出现的 ViT/DeiT/DINO 属于外部表征器或 guidance model。该批证据强化了“diffusion 工程生态成熟”这一背景判断，同时进一步确认它们不承担 DiT 主干趋势的直接证明责任。

新增四篇效率全文复核延续该边界：Optimized Time Steps 在 DiT-XL/2 与 PixArt-α 上证明 schedule 可迁移，但固定 backbone，不能比较主干；ACT 与 D-ODE 使用 DDPM/ADM/EDM U-Net；EDM2 将 U-Net 的 ImageNet-512 无 CFG FID 从 8.00 推到 2.56，并明确把 DiT/RIN 迁移列为未来工作。这组证据表明 U-Net 训练、sampling 与 solver 工程仍有强改善空间，也进一步要求 DiT-default claim 使用真实采用率和同预算主干对照。

Spatial/control wave 也不构成 DiT 证据：ControlNet、MultiDiffusion、DenseDiffusion 都直接操作 Stable Diffusion U-Net，DC-ControlNet 控制 SDXL U-Net；后者的 FLUX 只承担合成数据生成。它们显示 U-Net 生态在条件侧支、采样路径融合和 attention modulation 上仍成熟活跃。

Feature/guidance wave 延续同一边界：FreeU 明确依赖 U-Net decoder skip；DiffusionCLIP 微调整个 DDPM U-Net；GradOP+ 优化 LDM U-Net latent；PnP 注入 Stable Diffusion U-Net decoder/self-attention features。CLIP/DINO/Transformer 只承担监督、评测或内部表征，四篇均不证明 DiT adoption。

Inversion/editing P4 同样不构成 DiT 证据：Blended Diffusion 是 pixel U-Net DDPM，Diff-AE 训练 guided-diffusion U-Net，EDICT 重写 SD1.4 U-Net sampler，Imagic 在 Imagen/SD U-Net 上做 per-image adaptation。它们证明 U-Net editing/inversion 生态成熟，进一步要求 DiT-default claim 使用真实采用率。

P5 继续清理误关联：AIDI/Paint by Example/PTI 都在 diffusion U-Net 上验证；VIVE3D 是 EG3D/GAN；DynVideo-E 是 dynamic NeRF；Fairy/Video-P2P 才是 latent U-Net；Shape-aware 的 SD 只做 frozen guidance。出现 Transformer、NeRF 或 GAN 都不构成 image DiT adoption。

CoDi、CommonCanvas、LayoutDiffusion 也都是 U-Net 证据：CoDi 为每任务 LDM U-Net/ControlNet-style adapter 做 few-step distillation；CommonCanvas 的 Small/Large 分别是 SD2/SDXL-style U-Net；LayoutDiffusion 是 ADM-style pixel U-Net。其条件 encoder 或数据工程均不构成 DiT adoption。

P6 再加入四条边界：EPD-Solver 测试 EDM pixel models 与 LDM/Stable Diffusion U-Net；S-CFG 依赖 SD/IF U-Net cross/self-attention；CoDi 复制 LDM U-Net encoder 做 conditional distillation；WaveDiff 是 NCSN++/DDGAN-style U-Net。它们分别证明 solver parallelization、guidance governance、task adapter distillation 和 wavelet representation engineering，却都不进入 DiT evidence_for。尤其是论文里出现 CLIP ViT 评测器、attention map 或“scalable”措辞，都不能替代生成 denoiser 身份核验。

阶段性评估

最稳妥的当前判断是：DiT 的可扩展性和跨图像、视频的改造能力已有直接证据，它是主要生成主干之一；“默认主干”仍需要采用率统计和更多 DiT 专属工程证据。

要把该判断升级为高置信，需要补充：

跨年份与 venue 的 backbone 采用率统计；
代表性图像、视频生成模型的主干清单；
DiT / MM-DiT / ST-DiT 上直接验证的蒸馏、量化、缓存和控制工程；
与 SSM、CNN/U-Net 和混合架构在统一预算下的比较。

DiT 与 Transformer 风格去噪器已成为主要可扩展生成主干之一

支持证据 4

反证与边界 1

审计结论

命题

直接支持证据

Transformer 扩散主干的可行性与 scaling

图像与视频侧的 DiT 直接改造

混合与边界证据

有效反证

通用 Diffusion 工程背景

阶段性评估

相关页面

被引用11

支持证据 4

反证与边界 1

审计结论

命题

直接支持证据

Transformer 扩散主干的可行性与 scaling

图像与视频侧的 DiT 直接改造

混合与边界证据

有效反证

通用 Diffusion 工程背景

阶段性评估

相关页面

关联页面

支持证据4

反对证据1

相关主题3

相关实体1

被引用11