ArticleMetadataMain page

source · 2026-04-17

D²iT(CVPR 2025):用于高精度图像生成的动态扩散 Transformer

D²iT(CVPR 2025):用于高精度图像生成的动态扩散 Transformer

会议:CVPR 2025
发表日期:2025-06-11
资料加入日期:2026-04-12
深分析稿:raw/ingest/2026-04-12-d2it/analysis

一句话结论

D²iT 证明了标准 DiT 的固定压缩是一个真实瓶颈:只有把空间预算分配推进到 latent 表示层和多粒度噪声建模层,才能同时兼顾局部真实感、全局一致性和效率。

论文定位

这篇论文是 DiT 主干内部精修路线的代表作。它不做统一任务扩张,而是直接改造生成主干内部的粒度分配逻辑。

问题定义

作者指出标准 DiT 的核心局限是固定压缩:

  • 重要区域表达不足会损伤局部真实感。
  • 全局统一高密度表示又会显著推高计算成本,并影响整体效率和一致性。

它要解决的是“不同区域不该被一视同仁地压缩和建模”。

方法概述

D²iT 包含两阶段设计:

  1. Dynamic VAE(DVAE)
  2. 通过 Dynamic Grain Coding 和 hierarchical encoder,对不同图像区域采用不同 downsampling rates,得到多粒度 latent 表示。

  1. Dynamic Diffusion Transformer(D²iT)
  2. 由 Dynamic Grain Transformer 和 Dynamic Content Transformer 组成:前者预测 grain map,后者按 grain map 做多粒度噪声建模与内容生成。

关键发现

  • 生成质量问题被推进到了 latent 表示与空间预算分配层。
  • grain map 预测是让动态粒度真正可训练、可推理的关键。
  • D²iT 的核心不只是“哪里更细”,而是“粗粒度全局预测 + 细粒度局部修正”的联合机制。
  • 这篇论文把 DiT 路线从统一 patch 粒度推进到动态区域粒度。

关键图示

两阶段总体框架

!900

这一页同时展示 Stage 1 的 DVAE 和 Stage 2 的 D²iT,并展开 Dynamic Grain Transformer 与 Dynamic Content Transformer 的关系,是理解论文的核心主图。

主结果与 grain ratio 分析

!900

这一页同时给出 ImageNet 主结果、grain map 可视化和 grain ratio 分析,是说明 D²iT 既有效又合理的关键证据页。

消融与训练收敛

!900

这一页集中展示模块消融、RefineNet 层数影响、Dynamic Grain Transformer 效果和训练收敛对比,是理解论文内部证据链的最佳页面。

核心实验与结果

  • D²iT 在 FFHQ 与 ImageNet 等生成任务上展现出很强竞争力。
  • grain map 定性可视化表明模型会优先把细粒度预算分给结构复杂区域。
  • grain ratio 分析说明动态粒度存在合理最优区间,而不是越细越好。
  • 消融表明 DVAE、routing、grain prediction 和 refinement 都在共同贡献性能。

局限或疑问

  • 这条路线主要服务生成主干本身,并不直接扩张到统一生成-编辑系统。
  • 工程复杂度高于更简单的 DiT baseline。
  • 它在部署和跨任务迁移上的外溢价值,仍需更多后续证据。

对当前 wiki 判断的影响

相关页面

原始链接

  • https://openaccess.thecvf.com/content/CVPR2025/html/Jia_D2iT_Dynamic_Diffusion_Transformer_for_Accurate_Image_Generation_CVPR_2025_paper.html
  • https://openaccess.thecvf.com/content/CVPR2025/papers/Jia_D2iT_Dynamic_Diffusion_Transformer_for_Accurate_Image_Generation_CVPR_2025_paper.pdf