D²iT：用于高精度图像生成的动态扩散 Transformer

一句话结论

D²iT 证明了标准 DiT 的固定压缩是一个真实瓶颈：只有把空间预算分配推进到 latent 表示层和多粒度噪声建模层，才能同时兼顾局部真实感、全局一致性和效率。

论文定位

这篇论文是 DiT 主干内部精修路线的代表作。它不做统一任务扩张，而是直接改造生成主干内部的粒度分配逻辑。

问题定义

作者指出标准 DiT 的核心局限是固定压缩：

重要区域表达不足会损伤局部真实感。
全局统一高密度表示又会显著推高计算成本，并影响整体效率和一致性。

它要解决的是“不同区域不该被一视同仁地压缩和建模”。

方法概述

D²iT 包含两阶段设计：

Dynamic VAE（DVAE）

通过 Dynamic Grain Coding 和 hierarchical encoder，对不同图像区域采用不同 downsampling rates，得到多粒度 latent 表示。

Dynamic Diffusion Transformer（D²iT）

由 Dynamic Grain Transformer 和 Dynamic Content Transformer 组成：前者预测 grain map，后者按 grain map 做多粒度噪声建模与内容生成。

关键发现

生成质量问题被推进到了 latent 表示与空间预算分配层。
grain map 预测是让动态粒度真正可训练、可推理的关键。
D²iT 的核心不只是“哪里更细”，而是“粗粒度全局预测 + 细粒度局部修正”的联合机制。
这篇论文把 DiT 路线从统一 patch 粒度推进到动态区域粒度。

关键图示

两阶段总体框架

!900

这一页同时展示 Stage 1 的 DVAE 和 Stage 2 的 D²iT，并展开 Dynamic Grain Transformer 与 Dynamic Content Transformer 的关系，是理解论文的核心主图。

主结果与 grain ratio 分析

!900

这一页同时给出 ImageNet 主结果、grain map 可视化和 grain ratio 分析，是说明 D²iT 既有效又合理的关键证据页。

消融与训练收敛

!900

这一页集中展示模块消融、RefineNet 层数影响、Dynamic Grain Transformer 效果和训练收敛对比，是理解论文内部证据链的最佳页面。

核心实验与结果

D²iT 在 FFHQ 与 ImageNet 等生成任务上展现出很强竞争力。
grain map 定性可视化表明模型会优先把细粒度预算分给结构复杂区域。
grain ratio 分析说明动态粒度存在合理最优区间，而不是越细越好。
消融表明 DVAE、routing、grain prediction 和 refinement 都在共同贡献性能。

局限或疑问

这条路线主要服务生成主干本身，并不直接扩张到统一生成-编辑系统。
工程复杂度高于更简单的 DiT baseline。
它在部署和跨任务迁移上的外溢价值，仍需更多后续证据。

对当前 wiki 判断的影响

它强化了 topics/image-generation 中“生成质量问题已经推进到 latent 表示层和预算分配层”的判断。
它也提醒 claims/claim-unified-models-may-outcompete-specialized-image-pipelines：专用生成主干优化依旧非常强，统一路线并没有天然压倒性优势。
D²iT 是统一路线之外，对生成底座持续深挖的一条重要反向证据。

原始链接

https://openaccess.thecvf.com/content/CVPR2025/html/Jia_D2iT_Dynamic_Diffusion_Transformer_for_Accurate_Image_Generation_CVPR_2025_paper.html
https://openaccess.thecvf.com/content/CVPR2025/papers/Jia_D2iT_Dynamic_Diffusion_Transformer_for_Accurate_Image_Generation_CVPR_2025_paper.pdf

{ "id": "2026-04-12-d2it", "type": "source", "title": "D²iT（CVPR 2025）：用于高精度图像生成的动态扩散 Transformer", "status": "reviewed", "created": "2026-04-12", "updated": "2026-04-17", "venue": "CVPR 2025", "ingested_at": "2026-04-12", "tags": [ "near-cvpr-2025", "image-generation", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Weinan Jia", "Mengqi Huang", "Nan Chen", "Lei Zhang", "Zhendong Mao" ], "published_at": "2025-06-11", "canonical_links": [ "https://openaccess.thecvf.com/content/CVPR2025/html/Jia_D2iT_Dynamic_Diffusion_Transformer_for_Accurate_Image_Generation_CVPR_2025_paper.html", "https://openaccess.thecvf.com/content/CVPR2025/papers/Jia_D2iT_Dynamic_Diffusion_Transformer_for_Accurate_Image_Generation_CVPR_2025_paper.pdf" ], "raw_entry": "raw/ingest/2026-04-12-d2it/", "analysis_note": "raw/ingest/2026-04-12-d2it/analysis.md", "image_index": "raw/ingest/2026-04-12-d2it/images/index.md", "topics": [ "topics/image-generation", "topics/diffusion-models" ], "entities": [], "claims": [ "claims/claim-unified-models-may-outcompete-specialized-image-pipelines" ], "questions": [] }

D²iT用于高精度图像生成的动态扩散 Transformer

一句话结论

论文定位

问题定义

方法概述

关键发现

关键图示

两阶段总体框架

主结果与 grain ratio 分析

消融与训练收敛

核心实验与结果

局限或疑问

对当前 wiki 判断的影响

相关页面

原始链接

被引用7

一句话结论

论文定位

问题定义

方法概述

关键发现

关键图示

两阶段总体框架

主结果与 grain ratio 分析

消融与训练收敛

核心实验与结果

局限或疑问

对当前 wiki 判断的影响

相关页面

原始链接

关联页面

相关主题2

相关判断1

被引用7