扩散 Transformer
概述
这一页对应 DiT(Diffusion Transformer)这一类反复出现的主干架构。它在当前知识库里不是某一篇论文独有的方法,而是一条横跨图像生成与视频生成的共用技术底座。现在很多论文并不是抛弃 DiT,而是在它上面继续做动态压缩、轨迹控制、长视频建模、guidance 工程化和部署优化,所以它更像一条持续演化的主线,而不是一个固定不变的模型名字。
这个实体为什么重要
- 它同时出现在图像生成与视频生成两侧,是少数真正横跨多个 topic 的技术主干。
- 它经常不是“被替换掉”的对象,而是“被继续扩展”的对象,说明社区把它当作可持续演进的平台。
- 如果后续继续 ingest 新论文,很多方法都可以直接放到 DiT 这一条技术谱系里理解,而不必每次从头分类。
当前观察到的演化方向
从 ViT 可行到 DiT scaling 成立
- sources/2026-04-15-all-are-worth-words 代表把 ViT 直接变成扩散模型主干的早期基础节点。
- sources/2026-04-15-scalable-diffusion-models-with-transformers 代表 DiT 作为 canonical 架构被正式提出,并把 scaling 证据直接摆上台面。
图像侧:内部表示与算力分配优化
- sources/2026-04-12-d2it 代表在图像侧通过动态区域压缩改造 DiT 内部表示与算力分配。
视频侧:控制与长时程扩展
- sources/2026-04-12-tora 代表把轨迹条件和动作控制更深地注入 DiT 风格的视频生成框架。
- sources/2026-04-12-lingen 代表为长视频建模重构注意力机制,使 DiT 路线能覆盖更长时序。
工程侧:DiT 周围的子生态开始变厚
- sources/2026-04-16-on-distillation-of-guided-diffusion-models 代表 few-step guidance 相关蒸馏子线。
- sources/2026-04-16-post-training-quantization-on-diffusion-models 代表低比特部署与推理成本压缩子线。
- sources/2026-04-16-towards-practical-plug-and-play-diffusion-models 代表插件化控制工程子线。
- sources/2026-04-16-self-guided-diffusion-models 代表低标签依赖的自监督 guidance 子线。
这条实体现在意味着什么
这说明 DiT 的意义已经不只是“一个主干可选项”,而更像一个能持续吸纳后续工作的技术平台。一个主干真正变成平台,通常需要三层条件同时成立:
- 有 canonical 前史与 scaling 叙事;
- 能横跨多个任务域持续被改造;
- 周围开始长出独立的工程配套生态。
当前这三个条件,DiT 基本都已经满足。
当前关系网络
- topics/diffusion-models 负责把它放进更大的扩散方法史里。
- topics/image-generation 与 topics/video-generation 分别展示它在图像与视频两侧的适配。
- claims/claim-dit-is-becoming-the-default-scalable-generation-backbone 负责持续跟踪它是否已经接近“默认可扩展底座”。
证据
- sources/2026-04-15-all-are-worth-words
- sources/2026-04-15-scalable-diffusion-models-with-transformers
- sources/2026-04-12-d2it
- sources/2026-04-12-lingen
- sources/2026-04-12-tora
- sources/2026-04-16-on-distillation-of-guided-diffusion-models
- sources/2026-04-16-post-training-quantization-on-diffusion-models
- sources/2026-04-16-towards-practical-plug-and-play-diffusion-models
- sources/2026-04-16-self-guided-diffusion-models
当前判断
加上最近补回的 backbone 前史与 engineering 子线之后,这条实体的时间纵深和平台性都更清楚了:它不只是 2025 附近的一组工程改造,而是从 ViT 可行性到 DiT scaling,再到图像/视频双侧适配与工程生态扩张,已经形成一条完整主干。
更稳的说法是:DiT 现在已经不只是一个方法名,而是一套生成研究默认会参考的基础设施。