扩散 Transformer 正在成为默认的可扩展生成主干
命题
在当前 vault 涵盖的材料里,DiT 风格主干越来越像图像生成和视频生成共同采用的默认底座。很多论文并不是另起炉灶,而是在 DiT 上继续做结构优化、控制注入、长时序扩展和部署工程化,这说明它正在从“一个方法选择”变成“一个主流平台”。
为什么这条 claim 很关键
如果这条判断成立,后续 ingest 新论文时就不该把这些工作看成彼此孤立的技巧,而应当把它们组织成同一条技术谱系。这样更利于判断:哪些创新是在替换底座,哪些创新其实只是沿着 DiT 主线继续加速、压缩、控制或扩张。
当前支持证据在说什么
前史已经从“ViT 可行”推进到“DiT scaling 成立”
- sources/2026-04-15-all-are-worth-words 提前把 ViT 主干带进扩散建模,说明 Transformer 化底座并非临时分支,而是更早就成形的方向。
- sources/2026-04-15-scalable-diffusion-models-with-transformers 则把 DiT 与 scaling 直接绑定起来,说明这条主干不只是可行,而且会随着模型规模提升而稳定获益。
图像侧与视频侧都在把 DiT 当作可改造平台
- sources/2026-04-12-d2it 展示了图像侧围绕 DiT 的内部表示与算力分配优化。
- sources/2026-04-12-lingen 展示了视频侧为了覆盖更长序列而对这一主干路线做结构改造。
- sources/2026-04-12-tora 展示了控制与轨迹条件如何嵌入这一类生成框架。
工程配套正在围绕这条主线持续长出来
- sources/2026-04-16-on-distillation-of-guided-diffusion-models、sources/2026-04-16-post-training-quantization-on-diffusion-models、sources/2026-04-16-towards-practical-plug-and-play-diffusion-models 与 sources/2026-04-16-self-guided-diffusion-models 共同补强了一层很关键的间接证据:当一条生成路线开始同时积累 guidance 蒸馏、量化部署、插件化控制和自监督 guidance 这类工程配套时,它就更像一个默认平台,而不只是几篇方法论文的偶然集合。
当前反证与边界条件在说什么
- sources/2026-04-15-diffusion-models-without-attention 提供了一个重要反向对照:高分辨率扩散并不一定非要沿 attention / DiT 主干继续扩展,state space backbone 仍可能形成替代路线。
- 目前 evidence 仍来自精选样本,不代表整个生成领域已经完成主干收敛。
- “默认主干”也不等于“唯一主干”;某些资源、分辨率或部署约束下,其他主干仍可能更优。
这条 claim 为什么还不能完全封口
因为“默认可扩展主干”是一个趋势判断,而不是单次 SOTA 判断。它需要的不只是几篇代表作,而是持续看到后续工作更愿意在这条底座上加模块、做扩展、造工具,而不是频繁更换根主干。从当前证据看,这个趋势已经很强,但仍需要继续观察替代架构是否会在某些场景里形成反向收敛。
阶段性评估
基于当前 vault 中的证据,最稳的阶段性判断是:DiT 已经非常像当前生成研究里的默认可扩展底座,而且这条趋势正在被 backbone scaling 证据与工程子生态同时强化。
也就是说,这条 claim 现在的强度已经不只是“DiT 很流行”,而是“越来越多工作把 DiT 当作一个值得继续加速、压缩、控制、扩展的共同平台”。当一条主线同时拥有 canonical paper、横跨图像与视频的适配案例,以及完整工程配套时,它继续吸走后续工作的概率会明显提高。
当前更倾向的结论
- 这条 claim 在目前三条核心 claim 中属于证据最扎实的一条。
- 它仍不该被写成“所有替代主干都已失去机会”,但趋势上已经接近高置信判断。
- 因此当前最合理的状态仍是
monitored,但在解释层面可以把它视为一条已经很强的主线判断。
研究含义
- 如果后续要做生成模型研究,优先把新方法理解成“围绕 DiT 平台做什么扩展”通常会更有效。
- 如果要寻找真正高价值的替代路线,就不能只做局部改进,而需要证明自己能挑战 DiT 的平台性地位。
- 对知识库组织来说,这条 claim 的作用是把大量看似分散的 backbone、控制、效率与部署工作收束成同一技术谱系。