ArticleMetadataMain page

entity · 2026-04-17

扩散 Transformer

扩散 Transformer

概述

这一页对应 DiT(Diffusion Transformer)这一类反复出现的主干架构。它在当前知识库里不是某一篇论文独有的方法,而是一条横跨图像生成与视频生成的共用技术底座。现在很多论文并不是抛弃 DiT,而是在它上面继续做动态压缩、轨迹控制、长视频建模、guidance 工程化和部署优化,所以它更像一条持续演化的主线,而不是一个固定不变的模型名字。

这个实体为什么重要

  • 它同时出现在图像生成与视频生成两侧,是少数真正横跨多个 topic 的技术主干。
  • 它经常不是“被替换掉”的对象,而是“被继续扩展”的对象,说明社区把它当作可持续演进的平台。
  • 如果后续继续 ingest 新论文,很多方法都可以直接放到 DiT 这一条技术谱系里理解,而不必每次从头分类。

当前观察到的演化方向

从 ViT 可行到 DiT scaling 成立

图像侧:内部表示与算力分配优化

视频侧:控制与长时程扩展

工程侧:DiT 周围的子生态开始变厚

这条实体现在意味着什么

这说明 DiT 的意义已经不只是“一个主干可选项”,而更像一个能持续吸纳后续工作的技术平台。一个主干真正变成平台,通常需要三层条件同时成立:

  • 有 canonical 前史与 scaling 叙事;
  • 能横跨多个任务域持续被改造;
  • 周围开始长出独立的工程配套生态。

当前这三个条件,DiT 基本都已经满足。

当前关系网络

证据

当前判断

加上最近补回的 backbone 前史与 engineering 子线之后,这条实体的时间纵深和平台性都更清楚了:它不只是 2025 附近的一组工程改造,而是从 ViT 可行性到 DiT scaling,再到图像/视频双侧适配与工程生态扩张,已经形成一条完整主干。

更稳的说法是:DiT 现在已经不只是一个方法名,而是一套生成研究默认会参考的基础设施。

相关页面