All Are Worth Words(CVPR 2023):把 ViT 直接变成扩散模型主干
会议:CVPR 2023
发表日期:2022/09/25
资料加入日期:2026-04-15
一句话结论
这篇论文是当前库里补齐 DiT 主干谱系的关键锚点:它明确提出用 ViT 式主干替代传统 CNN U-Net,并证明这种 backbone 选择本身就足以把扩散模型带到很强的生成表现。
问题定义
它要解决的是扩散模型长期被 CNN U-Net 主导的问题。虽然视觉 Transformer 在很多视觉任务里已经很强,但扩散模型主干仍默认围绕下采样/上采样式 U-Net 组织;这篇工作直接问:扩散模型是否也能把 ViT 当成统一主干,而不是只把 Transformer 当局部模块。
方法概述
方法上,它设计了一个简单通用的 U-ViT 架构,把时间步、条件信息和带噪图像 patch 一起当作 token 处理,并通过浅层与深层之间的长跳连维持扩散建模所需的多尺度信息流。核心不是堆更多技巧,而是把“ViT 能否成为扩散底座”这件事做成一个清晰、可复用的 backbone 方案。
关键发现
- 它给当前 wiki 中的 entities/diffusion-transformer 提供了更早、更基础的来源锚点,说明 DiT/ViT 化不是 2025 才突然出现的现象。
- 它说明扩散模型的主干不必绑定 CNN U-Net,长跳连比传统下采样/上采样结构更像关键约束。
- 它强化了 claims/claim-dit-is-becoming-the-default-scalable-generation-backbone:后续很多结构改造更像是在继承这条主干路线,而不是重新发明底座。
局限或疑问
- 它证明的是 ViT 主干可行且强,但还没有直接回答视频长时序、复杂控制注入和工程部署成本等后续问题。
- 这里的关键点更偏 backbone 选择,不直接覆盖训练稳定性和推理效率两条后续工程主线。
- 它是谱系起点,不代表后续所有 DiT 系工作都会自动受益于同样的设计细节。
原始链接
- https://arxiv.org/abs/2209.12152
- https://arxiv.org/pdf/2209.12152
相关页面
- topics/image-generation
- topics/diffusion-models
- entities/diffusion-transformer
- claims/claim-dit-is-becoming-the-default-scalable-generation-backbone
备注
在这套库里,这篇论文的价值主要不是单篇 SOTA 数字,而是把“ViT/Transformer 能成为扩散模型默认主干”这件事提前坐实,便于后面对 D²iT、MotionStone、LinGen 一类工作按同一 backbone 谱系来读。