All Are Worth Words：把 ViT 直接变成扩散模型主干

一句话结论

这篇论文是当前库里补齐 DiT 主干谱系的关键锚点：它明确提出用 ViT 式主干替代传统 CNN U-Net，并证明这种 backbone 选择本身就足以把扩散模型带到很强的生成表现。

它要解决的是扩散模型长期被 CNN U-Net 主导的问题。虽然视觉 Transformer 在很多视觉任务里已经很强，但扩散模型主干仍默认围绕下采样/上采样式 U-Net 组织；这篇工作直接问：扩散模型是否也能把 ViT 当成统一主干，而不是只把 Transformer 当局部模块。

方法上，它设计了一个简单通用的 U-ViT 架构，把时间步、条件信息和带噪图像 patch 一起当作 token 处理，并通过浅层与深层之间的长跳连维持扩散建模所需的多尺度信息流。核心不是堆更多技巧，而是把“ViT 能否成为扩散底座”这件事做成一个清晰、可复用的 backbone 方案。

它给当前 wiki 中的 entities/diffusion-transformer 提供了更早、更基础的来源锚点，说明 DiT/ViT 化不是 2025 才突然出现的现象。
它说明扩散模型的主干不必绑定 CNN U-Net，长跳连比传统下采样/上采样结构更像关键约束。
它强化了 claims/claim-dit-is-becoming-the-default-scalable-generation-backbone：后续很多结构改造更像是在继承这条主干路线，而不是重新发明底座。

在这套库里，这篇论文的价值主要不是单篇 SOTA 数字，而是把“ViT/Transformer 能成为扩散模型默认主干”这件事提前坐实，便于后面对 D²iT、MotionStone、LinGen 一类工作按同一 backbone 谱系来读。