Self-Guided Diffusion Models：用自监督伪标注替代人工 guidance

一句话结论

论文用 DINO 聚类、LOST 框与 STEGO mask 为 U-Net/LDM 自动产生全图、框级、像素级条件；在多个数据集显著优于无 guidance，self-label 甚至优于 class label，但精细空间控制仍落后真值 box/mask，且这不是 DiT 主干证据。

guided diffusion 往往依赖 class、box、mask 等人工 image-annotation pairs。论文要验证：冻结的自监督表征与无监督定位/分割器是否能自动构造有用条件，从而在不使用目标数据人工标签时训练 conditional diffusion。

Self-labeled：DINO/MSN 等特征上做 k-means，cluster ID 作为全图条件。
Self-boxed：LOST 产生 class-agnostic box，并结合 cluster ID 注入空间条件。
Self-segmented：STEGO 产生 mask；mask 与 noisy input 拼接，并在低分辨率层使用条件 token/cross-attention。
采样仍用 classifier-free guidance；conditional/unconditional 通过 batch 拼接减少实际前向次数。

ImageNet32/64、CIFAR-100：DDIM 250 steps；FID/IS，附 precision/recall；ImageNet 完整训练 100 epochs，4×A5000，约 6 天。
ImageNet-100、LSUN-Churches 256：后者使用缩小版 latent diffusion（294M→108M）。
Pascal VOC、COCO20K：LOST box，64×64，800 epochs。
Pascal VOC、COCO-Stuff：STEGO mask，64×64，800/400 epochs。

设置	Ground truth guidance	No guidance	Self-guidance
ImageNet32 FID/IS	9.2/19.0	14.3/10.8	7.3/20.3
ImageNet64 FID/IS	16.8/18.6	36.1/10.4	12.1/23.1
ImageNet-100 256 FID/IS	21.2/64.1	42.1/41.1	16.1/78.3
Pascal VOC box FID	GT box 13.2	58.6	self-box 18.4
COCO20K box FID	GT box 9.6	42.5	self-box 16.0
COCO-Stuff val mask FID	GT mask 11.2	34.1	self-seg 17.7

Self-label 在这些设置中超过 class labels；但 self-box/self-seg 虽显著改善无 guidance，仍未达到真值空间标注。

feature extractor：DINO ViT-B/16 在 ImageNet32 的 FID 19.35，优于 MAE 32.58 与 supervised ResNet/ViT 约 22；选择 DINO。
cluster 数：增加到 5,000 持续改善，FID 16.4、IS 10.35，优于 GT label 17.9/9.94；10,000 开始语义碎片化。
CIFAR-100 随机打乱 cluster assignments 后 FID 单调恶化，说明收益来自 pseudo-label 结构。
Pascal VOC self-box 的 k=21/50/100 FID 为 22.5/18.6/18.5，约 100 饱和。
balanced/unbalanced ImageNet32 上，相对 GT guidance 的最佳 FID 改善约 17.8%/18.7%。

扩散去噪器：traditional U-Net。 高分辨率 Churches 使用的 latent diffusion 同样是 U-Net 系列。
DINO/ViT、LOST、STEGO 是 feature extractor / self-annotator，不是 diffusion backbone。
因此它支持“自监督条件可降低 diffusion 控制的数据标注成本”，只能作为 topics/diffusion-models 的通用 controllability 背景；不能将 ViT 条件器误计为 DiT 采用证据。