ArticleMetadataMain page

source · 2026-04-16

Self-Guided Diffusion Models(CVPR 2023):把 guidance 从外部条件器部分收回到模型内部结构

Self-Guided Diffusion Models(CVPR 2023):把 guidance 从外部条件器部分收回到模型内部结构

会议:CVPR 2023
发表日期:2022/10/12
资料加入日期:2026-04-16

一句话结论

这篇工作把 diffusion guidance 的数据依赖明显压低了:它用 self-supervision 产生 guidance signal,让模型在没有 class / box / mask 标注的前提下,也能获得从整体语义到对象框、分割掩码不同粒度的控制能力。

问题定义

传统 guidance 往往依赖大量图像-标注对,训练成本、标注质量和偏差都会直接影响 diffusion model 的控制效果与可扩展性。论文要解决的核心问题,是怎样在尽量摆脱人工标注的情况下,仍然为 diffusion reverse process 提供足够有效的 guidance signal。

方法概述

作者提出 self-guided diffusion framework,通过 feature extraction function 和 self-annotation function 自动构造 guidance。它不是把 guidance 完全外包给人工标注条件器,而是从模型自身可提取的自监督信号里生成不同粒度的控制目标。这样 guidance 从外部监督链路部分回收到内部结构,既保留控制能力,也降低对昂贵标签的依赖。

关键发现

  • 它把 topics/diffusion-models 里的 guidance 主线补成另一条重要分支:除了蒸馏 guidance、插件化 guidance,还存在 self-guidance 这条低标注成本路线。
  • 论文报告 self-labeled guidance 稳定优于无 guidance diffusion,并在不平衡数据上还可能优于 ground-truth label guidance,说明 guidance 的有效性并不只取决于人工标注。
  • 当方法接入 self-supervised box proposal 或 mask proposal 后,模型可以生成语义一致且视觉多样的图像,说明 self-guidance 具备向对象级和区域级控制扩展的潜力。
  • 它和 sources/2026-04-16-towards-practical-plug-and-play-diffusion-models 很互补:后者降低外部 guidance 的接入成本,这篇降低 guidance supervision 本身的数据成本。

局限或疑问

  • 这篇工作的重点在于 guidance source 的替换,而不是直接减少采样步数或压缩单步网络成本,因此它对整体延迟的改善更偏间接。
  • self-annotation 的质量上限会直接影响 guidance 质量,跨数据分布时的稳定性仍值得继续跟踪。
  • 当前证据主要在图像生成侧,视频扩散或统一生成编辑场景里的自引导扩展仍需要更多材料。

原始链接

  • https://arxiv.org/abs/2210.06462
  • https://arxiv.org/pdf/2210.06462.pdf

相关页面

备注

它在本库中的价值,是把 diffusion efficiency / controllability 叙事继续往“低数据成本 guidance”推进。这样 guidance 这条子线已经同时覆盖蒸馏、插件化接入和自监督引导三种不同方向。