Adding Conditional Control to Text-to-Image Diffusion Models(ICCV 2023):把条件控制做成 diffusion 的通用侧支接口
会议:ICCV 2023
发表日期:2023/02/10
资料加入日期:2026-04-16
一句话结论
这篇工作用 zero-conv 侧支网络把边缘、深度、分割、姿态等空间条件稳定接到冻结的预训练 diffusion backbone 上,让 controllability 不再必须重训整套生成模型。
问题定义
在大规模 text-to-image diffusion 模型已经可用之后,真正的工程难点不再只是“能不能生成”,而是怎样在不破坏原模型能力的情况下,把空间条件、结构提示和多种外部控制安全地接到系统里。传统整体微调成本高,也容易伤害原始生成质量。
方法概述
作者提出 ControlNet:冻结原始大 diffusion 模型主干,仅增加一条可训练的条件控制分支,并用 zero convolutions 从零开始渐进吸收控制信号。这样已有 backbone 继续负责强生成能力,新分支只学习如何把边缘、深度、分割、姿态等结构条件注入 denoising 过程。
关键发现
- 它把 topics/diffusion-models 里的 guidance 工程化推进到最有平台性的一个节点:控制接口不再只是 prompt 或 classifier guidance,而是变成可复用的条件适配器。
- ControlNet 说明 diffusion controllability 的关键工程答案之一,是“冻结强 backbone + 外挂轻量条件分支”,这和 sources/2026-04-16-towards-practical-plug-and-play-diffusion-models 的模块化思路很一致。
- 它支持边缘、深度、分割、姿态等多种空间条件,说明 guidance 已经从语义引导扩展成结构引导。
- 在本库语境里,它补上了 topics/image-generation 与 topics/diffusion-efficiency-engineering 之间缺的一块:不仅要更快、更便宜,还要更稳定地接入控制。
局限或疑问
- 它主要解决条件接入稳定性,不直接减少采样步数或单步网络成本,因此延迟收益并不是这篇工作的主轴。
- ControlNet 的成功很大程度依赖原始 backbone 已足够强,这意味着它更像“平台放大器”,而不是替代主干路线的答案。
- 当前证据集中在图像侧条件控制,视频和统一图像/视频框架里的同类侧支接口还值得继续跟踪。
原始链接
- https://arxiv.org/abs/2302.05543
- https://arxiv.org/pdf/2302.05543.pdf
相关页面
- topics/image-generation
- topics/diffusion-models
- topics/diffusion-efficiency-engineering
- sources/2026-04-16-towards-practical-plug-and-play-diffusion-models
- sources/2026-04-16-self-guided-diffusion-models
备注
它在本库中的价值,是把 diffusion guidance engineering 从“模块能否接入”继续推进到“空间控制、attention 治理与训练免费接口能否系统化成立”。