ArticleMetadataMain page

source · 2026-04-16

Adding Conditional Control to Text-to-Image Diffusion Models(ICCV 2023):把条件控制做成 diffusion 的通用侧支接口

Adding Conditional Control to Text-to-Image Diffusion Models(ICCV 2023):把条件控制做成 diffusion 的通用侧支接口

会议:ICCV 2023
发表日期:2023/02/10
资料加入日期:2026-04-16

一句话结论

这篇工作用 zero-conv 侧支网络把边缘、深度、分割、姿态等空间条件稳定接到冻结的预训练 diffusion backbone 上,让 controllability 不再必须重训整套生成模型。

问题定义

在大规模 text-to-image diffusion 模型已经可用之后,真正的工程难点不再只是“能不能生成”,而是怎样在不破坏原模型能力的情况下,把空间条件、结构提示和多种外部控制安全地接到系统里。传统整体微调成本高,也容易伤害原始生成质量。

方法概述

作者提出 ControlNet:冻结原始大 diffusion 模型主干,仅增加一条可训练的条件控制分支,并用 zero convolutions 从零开始渐进吸收控制信号。这样已有 backbone 继续负责强生成能力,新分支只学习如何把边缘、深度、分割、姿态等结构条件注入 denoising 过程。

关键发现

局限或疑问

  • 它主要解决条件接入稳定性,不直接减少采样步数或单步网络成本,因此延迟收益并不是这篇工作的主轴。
  • ControlNet 的成功很大程度依赖原始 backbone 已足够强,这意味着它更像“平台放大器”,而不是替代主干路线的答案。
  • 当前证据集中在图像侧条件控制,视频和统一图像/视频框架里的同类侧支接口还值得继续跟踪。

原始链接

  • https://arxiv.org/abs/2302.05543
  • https://arxiv.org/pdf/2302.05543.pdf

相关页面

备注

它在本库中的价值,是把 diffusion guidance engineering 从“模块能否接入”继续推进到“空间控制、attention 治理与训练免费接口能否系统化成立”。