ArticleMetadataMain page

source · 2026-04-16

BoxDiff(ICCV 2023):不用训练,直接把框约束压进 diffusion 采样过程

BoxDiff(ICCV 2023):不用训练,直接把框约束压进 diffusion 采样过程

会议:ICCV 2023
发表日期:2023/07/20
资料加入日期:2026-04-16

一句话结论

这篇工作把 spatial guidance 做到了 training-free:用户只给 box 或 scribble,它就在 denoising 中加入空间约束,让对象按指定位置出现,而不需要额外布局数据或微调。

问题定义

如果要让 diffusion 模型 obey box、mask、scribble 等简单空间条件,很多已有方法需要额外 paired layout data 和 fine-tuning,这会明显抬高控制成本,也限制开放世界场景下的快速使用。

方法概述

BoxDiff 直接在 diffusion denoising 过程中加入 Inner-Box、Outer-Box 和 Corner 三类空间约束。它不重训模型,也不依赖大量标注布局数据,而是把用户给定的 box/scribble 条件转成采样期的 training-free guidance。

关键发现

局限或疑问

  • training-free 约束虽然省去了训练,但会把一部分复杂度转移到推理阶段,因此速度与质量之间仍要权衡。
  • 它主要支持相对简单的空间条件;更复杂关系推理或长期一致性并不是这篇工作的重点。
  • 当前证据仍以图像为主,视频场景中的 box-guided 控制还需要更多材料。

原始链接

  • https://arxiv.org/abs/2307.10816
  • https://arxiv.org/pdf/2307.10816.pdf

相关页面

备注

它在本库中的价值,是把 diffusion guidance engineering 从“模块能否接入”继续推进到“空间控制、attention 治理与训练免费接口能否系统化成立”。