DenseDiffusion（ICCV 2023）：用 attention modulation 让 dense caption 和布局控制真正可用

会议：ICCV 2023

发表日期：2023/08/24

资料加入日期：2026-04-16

一句话结论

这篇工作把 dense caption generation 和 layout control 接到同一 attention-level guidance 框架里，用训练免费方式让不同区域的细描述更稳定落到指定位置。

现有 text-to-image diffusion 面对 dense caption 时经常失真：每个区域的详细描述很难准确映射到对应位置，模型更擅长整体 prompt，却不擅长“哪一块区域应该出现什么”。

DenseDiffusion 先分析中间 attention map 与布局的关系，再在采样期加入 attention modulation，把对象引导到给定区域。这样无需额外数据和微调，也能让 dense caption 和 layout guidance 进入已有预训练模型。

它把 attention 直接变成 layout guidance 接口，说明 topics/diffusion-models 里的 controllability 正越来越依赖对中间表示的显式操控。
DenseDiffusion 和 sources/2026-04-16-boxdiff 很互补：前者面向 dense caption + layout，后者面向 box / scribble 约束，二者都属于 training-free spatial guidance。
它也和 sources/2026-04-16-a-star 一起说明，attention 不只是解释工具，而是可直接编程的 guidance 机制。
在 topics/image-generation 这条主线里，这意味着 controllability 已经越来越像 inference-time interface design，而不只是训练数据问题。

它在本库中的价值，是把 diffusion guidance engineering 从“模块能否接入”继续推进到“空间控制、attention 治理与训练免费接口能否系统化成立”。