ArticleMetadataMain page

source · 2026-04-16

DenseDiffusion(ICCV 2023):用 attention modulation 让 dense caption 和布局控制真正可用

DenseDiffusion(ICCV 2023):用 attention modulation 让 dense caption 和布局控制真正可用

会议:ICCV 2023
发表日期:2023/08/24
资料加入日期:2026-04-16

一句话结论

这篇工作把 dense caption generation 和 layout control 接到同一 attention-level guidance 框架里,用训练免费方式让不同区域的细描述更稳定落到指定位置。

问题定义

现有 text-to-image diffusion 面对 dense caption 时经常失真:每个区域的详细描述很难准确映射到对应位置,模型更擅长整体 prompt,却不擅长“哪一块区域应该出现什么”。

方法概述

DenseDiffusion 先分析中间 attention map 与布局的关系,再在采样期加入 attention modulation,把对象引导到给定区域。这样无需额外数据和微调,也能让 dense caption 和 layout guidance 进入已有预训练模型。

关键发现

  • 它把 attention 直接变成 layout guidance 接口,说明 topics/diffusion-models 里的 controllability 正越来越依赖对中间表示的显式操控。
  • DenseDiffusion 和 sources/2026-04-16-boxdiff 很互补:前者面向 dense caption + layout,后者面向 box / scribble 约束,二者都属于 training-free spatial guidance。
  • 它也和 sources/2026-04-16-a-star 一起说明,attention 不只是解释工具,而是可直接编程的 guidance 机制。
  • topics/image-generation 这条主线里,这意味着 controllability 已经越来越像 inference-time interface design,而不只是训练数据问题。

局限或疑问

  • 方法擅长区域级描述与布局控制,但更高层的关系推理、组合逻辑和复杂全局约束仍未彻底解决。
  • 训练免费并不等于零代价:attention modulation 仍可能增加推理复杂度。
  • 它主要补强 dense caption / layout 方向,对多帧一致性或视频任务还没有直接证据。

原始链接

  • https://arxiv.org/abs/2308.12964
  • https://arxiv.org/pdf/2308.12964.pdf

相关页面

备注

它在本库中的价值,是把 diffusion guidance engineering 从“模块能否接入”继续推进到“空间控制、attention 治理与训练免费接口能否系统化成立”。