Attend-and-Excite(TOG 2023):在推理时主动修复 diffusion 的语义遗漏
会议:TOG 2023
发表日期:2023/01/31
资料加入日期:2026-04-16
一句话结论
这篇工作把“catastrophic neglect”明确拉成一个独立问题:当模型漏掉 prompt 里的主体或错绑属性时,它在推理时直接提升对应 token 的 cross-attention 激活,逼模型把该出现的概念补出来。
问题定义
扩散模型虽然能生成高质量图像,但面对多主体 prompt 时经常漏掉某个对象,或把颜色、属性绑定错对象。这个问题并不是简单的画质问题,而是语义覆盖失败。
方法概述
Attend-and-Excite 提出一种 attention-based semantic guidance。在推理时监控 subject token 的 cross-attention,如果某个概念没有被充分激活,就主动优化 latent,使相应 token 的 attention 被“激发”起来,从而缓解主体遗漏与属性错绑。
关键发现
- 它和 sources/2026-04-16-a-star 构成一组很强的 attention-level guidance 证据:一个强调概念冲突与遗忘,一个强调主体遗漏与语义绑定失败。
- 这说明 guidance engineering 的长尾,不只是空间位置控制,也包括 prompt 语义覆盖本身。
- 它把 topics/image-generation 里的 controllability 从 layout/box 继续推进到 semantic completeness。
- 在 batch-f 里,它代表的是“inference-time semantic nursing”这一类控制接口。
局限或疑问
- 它解决的是语义遗漏,不直接降低推理成本,因此更偏质量修复而不是效率加速。
- 方法仍然依赖测试时优化,复杂 prompt 下的额外计算开销不能忽略。
- 它主要立足于 subject token 激活,对更高阶关系推理和复杂组合约束仍不充分。
原始链接
- https://arxiv.org/abs/2301.13826
- https://arxiv.org/pdf/2301.13826.pdf
相关页面
- topics/image-generation
- topics/diffusion-models
- topics/diffusion-efficiency-engineering
- sources/2026-04-16-a-star
- sources/2026-04-16-prompt-to-prompt
备注
它在本库中的价值,是把 control / layout composition 这条长尾从“prompt 可以控制一点生成”推进到“attention、语义覆盖、布局建模和多路径组合都能成为独立接口设计问题”。