Attend-and-Excite（TOG 2023）：在推理时主动修复 diffusion 的语义遗漏

会议：TOG 2023

发表日期：2023/01/31

资料加入日期：2026-04-16

一句话结论

这篇工作把“catastrophic neglect”明确拉成一个独立问题：当模型漏掉 prompt 里的主体或错绑属性时，它在推理时直接提升对应 token 的 cross-attention 激活，逼模型把该出现的概念补出来。

问题定义

扩散模型虽然能生成高质量图像，但面对多主体 prompt 时经常漏掉某个对象，或把颜色、属性绑定错对象。这个问题并不是简单的画质问题，而是语义覆盖失败。

方法概述

Attend-and-Excite 提出一种 attention-based semantic guidance。在推理时监控 subject token 的 cross-attention，如果某个概念没有被充分激活，就主动优化 latent，使相应 token 的 attention 被“激发”起来，从而缓解主体遗漏与属性错绑。

关键发现

它和 sources/2026-04-16-a-star 构成一组很强的 attention-level guidance 证据：一个强调概念冲突与遗忘，一个强调主体遗漏与语义绑定失败。
这说明 guidance engineering 的长尾，不只是空间位置控制，也包括 prompt 语义覆盖本身。
它把 topics/image-generation 里的 controllability 从 layout/box 继续推进到 semantic completeness。
在 batch-f 里，它代表的是“inference-time semantic nursing”这一类控制接口。

局限或疑问

它解决的是语义遗漏，不直接降低推理成本，因此更偏质量修复而不是效率加速。
方法仍然依赖测试时优化，复杂 prompt 下的额外计算开销不能忽略。
它主要立足于 subject token 激活，对更高阶关系推理和复杂组合约束仍不充分。

原始链接

https://arxiv.org/abs/2301.13826
https://arxiv.org/pdf/2301.13826.pdf

备注

它在本库中的价值，是把 control / layout composition 这条长尾从“prompt 可以控制一点生成”推进到“attention、语义覆盖、布局建模和多路径组合都能成为独立接口设计问题”。

Attend-and-Excite（TOG 2023）：在推理时主动修复 diffusion 的语义遗漏

Attend-and-Excite（TOG 2023）：在推理时主动修复 diffusion 的语义遗漏

一句话结论

问题定义

方法概述

关键发现

局限或疑问

原始链接

相关页面

备注

Metadata