SLD(CVPR 2024):把 diffusion 生成改成 LLM 驱动的闭环自纠错系统
会议:CVPR 2024
发表日期:2023/11/27
资料加入日期:2026-04-16
一句话结论
这篇工作把 controllability 从单次采样推进成闭环控制:先生成、再评估、再纠错,在 LLM controller 驱动下反复修正 diffusion 输出,让复杂 prompt 对齐度更高。
问题定义
text-to-image diffusion 面对复杂文本时,经常在属性绑定、空间关系和数目理解上出错。很多控制方法都在单次采样里做局部修正,但更像“尽力生成”,缺少显式反馈回路。
方法概述
SLD 引入一个 LLM controller,把 text-to-image generation 变成迭代闭环:先得到初始图像,再由控制器评估与 prompt 的偏差,然后生成纠错指令,驱动下一轮 diffusion 修正。这样 controllability 从一次性条件输入升级成持续反馈控制。
关键发现
- 它把 batch-g 的“control interface consolidation”推进到更系统层:控制接口开始从 token / attention / layout 进一步升级为外部 controller 驱动的闭环流程。
- SLD 和 sources/2026-04-16-attend-and-excite 都关注语义遗漏与错绑,但 SLD 的特点是把修正逻辑外包给更高层的 LLM controller。
- 它还把图像生成和图像编辑重新绑到同一闭环里,因为只改控制器指令就能把生成流程转成编辑流程。
- 在本库里,这篇工作很适合用来判断 control interface 是否正从“单技巧”收敛成“可编排工作流”。
局限或疑问
- 闭环纠错会带来多轮推理成本,工程上更偏质量换时延。
- LLM controller 的判断质量会直接决定修正效果,因此系统表现受上游语言模型能力影响。
- 它更像外部 orchestration 层的答案,对底层 backbone 内部机制的解释较少。
原始链接
- https://arxiv.org/abs/2311.16090
- https://arxiv.org/pdf/2311.16090.pdf
相关页面
- topics/image-generation
- topics/image-editing
- topics/diffusion-models
- topics/diffusion-efficiency-engineering
- sources/2026-04-16-attend-and-excite
备注
它在本库中的价值,是把 control interface consolidation 从“已有很多控制技巧”继续推进到“接口边界、层级分工和闭环控制是否开始成形”这个层面。