SLD（CVPR 2024）：把 diffusion 生成改成 LLM 驱动的闭环自纠错系统

会议：CVPR 2024

发表日期：2023/11/27

资料加入日期：2026-04-16

一句话结论

这篇工作把 controllability 从单次采样推进成闭环控制：先生成、再评估、再纠错，在 LLM controller 驱动下反复修正 diffusion 输出，让复杂 prompt 对齐度更高。

问题定义

text-to-image diffusion 面对复杂文本时，经常在属性绑定、空间关系和数目理解上出错。很多控制方法都在单次采样里做局部修正，但更像“尽力生成”，缺少显式反馈回路。

方法概述

SLD 引入一个 LLM controller，把 text-to-image generation 变成迭代闭环：先得到初始图像，再由控制器评估与 prompt 的偏差，然后生成纠错指令，驱动下一轮 diffusion 修正。这样 controllability 从一次性条件输入升级成持续反馈控制。

关键发现

它把 batch-g 的“control interface consolidation”推进到更系统层：控制接口开始从 token / attention / layout 进一步升级为外部 controller 驱动的闭环流程。
SLD 和 sources/2026-04-16-attend-and-excite 都关注语义遗漏与错绑，但 SLD 的特点是把修正逻辑外包给更高层的 LLM controller。
它还把图像生成和图像编辑重新绑到同一闭环里，因为只改控制器指令就能把生成流程转成编辑流程。
在本库里，这篇工作很适合用来判断 control interface 是否正从“单技巧”收敛成“可编排工作流”。

局限或疑问

闭环纠错会带来多轮推理成本，工程上更偏质量换时延。
LLM controller 的判断质量会直接决定修正效果，因此系统表现受上游语言模型能力影响。
它更像外部 orchestration 层的答案，对底层 backbone 内部机制的解释较少。

原始链接

https://arxiv.org/abs/2311.16090
https://arxiv.org/pdf/2311.16090.pdf

备注

它在本库中的价值，是把 control interface consolidation 从“已有很多控制技巧”继续推进到“接口边界、层级分工和闭环控制是否开始成形”这个层面。

SLD（CVPR 2024）：把 diffusion 生成改成 LLM 驱动的闭环自纠错系统

SLD（CVPR 2024）：把 diffusion 生成改成 LLM 驱动的闭环自纠错系统

一句话结论

问题定义

方法概述

关键发现

局限或疑问

原始链接

相关页面

备注

Metadata