图像生成

概述

这一页主要整理 CVPR 2025 邻近范围内的图像生成研究脉络。当前最明显的趋势有三条：第一，图像生成和图像编辑正在快速融合，统一模型开始替代过去高度割裂的专用流水线；第二，生成质量的提升仍然强依赖底层架构改造，尤其是围绕 diffusion transformer 的效率与表达能力优化；第三，图像系统越来越像“通用视觉变换模型”，而不只是单纯的 text-to-image 模型。

本页关注什么

图像生成的方法家族
训练与推理策略的变化
条件控制机制
与编辑相连的生成范式
横跨多篇论文的比较与综合判断

当前综合判断

sources/2026-04-12-anyedit、sources/2026-04-12-omnigen、sources/2026-04-12-dreamomni、sources/2026-04-12-fireedit、sources/2026-04-12-unireal 与 sources/2026-04-12-d2it 这两轮按“深分析 + 提图 + 再编译”重做后，也把 image-generation 主线的内部结构照得更清楚了：AnyEdit 把统一编辑系统的瓶颈重新拉回高质量数据和任务组织；OmniGen 把统一图像系统推进到更像 LLM 的统一接口与工作流；DreamOmni 说明统一路线还能建立在 synthetic data pipeline 与联合训练协同上；UniReal 更进一步把统一路线推进到“真实世界动态建模”层；D²iT 则从反方向提醒我们，专用生成主干内部的动态粒度优化依然非常强，统一路线面前始终存在强大的 backbone 精修竞争。这使当前主线更像一场“统一接口、统一训练、世界动态建模、主干内部精修”并行推进的系统竞争。

sources/2026-04-15-freeu、sources/2026-04-15-distilling-ode-solvers-diffusion-models、sources/2026-04-16-on-distillation-of-guided-diffusion-models、sources/2026-04-16-post-training-quantization-on-diffusion-models、sources/2026-04-16-towards-practical-plug-and-play-diffusion-models、sources/2026-04-16-self-guided-diffusion-models、sources/2026-04-15-accelerating-diffusion-sampling-optimized-time-steps 和 sources/2026-04-15-diffusion-models-without-attention 又把 image-generation 的基础工程层补厚了一截：现在 backbone 对照、solver 蒸馏、guidance 蒸馏、低比特量化、plug-and-play 控制工程化、自监督 guidance、时间步优化和推理期免费提质都已进入本库主线。

sources/2026-04-15-all-are-worth-words、sources/2026-04-15-scalable-diffusion-models-with-transformers、sources/2026-04-15-analyzing-training-dynamics-diffusion-models、sources/2026-04-15-act-diffusion 和 sources/2026-04-15-deepcache 让 image-generation 的 backbone、训练动力学、一步扩散训练与推理缓存加速几条基础工程线更完整地并排站住；其中 DiT 论文把“Transformer 主干为何会成为默认路线”解释得更清楚了。

sources/2026-04-16-diffusion-autoencoders 与 sources/2026-04-16-high-fidelity-guided-image-synthesis 又把 image-generation 的前史补得更完整：前者强调 diffusion 的可解码语义表示，后者强调 latent diffusion 上的高保真 guidance 质量。

sources/2026-04-16-diffusionclip 与 sources/2026-04-16-bbdm-brownian-bridge-diffusion 也提醒我们，image-generation 主线很早就开始向 editing / translation 接口外溢，而不是只停留在纯生成。

sources/2026-04-16-come-closer-diffuse-faster、sources/2026-04-16-rethinking-spatial-inconsistency-cfg 与 sources/2026-04-16-sana-sprint 则把 image-generation 的 acceleration / guidance frontier 再拉长：从早期 conditional acceleration，到 CFG 局部空间治理，再到 one-step consistency distillation 前沿。

sources/2026-04-16-accelerating-dit-gradient-cache、sources/2026-04-16-distilling-parallel-gradients-ode-solvers 与 sources/2026-04-16-text-embedding-quantization-diffusion 进一步说明，2025 的 diffusion engineering 已经进入更细的系统级优化：cache 机制、solver 内部蒸馏、以及 text-guided 条件链路量化都在独立演化。

sources/2026-04-16-controlnet、sources/2026-04-16-a-star、sources/2026-04-16-boxdiff 与 sources/2026-04-16-dense-text-attention-modulation 又把 image-generation 的 controllability 补成了一条更细的 guidance 长尾：除了 plug-and-play 与 self-guidance，现在还出现了 side-branch condition adapters、test-time attention 修复、training-free box guidance 和 dense-caption layout modulation。也就是说，图像生成里的控制接口已经不只是“给 prompt”，而是在逐步演化成一整套 inference-time interface design。

再补入 sources/2026-04-16-prompt-to-prompt、sources/2026-04-16-attend-and-excite、sources/2026-04-16-multidiffusion 与 sources/2026-04-16-dlt-layout-transformer 后，这条线又往更抽象的 composition 层推进了一步：现在不仅可以修局部 attention、补主体遗漏，还可以把多条 diffusion 轨迹绑定成统一控制框架，甚至把 layout generation 本身提前建模成离散-连续联合 diffusion 问题。这说明 controllability 正在从“局部技巧”收敛成“多层接口栈”。

sources/2026-04-16-self-correcting-llm-controlled-diffusion-models、sources/2026-04-16-c3net、sources/2026-04-16-layoutdiffusion-graphic-layout-generation 与 sources/2026-04-16-dc-controlnet 则把这条接口栈继续往“标准接口边界”推进：闭环 controller、多模态复合条件、离散 layout diffusion，以及 inter-element / intra-element 分层控制都开始具备较清晰的位置。这让 image-generation 的 controllability 更像一套正在成形的 control taxonomy。

sources/2026-04-14-attention-calibration-personalization、sources/2026-04-14-condition-aware-neural-network、sources/2026-04-14-contrastive-denoising-score 和 sources/2026-04-14-cosmicman 进一步把 image-generation 的个性化校准、条件感知控制、编辑机制优化和人物专门 foundation model 路线补厚了。

sources/2026-04-14-codi、sources/2026-04-14-conform、sources/2026-04-14-check-locate-rectify 和 sources/2026-04-14-customization-assistant 又让 image-generation 在蒸馏提速、高保真训练、布局校准和定制辅助工作流四条线上更完整。

sources/2026-04-14-domain-expansion-image-generators、sources/2026-04-14-wavelet-diffusion-models、sources/2026-04-14-commoncanvas 和 sources/2026-04-14-concept-weaver 又让 image-generation 在域扩展、高效表示、开放训练生态和多概念融合四条线更完整。

sources/2026-04-14-reco、sources/2026-04-14-multi-concept-customization、sources/2026-04-14-specialist-diffusion 和 sources/2026-04-14-image-specific-prompt-learning 让 image-generation 在区域控制、多概念个性化、样本高效适配和提示层适配四条线上明显更完整。

sources/2026-04-14-concon-chi 也给个性化生成相关路线补入了更明确的 benchmark 支撑。

sources/2026-04-14-layoutdiffusion 又补入了显式空间布局控制路线，使 image-generation 的控制接口谱系更完整。

sources/2026-04-14-reangle-a-video 又给“生成接口被重写为翻译/编辑接口”这条线补入了一个更近期的视频样本。

sources/2026-04-14-qk-edit 与 sources/2026-04-14-insvie-1m 也从侧面说明，统一生成-编辑系统的竞争已开始同时受新主干可编辑性与数据构造能力影响。

sources/2026-04-14-framepainter 和 sources/2026-04-14-dive-subject-driven-video-editing 说明图像生成中的视频先验与主体驱动能力，正在继续外溢到图像/视频混合编辑接口。

sources/2026-04-14-paint-by-example 也进一步说明，近三年图像生成主线的一部分能力已经通过“示例驱动编辑”重新流回编辑接口层。

近三年补回的 sources/2026-04-14-anydoor 还说明，对象级零样本定制已经成为图像生成主线中的重要能力分支；而 sources/2026-04-14-verifiable-human-eval-t2i 则提醒我们，图像生成评测不只是造新指标，也在重建更可信的人类评测协议。

跨年份补强之后，这条主线的前史更完整了。近三年补回的 sources/2026-04-14-imagen-editor-editbench 和 sources/2026-04-14-flasheval 又把这条线往两个方向拉开：前者说明图像生成/编辑系统很早就开始同时建设专门评测基准，后者说明生成模型评测正在朝快速可迭代基础设施演化。sources/2026-04-14-latent-diffusion-models 提供了现代高分辨率扩散生成的关键工程底座；sources/2026-04-14-dreambooth 把主体驱动生成与个性化能力推进成明确方向；sources/2026-04-14-gligen 则把 grounded control 接进图像生成主线。放在一起看，当前 image-generation 不是突然在 2025 才变复杂，而是经过了底座建立、个性化扩展、可控生成增强，再到统一生成/编辑系统汇合的过程。前两批 source 已经显示出三条强趋势。第一，统一模型正成为中心路线：sources/2026-04-12-dreamomni、sources/2026-04-12-omnigen 和 sources/2026-04-12-unireal 都认为生成应与编辑及其他下游任务共享结构。第二，图像生成质量仍在架构核心上持续改进，例如 sources/2026-04-12-d2it 通过动态区域压缩优化 diffusion transformer 内部表示。第三，生成与编辑之间的边界正在消失：第一批和第二批合在一起看，未来图像系统更像通用视觉变换模型，而不是单一 T2I 工具。sources/2026-04-14-pathways-image-manifold 更进一步，直接把图像编辑问题改写到视频生成路径上，说明跨任务借模已经开始进入具体方法层。

方法家族

潜空间扩散底座：sources/2026-04-14-latent-diffusion-models

- 可解码语义表示：sources/2026-04-16-diffusion-autoencoders

- 高保真 latent guidance：sources/2026-04-16-high-fidelity-guided-image-synthesis

主体驱动与个性化生成：sources/2026-04-14-dreambooth
grounded / 可控生成：sources/2026-04-14-gligen
文本引导图像修补与配套 benchmark：sources/2026-04-14-imagen-editor-editbench
快速生成评测器：sources/2026-04-14-flasheval
可验证与可复现的人类评测协议：sources/2026-04-14-verifiable-human-eval-t2i
示例驱动生成/编辑接口：sources/2026-04-14-paint-by-example
主体驱动能力向视频编辑扩张：sources/2026-04-14-dive-subject-driven-video-editing
MM-DiT 统一编辑机制：sources/2026-04-14-qk-edit
4D video-to-video 接口改写：sources/2026-04-14-reangle-a-video
布局到图像生成：sources/2026-04-14-layoutdiffusion
视频先验驱动的交互式图像编辑：sources/2026-04-14-framepainter
对象级零样本定制：sources/2026-04-14-anydoor
统一生成-编辑系统：sources/2026-04-12-dreamomni、sources/2026-04-12-unireal
统一通用图像生成系统：sources/2026-04-12-omnigen
扩散架构内部改进：sources/2026-04-12-d2it
ViT/DiT 主干起点：sources/2026-04-15-all-are-worth-words
训练动力学校正：sources/2026-04-15-analyzing-training-dynamics-diffusion-models
一步扩散训练优化：sources/2026-04-15-act-diffusion
推理缓存加速：sources/2026-04-15-deepcache
求解器蒸馏：sources/2026-04-15-distilling-ode-solvers-diffusion-models
guidance 蒸馏：sources/2026-04-16-on-distillation-of-guided-diffusion-models
低比特量化部署：sources/2026-04-16-post-training-quantization-on-diffusion-models
plug-and-play guidance 工程化：sources/2026-04-16-towards-practical-plug-and-play-diffusion-models
自监督 guidance：sources/2026-04-16-self-guided-diffusion-models
时间步优化：sources/2026-04-15-accelerating-diffusion-sampling-optimized-time-steps
推理期免费提质：sources/2026-04-15-freeu
无 attention 主干对照：sources/2026-04-15-diffusion-models-without-attention
与编辑紧密耦合的生成路线：topics/image-editing
工程效率综合主线：topics/diffusion-efficiency-engineering
借视频生成能力反向做图像编辑：sources/2026-04-14-pathways-image-manifold

证据基础

后续值得追踪的问题

questions/question-will-unified-image-models-sustain-their-advantage — 统一图像生成编辑模型能否持续压过专用流水线。
questions/question-data-vs-architecture-in-image-editing — 多任务数据与架构设计分别贡献了多少增益。
统一生成模型究竟是真正优于专用流水线，还是主要只是简化了产品工作流？
当前进步里，多任务数据与架构设计分别贡献了多少？
动态 latent 分配会不会成为高质量 diffusion transformer 的标准组件？

图像生成

图像生成

概述

本页关注什么

当前综合判断

方法家族

相关实体

证据基础

后续值得追踪的问题

Metadata