图像生成
概述
这一页主要整理 CVPR 2025 邻近范围内的图像生成研究脉络。当前最明显的趋势有三条:第一,图像生成和图像编辑正在快速融合,统一模型开始替代过去高度割裂的专用流水线;第二,生成质量的提升仍然强依赖底层架构改造,尤其是围绕 diffusion transformer 的效率与表达能力优化;第三,图像系统越来越像“通用视觉变换模型”,而不只是单纯的 text-to-image 模型。
本页关注什么
- 图像生成的方法家族
- 训练与推理策略的变化
- 条件控制机制
- 与编辑相连的生成范式
- 横跨多篇论文的比较与综合判断
当前综合判断
sources/2026-04-12-anyedit、sources/2026-04-12-omnigen、sources/2026-04-12-dreamomni、sources/2026-04-12-fireedit、sources/2026-04-12-unireal 与 sources/2026-04-12-d2it 这两轮按“深分析 + 提图 + 再编译”重做后,也把 image-generation 主线的内部结构照得更清楚了:AnyEdit 把统一编辑系统的瓶颈重新拉回高质量数据和任务组织;OmniGen 把统一图像系统推进到更像 LLM 的统一接口与工作流;DreamOmni 说明统一路线还能建立在 synthetic data pipeline 与联合训练协同上;UniReal 更进一步把统一路线推进到“真实世界动态建模”层;D²iT 则从反方向提醒我们,专用生成主干内部的动态粒度优化依然非常强,统一路线面前始终存在强大的 backbone 精修竞争。这使当前主线更像一场“统一接口、统一训练、世界动态建模、主干内部精修”并行推进的系统竞争。
sources/2026-04-15-freeu、sources/2026-04-15-distilling-ode-solvers-diffusion-models、sources/2026-04-16-on-distillation-of-guided-diffusion-models、sources/2026-04-16-post-training-quantization-on-diffusion-models、sources/2026-04-16-towards-practical-plug-and-play-diffusion-models、sources/2026-04-16-self-guided-diffusion-models、sources/2026-04-15-accelerating-diffusion-sampling-optimized-time-steps 和 sources/2026-04-15-diffusion-models-without-attention 又把 image-generation 的基础工程层补厚了一截:现在 backbone 对照、solver 蒸馏、guidance 蒸馏、低比特量化、plug-and-play 控制工程化、自监督 guidance、时间步优化和推理期免费提质都已进入本库主线。
sources/2026-04-15-all-are-worth-words、sources/2026-04-15-scalable-diffusion-models-with-transformers、sources/2026-04-15-analyzing-training-dynamics-diffusion-models、sources/2026-04-15-act-diffusion 和 sources/2026-04-15-deepcache 让 image-generation 的 backbone、训练动力学、一步扩散训练与推理缓存加速几条基础工程线更完整地并排站住;其中 DiT 论文把“Transformer 主干为何会成为默认路线”解释得更清楚了。
sources/2026-04-16-diffusion-autoencoders 与 sources/2026-04-16-high-fidelity-guided-image-synthesis 又把 image-generation 的前史补得更完整:前者强调 diffusion 的可解码语义表示,后者强调 latent diffusion 上的高保真 guidance 质量。
sources/2026-04-16-diffusionclip 与 sources/2026-04-16-bbdm-brownian-bridge-diffusion 也提醒我们,image-generation 主线很早就开始向 editing / translation 接口外溢,而不是只停留在纯生成。
sources/2026-04-16-come-closer-diffuse-faster、sources/2026-04-16-rethinking-spatial-inconsistency-cfg 与 sources/2026-04-16-sana-sprint 则把 image-generation 的 acceleration / guidance frontier 再拉长:从早期 conditional acceleration,到 CFG 局部空间治理,再到 one-step consistency distillation 前沿。
sources/2026-04-16-accelerating-dit-gradient-cache、sources/2026-04-16-distilling-parallel-gradients-ode-solvers 与 sources/2026-04-16-text-embedding-quantization-diffusion 进一步说明,2025 的 diffusion engineering 已经进入更细的系统级优化:cache 机制、solver 内部蒸馏、以及 text-guided 条件链路量化都在独立演化。
sources/2026-04-16-controlnet、sources/2026-04-16-a-star、sources/2026-04-16-boxdiff 与 sources/2026-04-16-dense-text-attention-modulation 又把 image-generation 的 controllability 补成了一条更细的 guidance 长尾:除了 plug-and-play 与 self-guidance,现在还出现了 side-branch condition adapters、test-time attention 修复、training-free box guidance 和 dense-caption layout modulation。也就是说,图像生成里的控制接口已经不只是“给 prompt”,而是在逐步演化成一整套 inference-time interface design。
再补入 sources/2026-04-16-prompt-to-prompt、sources/2026-04-16-attend-and-excite、sources/2026-04-16-multidiffusion 与 sources/2026-04-16-dlt-layout-transformer 后,这条线又往更抽象的 composition 层推进了一步:现在不仅可以修局部 attention、补主体遗漏,还可以把多条 diffusion 轨迹绑定成统一控制框架,甚至把 layout generation 本身提前建模成离散-连续联合 diffusion 问题。这说明 controllability 正在从“局部技巧”收敛成“多层接口栈”。
sources/2026-04-16-self-correcting-llm-controlled-diffusion-models、sources/2026-04-16-c3net、sources/2026-04-16-layoutdiffusion-graphic-layout-generation 与 sources/2026-04-16-dc-controlnet 则把这条接口栈继续往“标准接口边界”推进:闭环 controller、多模态复合条件、离散 layout diffusion,以及 inter-element / intra-element 分层控制都开始具备较清晰的位置。这让 image-generation 的 controllability 更像一套正在成形的 control taxonomy。
sources/2026-04-14-attention-calibration-personalization、sources/2026-04-14-condition-aware-neural-network、sources/2026-04-14-contrastive-denoising-score 和 sources/2026-04-14-cosmicman 进一步把 image-generation 的个性化校准、条件感知控制、编辑机制优化和人物专门 foundation model 路线补厚了。
sources/2026-04-14-codi、sources/2026-04-14-conform、sources/2026-04-14-check-locate-rectify 和 sources/2026-04-14-customization-assistant 又让 image-generation 在蒸馏提速、高保真训练、布局校准和定制辅助工作流四条线上更完整。
sources/2026-04-14-domain-expansion-image-generators、sources/2026-04-14-wavelet-diffusion-models、sources/2026-04-14-commoncanvas 和 sources/2026-04-14-concept-weaver 又让 image-generation 在域扩展、高效表示、开放训练生态和多概念融合四条线更完整。
sources/2026-04-14-reco、sources/2026-04-14-multi-concept-customization、sources/2026-04-14-specialist-diffusion 和 sources/2026-04-14-image-specific-prompt-learning 让 image-generation 在区域控制、多概念个性化、样本高效适配和提示层适配四条线上明显更完整。
sources/2026-04-14-concon-chi 也给个性化生成相关路线补入了更明确的 benchmark 支撑。
sources/2026-04-14-layoutdiffusion 又补入了显式空间布局控制路线,使 image-generation 的控制接口谱系更完整。
sources/2026-04-14-reangle-a-video 又给“生成接口被重写为翻译/编辑接口”这条线补入了一个更近期的视频样本。
sources/2026-04-14-qk-edit 与 sources/2026-04-14-insvie-1m 也从侧面说明,统一生成-编辑系统的竞争已开始同时受新主干可编辑性与数据构造能力影响。
sources/2026-04-14-framepainter 和 sources/2026-04-14-dive-subject-driven-video-editing 说明图像生成中的视频先验与主体驱动能力,正在继续外溢到图像/视频混合编辑接口。
sources/2026-04-14-paint-by-example 也进一步说明,近三年图像生成主线的一部分能力已经通过“示例驱动编辑”重新流回编辑接口层。
近三年补回的 sources/2026-04-14-anydoor 还说明,对象级零样本定制已经成为图像生成主线中的重要能力分支;而 sources/2026-04-14-verifiable-human-eval-t2i 则提醒我们,图像生成评测不只是造新指标,也在重建更可信的人类评测协议。
跨年份补强之后,这条主线的前史更完整了。近三年补回的 sources/2026-04-14-imagen-editor-editbench 和 sources/2026-04-14-flasheval 又把这条线往两个方向拉开:前者说明图像生成/编辑系统很早就开始同时建设专门评测基准,后者说明生成模型评测正在朝快速可迭代基础设施演化。sources/2026-04-14-latent-diffusion-models 提供了现代高分辨率扩散生成的关键工程底座;sources/2026-04-14-dreambooth 把主体驱动生成与个性化能力推进成明确方向;sources/2026-04-14-gligen 则把 grounded control 接进图像生成主线。放在一起看,当前 image-generation 不是突然在 2025 才变复杂,而是经过了底座建立、个性化扩展、可控生成增强,再到统一生成/编辑系统汇合的过程。前两批 source 已经显示出三条强趋势。第一,统一模型正成为中心路线:sources/2026-04-12-dreamomni、sources/2026-04-12-omnigen 和 sources/2026-04-12-unireal 都认为生成应与编辑及其他下游任务共享结构。第二,图像生成质量仍在架构核心上持续改进,例如 sources/2026-04-12-d2it 通过动态区域压缩优化 diffusion transformer 内部表示。第三,生成与编辑之间的边界正在消失:第一批和第二批合在一起看,未来图像系统更像通用视觉变换模型,而不是单一 T2I 工具。sources/2026-04-14-pathways-image-manifold 更进一步,直接把图像编辑问题改写到视频生成路径上,说明跨任务借模已经开始进入具体方法层。
方法家族
- 潜空间扩散底座:sources/2026-04-14-latent-diffusion-models
- 主体驱动与个性化生成:sources/2026-04-14-dreambooth
- grounded / 可控生成:sources/2026-04-14-gligen
- 文本引导图像修补与配套 benchmark:sources/2026-04-14-imagen-editor-editbench
- 快速生成评测器:sources/2026-04-14-flasheval
- 可验证与可复现的人类评测协议:sources/2026-04-14-verifiable-human-eval-t2i
- 示例驱动生成/编辑接口:sources/2026-04-14-paint-by-example
- 主体驱动能力向视频编辑扩张:sources/2026-04-14-dive-subject-driven-video-editing
- MM-DiT 统一编辑机制:sources/2026-04-14-qk-edit
- 4D video-to-video 接口改写:sources/2026-04-14-reangle-a-video
- 布局到图像生成:sources/2026-04-14-layoutdiffusion
- 视频先验驱动的交互式图像编辑:sources/2026-04-14-framepainter
- 对象级零样本定制:sources/2026-04-14-anydoor
- 统一生成-编辑系统:sources/2026-04-12-dreamomni、sources/2026-04-12-unireal
- 统一通用图像生成系统:sources/2026-04-12-omnigen
- 扩散架构内部改进:sources/2026-04-12-d2it
- ViT/DiT 主干起点:sources/2026-04-15-all-are-worth-words
- 训练动力学校正:sources/2026-04-15-analyzing-training-dynamics-diffusion-models
- 一步扩散训练优化:sources/2026-04-15-act-diffusion
- 推理缓存加速:sources/2026-04-15-deepcache
- 求解器蒸馏:sources/2026-04-15-distilling-ode-solvers-diffusion-models
- guidance 蒸馏:sources/2026-04-16-on-distillation-of-guided-diffusion-models
- 低比特量化部署:sources/2026-04-16-post-training-quantization-on-diffusion-models
- plug-and-play guidance 工程化:sources/2026-04-16-towards-practical-plug-and-play-diffusion-models
- 自监督 guidance:sources/2026-04-16-self-guided-diffusion-models
- 时间步优化:sources/2026-04-15-accelerating-diffusion-sampling-optimized-time-steps
- 推理期免费提质:sources/2026-04-15-freeu
- 无 attention 主干对照:sources/2026-04-15-diffusion-models-without-attention
- 与编辑紧密耦合的生成路线:topics/image-editing
- 工程效率综合主线:topics/diffusion-efficiency-engineering
- 借视频生成能力反向做图像编辑:sources/2026-04-14-pathways-image-manifold
- 可解码语义表示:sources/2026-04-16-diffusion-autoencoders
- 高保真 latent guidance:sources/2026-04-16-high-fidelity-guided-image-synthesis
相关实体
- entities/unified-image-generation-editing 代表“一个模型同时覆盖生成与编辑”的跨论文主线。
- entities/diffusion-transformer 代表生成质量与扩展性优化背后的主干架构趋势。
证据基础
- sources/2026-04-12-dreamomni
- sources/2026-04-12-omnigen
- sources/2026-04-12-unireal
- sources/2026-04-12-d2it
- sources/2026-04-12-anyedit
- sources/2026-04-12-fireedit
- sources/2026-04-12-insightedit
- sources/2026-04-12-swiftedit
- sources/2026-04-14-pathways-image-manifold
- sources/2026-04-14-instructpix2pix
- sources/2026-04-14-diffeditor
- sources/2026-04-14-sketchvideo
- sources/2026-04-14-latent-diffusion-models
- sources/2026-04-14-dreambooth
- sources/2026-04-14-gligen
- sources/2026-04-14-imagen-editor-editbench
- sources/2026-04-14-flasheval
- sources/2026-04-14-verifiable-human-eval-t2i
- sources/2026-04-14-paint-by-example
- sources/2026-04-14-dive-subject-driven-video-editing
- sources/2026-04-14-insvie-1m
- sources/2026-04-14-reangle-a-video
- sources/2026-04-14-layoutdiffusion
- sources/2026-04-14-image-specific-prompt-learning
- sources/2026-04-14-concept-weaver
- sources/2026-04-14-customization-assistant
- sources/2026-04-14-cosmicman
- sources/2026-04-14-contrastive-denoising-score
- sources/2026-04-14-condition-aware-neural-network
- sources/2026-04-14-attention-calibration-personalization
- sources/2026-04-14-check-locate-rectify
- sources/2026-04-14-conform
- sources/2026-04-14-codi
- sources/2026-04-14-commoncanvas
- sources/2026-04-14-wavelet-diffusion-models
- sources/2026-04-14-domain-expansion-image-generators
- sources/2026-04-14-specialist-diffusion
- sources/2026-04-14-multi-concept-customization
- sources/2026-04-14-reco
- sources/2026-04-14-qk-edit
- sources/2026-04-14-framepainter
- sources/2026-04-14-anydoor
- sources/2026-04-15-all-are-worth-words
- sources/2026-04-15-analyzing-training-dynamics-diffusion-models
- sources/2026-04-15-act-diffusion
- sources/2026-04-15-deepcache
- sources/2026-04-15-freeu
- sources/2026-04-15-distilling-ode-solvers-diffusion-models
- sources/2026-04-16-on-distillation-of-guided-diffusion-models
- sources/2026-04-16-post-training-quantization-on-diffusion-models
- sources/2026-04-16-towards-practical-plug-and-play-diffusion-models
- sources/2026-04-16-self-guided-diffusion-models
- sources/2026-04-15-accelerating-diffusion-sampling-optimized-time-steps
- sources/2026-04-15-diffusion-models-without-attention
后续值得追踪的问题
- questions/question-will-unified-image-models-sustain-their-advantage — 统一图像生成编辑模型能否持续压过专用流水线。
- questions/question-data-vs-architecture-in-image-editing — 多任务数据与架构设计分别贡献了多少增益。
- 统一生成模型究竟是真正优于专用流水线,还是主要只是简化了产品工作流?
- 当前进步里,多任务数据与架构设计分别贡献了多少?
- 动态 latent 分配会不会成为高质量 diffusion transformer 的标准组件?