OmniGen(CVPR 2025):统一图像生成
会议:CVPR 2025
发表日期:2025-06-11
资料加入日期:2026-04-12
深分析稿:raw/ingest/2026-04-12-omnigen/analysis
一句话结论
OmniGen 把图像系统往“统一接口 + 端到端工作流”方向推进了一大步:同一个模型原生覆盖 text-to-image、image editing、subject-driven generation 和 visual-conditional generation,并把插件式工作流简化成统一指令驱动流程。
论文定位
这篇论文是统一图像模型路线中的“系统接口派”代表作。它主打三个词:unification、simplicity、knowledge transfer。
问题定义
OmniGen 关注的是图像生成系统长期存在的三个结构性问题:
- 图像任务被拆成多个专用流水线
- 多条件控制依赖额外插件和中间步骤
- 不同任务之间难共享知识与能力
作者希望把图像任务改写成一个更像 LLM 的统一交互接口。
方法概述
论文的核心机制有三层:
- 统一框架
文本被 token 化,输入图像经 VAE 映射为 embedding,再进入统一 Transformer 式生成流程;Figure 2 明确说明 OmniGen 接受 free-form multi-modal prompts,并通过统一流程生成图像。
- 统一任务格式
OmniGen 把 image editing、subject-driven generation、visual-conditional generation、few-shot / mixed-modal to image 等任务改写到统一输入输出格式里。
- 跨任务知识迁移
论文把 knowledge transfer 作为核心主张,认为统一格式训练可让模型更好处理 unseen tasks 与 unseen domains。
关键发现
- 统一模型可以原生覆盖多种图像任务,而不是依赖插件堆叠。
- simplicity 本身就是系统级优势,它直接改善了工作流复杂度。
- 统一格式训练被明确当作知识迁移机制,而不只是任务混合。
- 论文已经开始讨论 reasoning 和 chain-of-thought,说明统一图像系统正在向更通用能力边界外溢。
关键图示
OmniGen 框架图
!900
Figure 2 是最关键的方法图,展示文本 token、图像 token、Transformer 与 VAE 如何构成统一图像生成框架,并说明 OmniGen 支持 free-form multi-modal prompts。
统一任务设定与数据格式
!900
这一页展示 X2I dataset、mixed-modal prompts、subject-driven generation 与 computer vision tasks 等内容,最能解释 OmniGen 统一了哪些任务类型。
主结果总览
!900
这一页同时提供多任务质化结果、主体驱动案例和 benchmark 定量结果,是说明 OmniGen 不是概念统一而是有效统一的关键证据。
核心实验与结果
- 论文在主结果页同时覆盖 text-to-image、multi-modal-to-image 和 subject-driven generation。
- 结果页既有任务广度,也有 benchmark 表格,因此很适合当作统一路线的综合证据页。
- OmniGen 试图用一个更简单的系统结构完成过去需要多条工作流拼接的任务。
- reasoning 与 step-by-step 生成部分说明作者在探索统一图像系统进一步的能力边界。
局限或疑问
- 统一接口的系统优势很明显,单项任务的峰值性能仍需继续与专用系统对照。
- reasoning / chain-of-thought 相关能力目前更像潜力展示,后续需要更严格验证。
- 统一模型在高阶可控性和超复杂场景下的稳定性还值得继续跟踪。
对当前 wiki 判断的影响
- 它强化了 topics/image-generation 中“图像系统越来越像通用视觉变换模型”的判断。
- 它补强了 entities/unified-image-generation-editing:统一路线内部存在一类非常强调接口统一和工作流简化的方法。
- 它为 claims/claim-unified-models-may-outcompete-specialized-image-pipelines 提供了系统形态层的支持证据。
相关页面
- topics/image-generation
- topics/diffusion-models
- entities/unified-image-generation-editing
- claims/claim-unified-models-may-outcompete-specialized-image-pipelines
- questions/question-will-unified-image-models-sustain-their-advantage
原始链接
- https://openaccess.thecvf.com/content/CVPR2025/html/Xiao_OmniGen_Unified_Image_Generation_CVPR_2025_paper.html
- https://openaccess.thecvf.com/content/CVPR2025/papers/Xiao_OmniGen_Unified_Image_Generation_CVPR_2025_paper.pdf