ArticleMetadataMain page

source · 2026-04-17

Encapsulated Composition(CVPR 2025):组合式文本到图像/视频模型高质量视频合成

Encapsulated Composition(CVPR 2025):组合式文本到图像/视频模型高质量视频合成

会议:CVPR 2025
发表日期:2025-06-11
资料加入日期:2026-04-14
深分析稿:raw/ingest/2026-04-14-encapsulated-composition-t2i-t2v/analysis

一句话结论

这篇论文证明了模块组合系统并不天然弱于统一大模型:通过封装式组合 T2I 的图像先验与 T2V 的时序先验,并用 selective feature injection 精细控制信息流,可以同时提升视频质量、运动平滑度和推理效率。

论文定位

它是“modular composition”路线里的代表作。与追求统一大模型不同,这篇论文把重点放在推理阶段的系统封装与信息注入设计上。

问题定义

作者面对的是 T2V 的长期矛盾:

  • 画质高时,时序往往不稳
  • 时序自然时,单帧细节又容易不足

简单逐帧调用 T2I 会闪烁,纯 T2V 又常常失去图像质量。

方法概述

论文主线有三层:

  1. encapsulated composition of T2I and T2V
  2. 在推理层面组合两个预训练系统,而不是重新训练统一模型。

  1. T2I/T2V denoising composition
  2. 研究不同去噪组合方式,说明简单串联不能得到理想结果。

  1. Selective Feature Injection(SFI)
  2. 只提取 T2V 中对时序有价值的特征,而不把其较弱外观带入 T2I,从而同时保住画质与一致性。

关键发现

  • 模块组合系统可以同时提升画质和运动平滑度。
  • SFI 是平衡 image prior 与 temporal prior 的关键机制。
  • 组合路线在推理速度上也有优势,说明它不只是质量策略,也是工程策略。
  • 这篇论文为统一模型路线提供了非常强的反向证据。

关键图示

组合式去噪框架

!900

这一页解释 T2I/T2V 去噪流程如何被封装组合,以及为什么简单串联不能得到理想结果,是理解论文的主图。

Selective Feature Injection 机制

!900

这一页最适合解释 SFI:如何提取 T2V 的 temporal prior,同时避免低质量外观污染 T2I 结果。

主结果页

!900

这一页集中展示与多个 baseline 的定性和定量比较,是说明 modular composition 路线竞争力的关键证据页。

核心实验与结果

  • 论文显示组合式系统可以显著提升视频视觉质量和运动一致性。
  • 主结果页说明它不是只在单一场景有效,而是在多个 baseline 对照下都具有优势。
  • 速度相关分析进一步说明模块封装并不必然带来更重的推理成本。
  • 这篇论文把“统一模型 vs 模块组合系统”的问题从抽象讨论拉回了实证层面。

局限或疑问

  • 主要在视频合成侧成立,不能直接外推到图像生成/编辑的全局结论。
  • 训练免费组合的长期上限是否高于深度统一训练框架,仍需更多长期比较。
  • 目前更偏系统设计优势,跨任务统一对照仍然有限。

对当前 wiki 判断的影响

  • 它显著补强了 questions/question-will-unified-image-models-sustain-their-advantage:模块组合系统也是非常强的竞争者。
  • 它让 topics/video-generation 不再只围绕统一模型或单主干改造,而是增加了一条系统封装路线。
  • 这篇论文提醒我们,工程上更强的系统未必来自更大的单体模型,也可能来自更聪明的模型组合方式。

相关页面

原始链接

  • https://openaccess.thecvf.com/content/CVPR2025/html/Su_Encapsulated_Composition_of_Text-to-Image_and_Text-to-Video_Models_for_High-Quality_Video_CVPR_2025_paper.html
  • https://openaccess.thecvf.com/content/CVPR2025/papers/Su_Encapsulated_Composition_of_Text-to-Image_and_Text-to-Video_Models_for_High-Quality_Video_CVPR_2025_paper.pdf
  • http://arxiv.org/abs/2507.13753