MotionStone(CVPR 2025):用 DiT 解耦运动强度调制的图像到视频生成
会议:CVPR 2025
发表日期:2025-06-11
资料加入日期:2026-04-14
深分析稿:raw/ingest/2026-04-14-motionstone/analysis
一句话结论
MotionStone 把图生视频里的 motion control 推到了更细粒度层:通过将 object motion 与 camera motion 强度解耦,并分别注入 Diffusion Transformer,模型能更稳定、更可解释地控制视频动态。
论文定位
这篇论文是“DiT 主干结构改造 + 运动控制解耦”路线里的代表作。它最重要的贡献不在于统一任务,而在于把 controllability 的增益明确地放在主干结构设计上。
问题定义
作者认为图生视频生成长期存在一个关键问题:
- 运动强度控制过于粗糙,
- 对象运动与相机运动混在一起,
- 用户很难精确指定视频到底“谁在动、动多大”。
方法概述
MotionStone 的关键设计有三层:
- motion intensity estimation
学习估计 object motion intensity 与 camera motion intensity。
- decoupled motion embedding
将对象和相机两类运动分别编码,而不是混成一个统一条件。
- motion condition injection into DiT
将解耦后的 motion embedding 分别注入 Diffusion Transformer,实现更稳定的 controllability。
关键发现
- 运动控制需要结构化解耦,而不是单一粗糙条件。
- decoupled injection 是这篇论文最核心的结构设计。
- 定量与定性结果都说明架构设计本身可以成为强增益来源。
- MotionStone 继续强化了 DiT 作为可扩展生成主干的地位。
关键图示
方法总览图
!900
这一页展示 object / camera 两类运动强度如何被估计、编码并注入 DiT,是理解 MotionStone 的关键主图。
主定性结果
!900
这一页与 I2VGen-XL、SVD、AnimateAnything、CogVideoX 等方法做定性对比,是说明其运动控制能力的关键结果页。
定量与消融
!900
这一页同时给出主结果定量比较、消融实验以及 motion condition injection design,是最适合作为证据页的页面。
核心实验与结果
- MotionStone 显著提升了 object motion 与 camera motion 的可控性。
- 主结果页显示它在多个场景里更能同时保持主体动作、镜头运动和视觉稳定性。
- 消融说明 decoupled motion embedding 和 decoupled injection 都是有效设计。
- 这篇论文清楚地把“性能增益来自架构改造”摆到了前台。
局限或疑问
- 它主要提供视频生成证据,不直接回答图像编辑任务。
- 即便架构收益明显,也不能据此否定高质量监督数据的重要性。
- 仍需要和更严格控制数据变量的研究做配套阅读。
对当前 wiki 判断的影响
- 它显著补强了 claims/claim-dit-is-becoming-the-default-scalable-generation-backbone:DiT 仍在持续被改造,并且仍是 controllability 的重要底座。
- 它也补强了 questions/question-data-vs-architecture-in-image-editing 的反向证据侧:强增益完全可能来自结构改造。
- MotionStone 让
topics/video-generation里的“架构改造是强杠杆”这条判断更具体。
相关页面
- topics/video-generation
- topics/diffusion-models
- entities/diffusion-transformer
- claims/claim-dit-is-becoming-the-default-scalable-generation-backbone
- questions/question-data-vs-architecture-in-image-editing
原始链接
- https://openaccess.thecvf.com/content/CVPR2025/html/Shi_MotionStone_Decoupled_Motion_Intensity_Modulation_with_Diffusion_Transformer_for_Image-to-Video_CVPR_2025_paper.html
- https://openaccess.thecvf.com/content/CVPR2025/papers/Shi_MotionStone_Decoupled_Motion_Intensity_Modulation_with_Diffusion_Transformer_for_Image-to-Video_CVPR_2025_paper.pdf
- http://arxiv.org/abs/2412.05848