A Video is Worth 256 Bases：以时空 EM 低秩基改进零样本视频反演

一句话结论

STEM Inversion 用每视频 EM 将全局 diffusion feature 压成 256 个固定 basis，替换 FateZero/TokenFlow 的 DDIM inversion；显著改善重建与 warp error，但 CLIP 几乎不变、比 1/2-frame DDIM 更慢，且评测视频数与人评人数均未披露。

接口、方法与底座

输入 40–200 帧源视频、source/target prompt；输出由 FateZero/TokenFlow 产生的编辑视频。
backbone：Stable Diffusion 1.5；50-step inversion/sampling，CFG 7.5；单 A100。
EM 默认 3 iterations、temperature .05、K=256；basis 作为所有 U-Net self-attention 的全局 K/V。
理论复杂度约 $O(NHWK)$，但串行 EM 使 wall-clock 不一定低于局部 DDIM。
本文是 inversion 组件，不是独立语义编辑器或视频理解模型。

数据、结果与成本

数据来自 DAVIS+Internet，40–200 帧、512² 或 360×640；论文未报视频总数、URL、prompt 数或固定 manifest。

编辑结果：TokenFlow CLIP/.warp .31/4.9，STEM-TokenFlow .31/3.5；FateZero .29/7.2，STEM-FateZero .30/4.3。收益主要是时序 proxy，不是 prompt alignment。

5-video 重建补充实验：1/2/all-frame DDIM PSNR 24.122/25.967/26.464，STEM 31.572；SSIM .8137/.8595/.8700 vs .9606。K=256 与 512 接近，128 的编辑较弱，因此 256 是经验折中。

48 帧 640×360 inversion：1-frame .80min、2-frame 1.12、all-frame 5.04；STEM-128/256/512 为 1.02/1.50/2.26。STEM-256 比 all-frame 快约 70%，但比 2-frame 慢约 34%。无全编辑时间、显存 GB、能耗或方差。

Human、污染与边界

用户研究给出 STEM 对原 editor 的 67–83% preference，但不报参与者人数、总判断、盲测、IAA/置信区间；无 LLM judge。
CLIP 与 RAFT warp 会奖励小改/不编辑；无 identity、背景、locality、结构 edit success 指标。
DAVIS/Internet 选择和污染未审计；reconstruction 是同输入保真，不是生成泛化。
FateZero 单 A100 超过 20 帧受 attention-map 显存限制，项目页用采样结果，长视频对比不完整。
不支持新运动、多镜头、audio、多轮编辑或“256 bases 普遍足够”。

证据评级

B-（同-editor inversion 替换与重建证据明确；数据规模、人评、指标与长视频成本证据有限）。

原始链接

相关页面

{ "id": "2026-04-14-video-worth-256-bases", "type": "source", "title": "A Video is Worth 256 Bases：以时空 EM 低秩基改进零样本视频反演", "status": "reviewed", "created": "2026-04-14", "updated": "2026-07-12", "venue": "CVPR 2024", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "video-editing", "diffusion", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Li, Maomao", "Li, Yu", "Yang, Tianyu", "Liu, Yunfei", "Yue, Dongxu", "Lin, Zhihui", "Xu, Dong" ], "published_at": "2023-12-10", "canonical_links": [ "https://openaccess.thecvf.com/content/CVPR2024/html/Li_A_Video_is_Worth_256_Bases_Spatial-Temporal_Expectation-Maximization_Inversion_for_CVPR_2024_paper.html", "https://openaccess.thecvf.com/content/CVPR2024/papers/Li_A_Video_is_Worth_256_Bases_Spatial-Temporal_Expectation-Maximization_Inversion_for_CVPR_2024_paper.pdf", "https://arxiv.org/abs/2312.05856", "https://arxiv.org/pdf/2312.05856", "https://github.com/STEM-Inv/STEM-Inv" ], "raw_entry": "raw/ingest/2026-04-14-video-worth-256-bases/", "analysis_note": "raw/ingest/2026-04-14-video-worth-256-bases/analysis.md", "topics": [ "topics/video-editing", "topics/diffusion-models" ], "entities": [ "entities/video-editing-understanding" ], "claims": [], "questions": [ "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }

A Video is Worth 256 Bases以时空 EM 低秩基改进零样本视频反演

一句话结论

接口、方法与底座

数据、结果与成本

Human、污染与边界

证据评级

原始链接

相关页面

Referenced by2

一句话结论

接口、方法与底座

数据、结果与成本

Human、污染与边界

证据评级

原始链接

相关页面

Related pages

Related topics2

Related entities1

Related questions1

Referenced by2