STI-Bench(ICCV 2025):多模态大模型是否已准备好进行精确时空世界理解
会议:ICCV 2025
发表日期:2025-01-01
资料加入日期:2026-04-14
一句话结论
这篇工作把精确时空世界理解 benchmark 补进库里,强化了 video-understanding 对“是否真正理解时空关系”的测试层。
问题定义
它要解决的是多模态大模型看起来会做视频任务,但未必具备精确空间-时间理解的问题。对当前知识库来说,它正好补上比 MVBench 更尖锐的一类诊断基准。
方法概述
STI-Bench 通过精确 spatial-temporal world understanding 任务来测试 MLLMs,强调模型是否真的理解了视频中的时空关系而不是只抓浅层线索。
关键发现
- 它把 video-understanding 里的“精确时空理解”单独拉成 benchmark 维度。
- 它对以后判断编辑理解是否建立在真实时空理解之上非常有帮助。
- 它与 MVBench、LVBench、ANetQA 形成互补:综合、长视频、组合推理、精确时空理解。
局限或疑问
- 它更偏理解诊断,不直接面向生成或编辑控制。
- 精确时空 benchmark 的任务设计本身也会影响结论。
- 它是关键诊断层,但不是全部视频理解能力。
原始链接
- https://openaccess.thecvf.com/content/ICCV2025/html/Li_STI-Bench_Are_MLLMs_Ready_for_Precise_Spatial-Temporal_World_Understanding_ICCV_2025_paper.html
- https://openaccess.thecvf.com/content/ICCV2025/papers/Li_STI-Bench_Are_MLLMs_Ready_for_Precise_Spatial-Temporal_World_Understanding_ICCV_2025_paper.pdf
相关页面
- topics/video-understanding
- topics/generative-model-evaluation
- topics/vision-language
- questions/question-do-benchmarks-track-real-video-editing-understanding
备注
STI-Bench 在这套库里的作用,是把精确时空世界理解 benchmark 补成 video-understanding 的重要分支。