STI-Bench：精确时空世界理解基准

一句话结论

STI-Bench 证明“能做视频语义 QA”不等于“能量化理解物理世界”：最佳 MLLM 仅 41.4%，主要失败在空间量化、时间动力学和跨模态 grounding。

论文定位

直接测量：从 RGB 视频推断尺寸、距离、方向、速度、加速度、轨迹和相机位姿。
与其他基准的区别：MVBench 测通用短视频时序；LVBench 测长时记忆；STI-Bench 测精确物理/几何量。
不直接测量：生成质量、人类偏好、长视频或编辑执行。

方法与数据

数据与任务设计

300 余个真实视频、2,064 个五选一 QA，随机基线 20%。
Waymo 室外驾驶、ScanNet 室内、Omni6DPose 桌面三种尺度。
原数据的点云、相机参数和 3D 标注用于计算真值；模型只接收 RGB 视频。
GPT 辅助生成描述/问答，人工多轮过滤；数值干扰项按桌面 0.5–5 cm、室内 5–50 cm、室外 0.5–5 m 的尺度构造。
八任务：Dimensional Measurement、Spatial Relation、3D Video Grounding、Displacement & Path Length、Speed & Acceleration、Ego-Centric Orientation、Trajectory Description、Pose Estimation。

核心结果

Gemini-2.5-Pro 41.4%，Qwen2.5-VL-72B 40.7%，Claude-3.7 40.5%；所有模型虽高于随机，离可靠具身应用仍远。
Spatial Relation 最佳 53.8%、Pose Estimation 最佳 62.6%，但精确数值更难：Dimensional Measurement 最佳 38.7%，Displacement & Path Length 最佳 33.9%。
Qwen2.5-VL 是最强开源模型且接近闭源模型，表明开放/闭源或规模不是唯一因素。
场景差异明显：Gemini-2.5-Pro 室外 48.7%、室内 37.1%、桌面 35.8%；尺度与训练分布影响显著。

错误诊断

对 Gemini-2.5-Pro 的错误抽样分类：

空间量化不准 56.44%：缺尺度参照、单目深度困难、近邻数值难区分；
时间动力学错误 23.08%：跨帧跟踪、位移/速度计算、相机与物体运动分离失败；
跨模态 grounding/整合弱 16.68%：误读时间范围、初始位姿、坐标/时间戳与视觉对象的对应；
其他约 3.8%。

模型会产生看似合理的代码和物理解释，却因自设尺度/半径答错，说明“有推理链”不等于 grounded quantity reasoning。

消融/诊断边界

论文主要做跨模型、任务、场景和错误类型分析，没有系统改变帧率、输入传感器、数值容差或显式相机参数。统一 30 帧便于比较，但无法分离稀疏采样、单目不可辨识与推理能力的贡献；Claude 仅 20 帧又造成轻微不一致。

局限或疑问

五选一准确率不是连续数值误差，干扰项间距会改变难度。
单目 RGB 的绝对尺度有天然歧义；部分低分反映信息不足而非纯推理失败。
只有三类数据源/300 余视频；复杂交互、遮挡、真实机器人操作不足。
缺少人类表现、SLAM/几何基线和深度/点云上界。
GPT 辅助 QA 即使人工审核仍可能有模板偏差。
统一 30 帧可能伤害高速运动，且重点不是长上下文。

对 benchmark question 的证据分类

维度	分类	解释
视频理解	直接强证据	量化时空/物理能力
生成质量	非目标	不评估生成输出
人类偏好	非目标	无偏好标注
长视频	非目标/有限	统一 30 帧，重点非长上下文
时空世界理解	直接最强证据	3D、尺度、速度、轨迹、位姿
视频编辑理解	间接机制证据	位置/运动是必要基础，但无编辑任务

对当前 wiki 判断的影响

STI-Bench 支持把“语义视频理解”与“精确时空世界理解”拆成两层。对 questions/question-do-benchmarks-track-real-video-editing-understanding，它提供机制性必要条件：连对象/相机运动和尺度都不稳的模型，很难可靠执行复杂空间/运动编辑；但 STI-Bench 本身仍不能证明编辑意图理解。

原始链接

{ "id": "2026-04-14-sti-bench", "type": "source", "title": "STI-Bench：精确时空世界理解基准", "status": "reviewed", "created": "2026-04-14", "updated": "2026-07-12", "venue": "ICCV 2025", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "video-understanding", "benchmarking", "vision-language", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Yun Li", "Yiming Zhang", "Tao Lin", "Xiangrui Liu", "Wenxiao Cai", "Zheng Liu", "Bo Zhao" ], "published_at": "2025-01-01", "canonical_links": [ "https://openaccess.thecvf.com/content/ICCV2025/html/Li_STI-Bench_Are_MLLMs_Ready_for_Precise_Spatial-Temporal_World_Understanding_ICCV_2025_paper.html", "https://openaccess.thecvf.com/content/ICCV2025/papers/Li_STI-Bench_Are_MLLMs_Ready_for_Precise_Spatial-Temporal_World_Understanding_ICCV_2025_paper.pdf" ], "raw_entry": "raw/ingest/2026-04-14-sti-bench/", "analysis_note": "raw/ingest/2026-04-14-sti-bench/analysis.md", "topics": [ "topics/video-understanding", "topics/generative-model-evaluation", "topics/vision-language" ], "entities": [], "claims": [], "questions": [ "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }

STI-Bench精确时空世界理解基准

一句话结论

论文定位

方法与数据

数据与任务设计

核心结果

错误诊断

消融/诊断边界

局限或疑问

对 benchmark question 的证据分类

对当前 wiki 判断的影响

相关页面

原始链接

被引用6

一句话结论

论文定位

方法与数据

数据与任务设计

核心结果

错误诊断

消融/诊断边界

局限或疑问

对 benchmark question 的证据分类

对当前 wiki 判断的影响

相关页面

原始链接

关联页面

相关主题3

相关问题1

被引用6