GlitchBench：大型多模态模型能否识别电子游戏故障

一句话结论

GlitchBench 用 593 张游戏 glitch 截图和开放式自由文本问答证明 2023 年末 LMM 对长尾异常发现仍很弱；但主任务是单帧诊断而非视频理解，更不是视频编辑理解的直接证据。

论文定位与任务接口

这是 failure benchmark：输入一张游戏截图，不给位置、类别或候选答案，模型回答 “What is unusual?”、“What is wrong?”；“Describe in detail” 只作宽松感知上限。Llama-2-70B-Chat 将自由回答与一句 ground truth 做语义二元判分。

数据虽源自游戏视频，作者专门筛掉必须依赖时间上下文的 glitch，因此不能把它写成连续视频故障检测 benchmark。

数据规模

593 张 glitch 图，覆盖 205 款游戏；另有 330 张无 glitch 负例。
真实来源分项为 GamePhysics 513 张，Unity 合成 75 张；513+75=588，与论文总数 593 存在 5 张未解释差异。
四类 failure：Physics/Collision/Spawn 422，Animation/Pose 75，Rendering/Texture 67，Camera/UI/Lighting 26；类别可重叠。
每个 glitch 保留原视频、代表帧、一句描述与 Reddit 讨论，但主评测只用代表帧。

主要结果与人评

GPT-4V：Q1 57.2%、Q2 29.5%、主平均 43.4%；详述 Q3 为 64.9%。
最佳开源 LLaVA-1.5-13B：平均 35.5%。
GPT-4V 对无 glitch 图平均 91.6%；Animation/Pose 最难。
对 150 个视频追加 glitch 前后帧后，GPT-4V Q1 从 39% 降至 36%、Q2 从 35% 降至 28%，没有显示简单多帧输入收益。
judge 校验每模型 20 个回答、共 220 个；总体 Cohen’s $\kappa$ 均值约 0.64，但 Fuyu 为 -0.09。这里的人评只验证 judge，不是用户偏好研究。

成本与复现

benchmark 不训练模型，但需要多模型推理和 Llama-2-70B judge。GPT-4V 通过 ChatGPT 网页版 + Chrome extension 运行，OtterHD 和 judge 走 API；论文未报告 GPU、总时长、token 或 API 成本。

关键局限

排除了纯时序 glitch，无法衡量运动、闪烁或跨帧错误。
游戏 / open-world 分布偏置明显，类别 taxonomy 由 GPT-4 辅助且无独立一致性评估。
单句 ground truth 与 LLM judge 会漏接合理描述或接受附带幻觉。
没有完整正负例混淆矩阵、置信区间或 judge 成本。

对当前 Wiki 判断的影响

对生成模型评测：支持开放式 failure discovery、细粒度 taxonomy 与 judge 审计的重要性。
对视频理解：只能作为单帧异常诊断的邻近证据。
对现有 benchmark 是否跟踪真实视频编辑理解：可借用穿模、姿态扭曲、纹理缺失等 failure taxonomy，但没有 source/edited pair、编辑指令或时序指标。

证据评级

B（单帧异常诊断的直接证据；对视频编辑理解为 C- 邻近证据）。结果和 judge 校验可复核，但任务主动去除了时序依赖。

原始链接

相关页面

{ "id": "2026-04-14-glitchbench", "type": "source", "title": "GlitchBench：大型多模态模型能否识别电子游戏故障", "status": "reviewed", "created": "2026-04-14", "updated": "2026-07-12", "venue": "CVPR 2024", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "evaluation", "benchmarking", "video-understanding", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Mohammad Reza Taesiri", "Tianjun Feng", "Anh Totti Nguyen", "Cor-Paul Bezemer" ], "published_at": "2023-12-08", "canonical_links": [ "https://openaccess.thecvf.com/content/CVPR2024/html/Taesiri_GlitchBench_Can_Large_Multimodal_Models_Detect_Video_Game_Glitches_CVPR_2024_paper.html", "https://openaccess.thecvf.com/content/CVPR2024/papers/Taesiri_GlitchBench_Can_Large_Multimodal_Models_Detect_Video_Game_Glitches_CVPR_2024_paper.pdf", "https://glitchbench.github.io/", "https://github.com/GlitchBench/Benchmark" ], "raw_entry": "raw/ingest/2026-04-14-glitchbench/", "analysis_note": "raw/ingest/2026-04-14-glitchbench/analysis.md", "topics": [ "topics/generative-model-evaluation", "topics/video-understanding" ], "entities": [], "claims": [], "questions": [ "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }

GlitchBench大型多模态模型能否识别电子游戏故障

一句话结论

论文定位与任务接口

数据规模

主要结果与人评

成本与复现

关键局限

对当前 Wiki 判断的影响

证据评级

原始链接

相关页面

被引用4

一句话结论

论文定位与任务接口

数据规模

主要结果与人评

成本与复现

关键局限

对当前 Wiki 判断的影响

证据评级

原始链接

相关页面

关联页面

相关主题2

相关问题1

被引用4