GlitchBench：大型多模态模型能否识别电子游戏故障

一句话结论

这篇工作把视频理解中的异常/故障识别能力拿来系统化测试，补强了 video-understanding 的诊断 benchmark 层。

问题定义

它要解决的是大型多模态模型是否真的能识别视频中的异常视觉现象和动态故障。对当前知识库来说，它和 HallusionBench 一起加强了理解失败模式的评测层。

方法概述

GlitchBench 构建面向视频游戏故障识别的 benchmark，用来测试大多模态模型在动态视觉异常诊断中的能力。

关键发现

它说明 video-understanding 的 benchmark 不只围绕常规动作或问答，也可以围绕异常诊断展开。
它为“模型到底有没有看懂动态异常现象”提供了很好的细分测试面。
它能和 HallusionBench 形成互补：一个偏视频异常，一个偏视觉语言幻觉。

局限或疑问

它更偏诊断类视频理解，而不是直接面向视频编辑。
游戏故障场景与一般真实视频场景之间仍有域差异。
它适合补强评测层，但不能单独代表视频理解全貌。

原始链接

https://arxiv.org/abs/2312.05291
https://arxiv.org/pdf/2312.05291

备注

GlitchBench 在这套库里的作用，是把视频异常诊断 benchmark 这条线补入 video-understanding 与 evaluation。

元数据

{ "id": "2026-04-14-glitchbench", "type": "source", "title": "GlitchBench（CVPR 2024）：大型多模态模型能否识别电子游戏故障", "status": "reviewed", "created": "2026-04-14", "updated": "2026-04-15", "venue": "CVPR 2024", "ingested_at": "2026-04-14", "tags": [ "near-cvpr-2025", "evaluation", "benchmarking", "video-understanding", "primary-source" ], "note_status": "reviewed", "source_type": "paper", "authors": [ "Taesiri, Mohammad Reza", "Feng, Tianjun", "Nguyen, Anh", "Bezemer, Cor-Paul" ], "published_at": "2023/12/08", "canonical_links": [ "https://arxiv.org/abs/2312.05291", "https://arxiv.org/pdf/2312.05291" ], "raw_entry": "raw/ingest/2026-04-14-glitchbench/", "topics": [ "topics/generative-model-evaluation", "topics/video-understanding" ], "entities": [], "claims": [], "questions": [ "questions/question-do-benchmarks-track-real-video-editing-understanding" ] }

GlitchBench大型多模态模型能否识别电子游戏故障