HallusionBench(CVPR 2024):大型视觉语言模型中的幻觉与视觉错觉诊断基准
会议:CVPR 2024
发表日期:2023-10-23
资料加入日期:2026-04-14
一句话结论
这篇工作把多模态模型里的 hallucination / illusion 诊断问题系统化,补强了理解与评测层的能力审计路线。
问题定义
它要解决的是大型视觉语言模型在复杂视觉推理中经常出现的纠缠式幻觉与视觉错觉问题。对当前知识库来说,它有助于填厚 video-understanding 与 evaluation 的诊断层。
方法概述
HallusionBench 构建一套高级诊断基准,用于分析大视觉语言模型中的 entangled language hallucination 和 visual illusion,强调能力失败模式的系统性刻画。
关键发现
- 它说明评测层不仅要给模型打分,还要专门审计失败模式。
- 它为 video-understanding 页补入了“理解失败如何被诊断”的关键视角。
- 它与现有 human-aligned / LMM evaluator 路线互补,因为它更强调模型理解偏差而不是纯生成质量。
局限或疑问
- 它更偏诊断与理解审计,不直接面向视频编辑任务本身。
- 从 hallucination 诊断到实际编辑能力评价之间仍有距离。
- 它更适合做理解与评测补层,而不是直接充当生成 benchmark。
原始链接
- https://arxiv.org/abs/2310.14566
- https://arxiv.org/pdf/2310.14566
相关页面
- topics/generative-model-evaluation
- topics/vision-language
- topics/video-understanding
- questions/question-do-benchmarks-track-real-video-editing-understanding
备注
HallusionBench 在这套库里的作用,是把多模态理解失败模式诊断这条评测线补成明确节点。