面向文本到图像生成的可验证与可复现人工评测(CVPR 2023)
会议:CVPR 2023
发表日期:2023/04/04
资料加入日期:2026-04-14
一句话结论
这篇工作把“人类评测本身如何做得可验证、可复现”变成研究问题,补强了生成评测的制度层。
问题定义
它要解决的是文本到图像生成里人类评测常常主观、难复现、难公平比较的问题。对当前知识库来说,它补的是 evaluation 主线里很关键但容易被忽视的一层:不是只造 benchmark,而是改造评测流程本身。
方法概述
这项工作围绕文本到图像生成的人类评测协议做设计,强调评测过程的可验证性与可复现性,希望让不同模型之间的人工比较更可信、更可复查。
关键发现
- 它说明生成模型评测不只是找新指标,还包括把人工评测做成更稳定的制度化流程。
- 它与 FlashEval、AIGV-Assessor、Video-Bench 形成互补:一个偏人工协议,一个偏快速评测器,一个偏 LMM evaluator,一个偏 human-aligned benchmark。
- 它能帮助我们以后判断哪些评测结论更值得信。
局限或疑问
- 即使流程更可复现,人类评测仍然可能受任务设计和样本选择影响。
- 它主要针对文本到图像,不直接覆盖视频编辑理解问题。
- 它改善了评测可信度,但不自动提升评测覆盖的能力维度。
原始链接
- https://arxiv.org/abs/2304.01816
- https://arxiv.org/pdf/2304.01816
相关页面
- topics/image-generation
- topics/generative-model-evaluation
- questions/question-do-benchmarks-track-real-video-editing-understanding
备注
这篇工作在这套库里的作用,是把生成模型评测中的“人工评测协议治理”补成明确分支。