Tags
#autoregressive
#benchmark
- 视频编辑理解entity
#benchmarking
- AIGV-Assessor(CVPR 2025):用大模型评测文本到视频生成感知质量source
- ANetQA(CVPR 2023):面向未裁剪视频细粒度组合推理的大规模基准source
- AthletePose3D(CVPR Workshop 2025):真实体育 3D 姿态与生物力学锚点source
- AthleticsPose(arXiv 2025):AthleticsPose 聚焦真实田径动作中的 3D 姿态估计与泛化评估。source
- ConCon-Chi(CVPR 2024):面向个性化视觉语言任务的概念-上下文嵌合基准source
- EvalCrafter(CVPR 2024):大视频生成模型的评测与基准source
- FiVE-Bench(ICCV 2025):细粒度视频编辑评测基准source
- FineDiving Repository(GitHub repository):FineDiving 仓库提供数据集与代码入口。source
- FineDiving(CVPR 2022):技术动作评分与过程理解锚点source
- FineGym(CVPR 2020):体育 AI 的细粒度动作理解早期锚点source
- FineSports(CVPR 2024):多人层级细粒度体育动作数据锚点source
- FlashEval(CVPR 2024):快速而准确地评测文本到图像扩散模型source
- GlitchBench(CVPR 2024):大型多模态模型能否识别电子游戏故障source
- HallusionBench(CVPR 2024):大型视觉语言模型中的幻觉与视觉错觉诊断基准source
- Imagen Editor 与 EditBench(CVPR 2023):推进并评测文本引导图像修补source
- LOGO(CVPR 2023):群体动作质量评估锚点source
- LVBench(ICCV 2025):极限长视频理解基准source
- MAPLM(CVPR 2024):面向地图与交通场景理解的真实世界大规模视觉语言基准source
- MMMU(CVPR 2024):面向专家级 AGI 的大规模多学科多模态理解与推理基准source
- MVBench(CVPR 2024):综合性的多模态视频理解基准source
- MultiSports(ICCV 2021):多人时空动作定位的数据锚点source
- OpenCap(PLOS Computational Biology / PMC 2023):OpenCap 用智能手机视频估计人体运动学与动力学,降低实验室级运动捕捉门槛。source
- SOK-Bench(CVPR 2024):带开放世界知识对齐的情境视频推理基准source
- STI-Bench(ICCV 2025):多模态大模型是否已准备好进行精确时空世界理解source
- SoccerNet Action Spotting(SoccerNet official task):SoccerNet action spotting 是足球视频事件定位的核心公开任务入口。source
- SportsCap(arXiv 2021):SportsCap 研究单目体育视频中的 3D 人体运动捕捉和细粒度动作理解。source
- SportsHHI(CVPR 2024):体育视频中的高层人-人交互检测基准source
- SportsMOT Dataset Page(DeeperAction dataset page):SportsMOT 官方数据页记录数据下载、许可和基准说明。source
- SportsMOT(ICCV 2023):多运动场景下的大规模球员多目标跟踪基准source
- TeamTrack(CVPRW 2024):全场视角多运动多目标跟踪数据集source
- Temporal Parsing Transformer(ECCV 2022):Temporal Parsing Transformer 把动作质量评估拆成时序解析问题,在打分类体育动作中强调过程结构。source
- VBench(CVPR 2024):面向视频生成模型的综合评测套件source
- Video-Bench(CVPR 2025):面向视频生成的人类对齐评测基准source
- WEAR(arXiv 2023):WEAR 提供户外运动中的第一视角视频与可穿戴传感器数据,用来研究视频、IMU 与活动识别的多模态融合。source
- 体育 AI 研究路线图topic
- 体育 AI 视频理解topic
- 现有评测是否真的刻画了视频编辑理解能力question
- 生成模型评测topic
- 通过形式化验证评测文本到视频模型的神经符号方法(CVPR 2025)source
- 面向文本到图像生成的可验证与可复现人工评测(CVPR 2023)source
#conditioning
- BBDM(CVPR 2023):把 Brownian Bridge diffusion 接成图像到图像翻译主线source
- Blended Diffusion(CVPR 2022):把文本驱动自然图像编辑直接接进扩散生成过程source
- DiffusionCLIP(CVPR 2022):把文本引导图像操控更早接到 diffusion 路线里source
- High-Fidelity Guided Image Synthesis with Latent Diffusion Models(CVPR 2023):把 latent diffusion 的 guidance 质量推到更高保真source
- Plug-and-Play Diffusion Features(CVPR 2023):把 diffusion feature 直接变成文本驱动图像翻译接口source
- Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance(CVPR 2024):把 CFG 的空间不一致问题拉到前台source
#control
- AnyDoor(CVPR 2024):零样本对象级图像定制source
- CAMEL(CVPR 2024):面向文本驱动视频编辑的因果运动增强source
- Check, Locate, Rectify(CVPR 2024):文本到图像生成的训练免费布局校准系统source
- Condition-Aware Neural Network for Controlled Image Generation(CVPR 2024):面向可控图像生成的条件感知网络source
- LayoutDiffusion(CVPR 2023):面向布局到图像生成的可控扩散模型source
- MotionFollower(ICCV 2025):通过 score-guided diffusion 编辑视频运动source
- QK-Edit(ICCV 2025):在 MM-DiT 中重新审视图像与视频编辑的 attention 注入source
- ReCo(CVPR 2023):区域控制的文本到图像生成source
- Shape-aware Text-driven Layered Video Editing(CVPR 2023):形状感知的分层文本视频编辑source
#dataset
- SportsMOTentity
#diffusion
- A Video is Worth 256 Bases(CVPR 2024):零样本视频编辑的时空 EM 反演source
- A-STAR(ICCV 2023):在测试时直接修 cross-attention 的概念冲突与遗忘source
- ACT-Diffusion(CVPR 2024):用对抗一致性训练把一步扩散做得更省source
- AVID(CVPR 2024):基于扩散模型的任意长度视频修补source
- Accelerating Diffusion Sampling with Optimized Time Steps(CVPR 2024):用优化时间步加速扩散采样source
- Accelerating Diffusion Transformer via Gradient-Optimized Cache(arXiv):用梯度优化缓存继续压缩 DiT 推理成本source
- Adding Conditional Control to Text-to-Image Diffusion Models(ICCV 2023):把条件控制做成 diffusion 的通用侧支接口source
- All Are Worth Words(CVPR 2023):把 ViT 直接变成扩散模型主干source
- Analyzing and Improving the Training Dynamics of Diffusion Models(CVPR 2024):修正扩散训练动力学的缩放失衡source
- Attend-and-Excite(TOG 2023):在推理时主动修复 diffusion 的语义遗漏source
- BBDM(CVPR 2023):把 Brownian Bridge diffusion 接成图像到图像翻译主线source
- Blended Diffusion(CVPR 2022):把文本驱动自然图像编辑直接接进扩散生成过程source
- BoxDiff(ICCV 2023):不用训练,直接把框约束压进 diffusion 采样过程source
- C3Net(CVPR 2024):把 ControlNet 从单条件接口推进到多模态复合条件接口source
- CAMEL(CVPR 2024):面向文本驱动视频编辑的因果运动增强source
- CCEdit(CVPR 2024):创意且可控的视频编辑source
- CONFORM(CVPR 2024):用对比学习提升高保真文本到图像扩散模型source
- CoDi(CVPR 2024):用于更高保真且更快图像生成的条件扩散蒸馏source
- Come-Closer-Diffuse-Faster(CVPR 2022):用随机收缩把条件扩散的采样路径压得更短source
- CommonCanvas(CVPR 2024):在 Creative Commons 图像上训练的开放扩散模型source
- Contrastive Denoising Score(CVPR 2024):用于文本引导潜扩散图像编辑的对比去噪评分source
- DC-ControlNet(arXiv 2025):把多元素条件控制拆成 inter-element / intra-element 两层接口source
- DLT(ICCV 2023):把 layout generation 做成离散-连续联合 diffusionsource
- DeepCache(CVPR 2024):用特征缓存免费加速扩散模型source
- DenseDiffusion(ICCV 2023):用 attention modulation 让 dense caption 和布局控制真正可用source
- Diffusion Autoencoders(CVPR 2022):为扩散模型补上更可解释、可解码的语义表征层source
- Diffusion Models Without Attention(CVPR 2024):不用注意力也能做高分辨率扩散source
- DiffusionCLIP(CVPR 2022):把文本引导图像操控更早接到 diffusion 路线里source
- Distilling ODE Solvers of Diffusion Models into Smaller Steps(CVPR 2024):把扩散求解器蒸馏到更少步数source
- Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models(arXiv):把并行梯度蒸馏接进快速 ODE solver 路线source
- EDICT(CVPR 2023):把精确 diffusion inversion 变成真实图像编辑的关键接口source
- FreeU(CVPR 2024):不重训也能提质的扩散 U-Net 调参source
- High-Fidelity Guided Image Synthesis with Latent Diffusion Models(CVPR 2023):把 latent diffusion 的 guidance 质量推到更高保真source
- Imagic(CVPR 2023):基于扩散模型的文本真实图像编辑source
- Latent Diffusion Models(CVPR 2022):高分辨率图像合成的潜空间扩散框架source
- LayoutDiffusion(CVPR 2023):面向布局到图像生成的可控扩散模型source
- LayoutDiffusion(ICCV 2023):把 graphic layout generation 做成离散 diffusion 的标准接口source
- MotionEditor(CVPR 2024):基于内容感知扩散的视频运动编辑source
- MotionFollower(ICCV 2025):通过 score-guided diffusion 编辑视频运动source
- MotionStone(CVPR 2025):用 DiT 解耦运动强度调制的图像到视频生成source
- MultiDiffusion(arXiv 2023):把多条 diffusion 轨迹绑成统一的受控生成框架source
- NULL-Text Inversion(CVPR 2023):用 guided diffusion 编辑真实图像source
- On Distillation of Guided Diffusion Models(CVPR 2023):把 classifier-free guided diffusion 蒸馏到极少步采样source
- Plug-and-Play Diffusion Features(CVPR 2023):把 diffusion feature 直接变成文本驱动图像翻译接口source
- Post-Training Quantization on Diffusion Models(CVPR 2023):把扩散模型推理进一步压到低比特部署source
- Prompt-to-Prompt(arXiv 2022):把 cross-attention 直接变成文本编辑控制面板source
- QK-Edit(ICCV 2025):在 MM-DiT 中重新审视图像与视频编辑的 attention 注入source
- RAVE(CVPR 2024):通过随机噪声重排实现快速且一致的视频编辑source
- Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance(CVPR 2024):把 CFG 的空间不一致问题拉到前台source
- SANA-Sprint(arXiv):用连续时间一致性蒸馏把一步扩散再往前推source
- SLD(CVPR 2024):把 diffusion 生成改成 LLM 驱动的闭环自纠错系统source
- Scalable Diffusion Models with Transformers(ICCV 2023):DiT 把 Transformer 真正坐实为可扩展扩散主干source
- Self-Guided Diffusion Models(CVPR 2023):把 guidance 从外部条件器部分收回到模型内部结构source
- Specialist Diffusion(CVPR 2023):可插拔且样本高效的文本到图像扩散微调source
- StableVideo(ICCV 2023):文本驱动且一致性感知的扩散视频编辑source
- Text Embedding Knows How to Quantize Text-Guided Diffusion Models(arXiv):把文本嵌入直接拉进 text-guided diffusion 量化链路source
- Towards Practical Plug-and-Play Diffusion Models(CVPR 2023):把 diffusion 提速做成可插拔工程模块source
- Video-P2P(ICCV 2023):基于 cross-attention control 的视频编辑source
- Wavelet Diffusion Models(CVPR 2023):快速且可扩展的图像生成器source
- 加速迭代扩散反演的真实图像编辑(ICCV 2023)source
- 图像生成topic
- 图像编辑topic
- 扩散 Transformerentity
- 扩散 Transformer 正在成为默认的可扩展生成主干claim
- 扩散效率工程topic
- 扩散模型topic
- 用于文本驱动图像编辑的 Prompt Tuning Inversion(ICCV 2023)source
- 视频生成topic
- 视频编辑topic
#editing
#efficiency
- A-STAR(ICCV 2023):在测试时直接修 cross-attention 的概念冲突与遗忘source
- ACT-Diffusion(CVPR 2024):用对抗一致性训练把一步扩散做得更省source
- Accelerating Diffusion Sampling with Optimized Time Steps(CVPR 2024):用优化时间步加速扩散采样source
- Accelerating Diffusion Transformer via Gradient-Optimized Cache(arXiv):用梯度优化缓存继续压缩 DiT 推理成本source
- Adding Conditional Control to Text-to-Image Diffusion Models(ICCV 2023):把条件控制做成 diffusion 的通用侧支接口source
- Attend-and-Excite(TOG 2023):在推理时主动修复 diffusion 的语义遗漏source
- BoxDiff(ICCV 2023):不用训练,直接把框约束压进 diffusion 采样过程source
- C3Net(CVPR 2024):把 ControlNet 从单条件接口推进到多模态复合条件接口source
- CoDi(CVPR 2024):用于更高保真且更快图像生成的条件扩散蒸馏source
- Come-Closer-Diffuse-Faster(CVPR 2022):用随机收缩把条件扩散的采样路径压得更短source
- DC-ControlNet(arXiv 2025):把多元素条件控制拆成 inter-element / intra-element 两层接口source
- DeepCache(CVPR 2024):用特征缓存免费加速扩散模型source
- DenseDiffusion(ICCV 2023):用 attention modulation 让 dense caption 和布局控制真正可用source
- Distilling ODE Solvers of Diffusion Models into Smaller Steps(CVPR 2024):把扩散求解器蒸馏到更少步数source
- Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models(arXiv):把并行梯度蒸馏接进快速 ODE solver 路线source
- Fairy(CVPR 2024):快速并行的指令引导视频到视频合成source
- FreeU(CVPR 2024):不重训也能提质的扩散 U-Net 调参source
- MultiDiffusion(arXiv 2023):把多条 diffusion 轨迹绑成统一的受控生成框架source
- On Distillation of Guided Diffusion Models(CVPR 2023):把 classifier-free guided diffusion 蒸馏到极少步采样source
- Post-Training Quantization on Diffusion Models(CVPR 2023):把扩散模型推理进一步压到低比特部署source
- RAVE(CVPR 2024):通过随机噪声重排实现快速且一致的视频编辑source
- SANA-Sprint(arXiv):用连续时间一致性蒸馏把一步扩散再往前推source
- SLD(CVPR 2024):把 diffusion 生成改成 LLM 驱动的闭环自纠错系统source
- Self-Guided Diffusion Models(CVPR 2023):把 guidance 从外部条件器部分收回到模型内部结构source
- Specialist Diffusion(CVPR 2023):可插拔且样本高效的文本到图像扩散微调source
- Text Embedding Knows How to Quantize Text-Guided Diffusion Models(arXiv):把文本嵌入直接拉进 text-guided diffusion 量化链路source
- Towards Practical Plug-and-Play Diffusion Models(CVPR 2023):把 diffusion 提速做成可插拔工程模块source
- VidToMe(CVPR 2024):用于零样本视频编辑的视频 token mergingsource
- Wavelet Diffusion Models(CVPR 2023):快速且可扩展的图像生成器source
- 扩散效率工程topic
- 扩散模型topic
#evaluation
- AIGV-Assessor(CVPR 2025):用大模型评测文本到视频生成感知质量source
- ANetQA(CVPR 2023):面向未裁剪视频细粒度组合推理的大规模基准source
- ConCon-Chi(CVPR 2024):面向个性化视觉语言任务的概念-上下文嵌合基准source
- EvalCrafter(CVPR 2024):大视频生成模型的评测与基准source
- FiVE-Bench(ICCV 2025):细粒度视频编辑评测基准source
- FlashEval(CVPR 2024):快速而准确地评测文本到图像扩散模型source
- GlitchBench(CVPR 2024):大型多模态模型能否识别电子游戏故障source
- HallusionBench(CVPR 2024):大型视觉语言模型中的幻觉与视觉错觉诊断基准source
- Imagen Editor 与 EditBench(CVPR 2023):推进并评测文本引导图像修补source
- LVBench(ICCV 2025):极限长视频理解基准source
- MAPLM(CVPR 2024):面向地图与交通场景理解的真实世界大规模视觉语言基准source
- MMMU(CVPR 2024):面向专家级 AGI 的大规模多学科多模态理解与推理基准source
- MVBench(CVPR 2024):综合性的多模态视频理解基准source
- NIST AI RMF(NIST):NIST AI RMF 提供 AI 风险管理框架。source
- SOK-Bench(CVPR 2024):带开放世界知识对齐的情境视频推理基准source
- VBench(CVPR 2024):面向视频生成模型的综合评测套件source
- Video-Bench(CVPR 2025):面向视频生成的人类对齐评测基准source
- 生成模型评测topic
- 视频编辑理解entity
- 通过形式化验证评测文本到视频模型的神经符号方法(CVPR 2025)source
- 面向文本到图像生成的可验证与可复现人工评测(CVPR 2023)source
#high-confidence
#image-editing
- AnyDoor(CVPR 2024):零样本对象级图像定制source
- AnyEdit(CVPR 2025):面向任意创意的统一高质量图像编辑source
- BBDM(CVPR 2023):把 Brownian Bridge diffusion 接成图像到图像翻译主线source
- Blended Diffusion(CVPR 2022):把文本驱动自然图像编辑直接接进扩散生成过程source
- Concept Weaver(CVPR 2024):在文本到图像模型中实现多概念融合source
- Contrastive Denoising Score(CVPR 2024):用于文本引导潜扩散图像编辑的对比去噪评分source
- Customization Assistant(CVPR 2024):面向文本到图像生成的定制辅助系统source
- DIVE(ICCV 2025):用 DINO 做主体驱动视频编辑source
- DiffEditor(CVPR 2024):提升扩散式图像编辑的精度与灵活性source
- DiffusionCLIP(CVPR 2022):把文本引导图像操控更早接到 diffusion 路线里source
- DreamBooth(CVPR 2023):面向主体驱动生成的文本到图像扩散微调source
- DreamOmni(CVPR 2025):统一图像生成与编辑source
- EDICT(CVPR 2023):把精确 diffusion inversion 变成真实图像编辑的关键接口source
- FireEdit(CVPR 2025):基于区域感知视觉语言模型的细粒度指令图像编辑source
- FramePainter(ICCV 2025):用视频扩散先验增强交互式图像编辑source
- Imagen Editor 与 EditBench(CVPR 2023):推进并评测文本引导图像修补source
- Imagic(CVPR 2023):基于扩散模型的文本真实图像编辑source
- InsViE-1M(ICCV 2025):通过精细数据构造实现有效的 instruction-based 视频编辑source
- InsightEdit(CVPR 2025):迈向更强指令跟随的图像编辑source
- InstructPix2Pix(CVPR 2023):学习遵循图像编辑指令source
- NULL-Text Inversion(CVPR 2023):用 guided diffusion 编辑真实图像source
- Paint by Example(CVPR 2023):基于示例的扩散图像编辑source
- Pathways on the Image Manifold(CVPR 2025):通过视频生成做图像编辑source
- Pix2Video:利用图像扩散进行视频编辑source
- Plug-and-Play Diffusion Features(CVPR 2023):把 diffusion feature 直接变成文本驱动图像翻译接口source
- Prompt-to-Prompt(arXiv 2022):把 cross-attention 直接变成文本编辑控制面板source
- QK-Edit(ICCV 2025):在 MM-DiT 中重新审视图像与视频编辑的 attention 注入source
- SwiftEdit(CVPR 2025):基于一步扩散的极速文本引导图像编辑source
- UniReal(CVPR 2025):通过学习真实世界动态实现通用图像生成与编辑source
- 加速迭代扩散反演的真实图像编辑(ICCV 2023)source
- 图像生成与编辑统一建模entity
- 图像编辑topic
- 图像编辑的进步主要来自数据扩展还是架构升级question
- 文本到图像扩散中的多概念定制(CVPR 2023)source
- 用于文本驱动图像编辑的 Prompt Tuning Inversion(ICCV 2023)source
- 统一图像生成-编辑模型可能会胜过专用流水线claim
- 统一图像生成编辑模型能否持续压过专用流水线question
- 通过图像特定提示学习实现零样本生成模型适配(CVPR 2023)source
#image-generation
- A-STAR(ICCV 2023):在测试时直接修 cross-attention 的概念冲突与遗忘source
- ACT-Diffusion(CVPR 2024):用对抗一致性训练把一步扩散做得更省source
- Accelerating Diffusion Sampling with Optimized Time Steps(CVPR 2024):用优化时间步加速扩散采样source
- Accelerating Diffusion Transformer via Gradient-Optimized Cache(arXiv):用梯度优化缓存继续压缩 DiT 推理成本source
- Adding Conditional Control to Text-to-Image Diffusion Models(ICCV 2023):把条件控制做成 diffusion 的通用侧支接口source
- All Are Worth Words(CVPR 2023):把 ViT 直接变成扩散模型主干source
- Analyzing and Improving the Training Dynamics of Diffusion Models(CVPR 2024):修正扩散训练动力学的缩放失衡source
- AnyDoor(CVPR 2024):零样本对象级图像定制source
- AnyEdit(CVPR 2025):面向任意创意的统一高质量图像编辑source
- Attend-and-Excite(TOG 2023):在推理时主动修复 diffusion 的语义遗漏source
- Attention Calibration for Disentangled Text-to-Image Personalization(CVPR 2024):解耦式文本到图像个性化的注意力校准source
- BoxDiff(ICCV 2023):不用训练,直接把框约束压进 diffusion 采样过程source
- C3Net(CVPR 2024):把 ControlNet 从单条件接口推进到多模态复合条件接口source
- CONFORM(CVPR 2024):用对比学习提升高保真文本到图像扩散模型source
- Check, Locate, Rectify(CVPR 2024):文本到图像生成的训练免费布局校准系统source
- CoDi(CVPR 2024):用于更高保真且更快图像生成的条件扩散蒸馏source
- Come-Closer-Diffuse-Faster(CVPR 2022):用随机收缩把条件扩散的采样路径压得更短source
- CommonCanvas(CVPR 2024):在 Creative Commons 图像上训练的开放扩散模型source
- Concept Weaver(CVPR 2024):在文本到图像模型中实现多概念融合source
- Condition-Aware Neural Network for Controlled Image Generation(CVPR 2024):面向可控图像生成的条件感知网络source
- Contrastive Denoising Score(CVPR 2024):用于文本引导潜扩散图像编辑的对比去噪评分source
- CosmicMan(CVPR 2024):面向人物的文本到图像基础模型source
- Customization Assistant(CVPR 2024):面向文本到图像生成的定制辅助系统source
- DC-ControlNet(arXiv 2025):把多元素条件控制拆成 inter-element / intra-element 两层接口source
- DIVE(ICCV 2025):用 DINO 做主体驱动视频编辑source
- DLT(ICCV 2023):把 layout generation 做成离散-连续联合 diffusionsource
- DeepCache(CVPR 2024):用特征缓存免费加速扩散模型source
- DenseDiffusion(ICCV 2023):用 attention modulation 让 dense caption 和布局控制真正可用source
- Diffusion Autoencoders(CVPR 2022):为扩散模型补上更可解释、可解码的语义表征层source
- Diffusion Models Without Attention(CVPR 2024):不用注意力也能做高分辨率扩散source
- Distilling ODE Solvers of Diffusion Models into Smaller Steps(CVPR 2024):把扩散求解器蒸馏到更少步数source
- Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models(arXiv):把并行梯度蒸馏接进快速 ODE solver 路线source
- Domain Expansion of Image Generators(CVPR 2023):图像生成器的领域扩展source
- DreamBooth(CVPR 2023):面向主体驱动生成的文本到图像扩散微调source
- DreamOmni(CVPR 2025):统一图像生成与编辑source
- D²iT(CVPR 2025):用于高精度图像生成的动态扩散 Transformersource
- Encapsulated Composition(CVPR 2025):组合式文本到图像/视频模型高质量视频合成source
- FireEdit(CVPR 2025):基于区域感知视觉语言模型的细粒度指令图像编辑source
- FlashEval(CVPR 2024):快速而准确地评测文本到图像扩散模型source
- FreeU(CVPR 2024):不重训也能提质的扩散 U-Net 调参source
- GLIGEN(CVPR 2023):开放集合 grounded 文本到图像生成source
- High-Fidelity Guided Image Synthesis with Latent Diffusion Models(CVPR 2023):把 latent diffusion 的 guidance 质量推到更高保真source
- InsightEdit(CVPR 2025):迈向更强指令跟随的图像编辑source
- Latent Diffusion Models(CVPR 2022):高分辨率图像合成的潜空间扩散框架source
- LayoutDiffusion(CVPR 2023):面向布局到图像生成的可控扩散模型source
- LayoutDiffusion(ICCV 2023):把 graphic layout generation 做成离散 diffusion 的标准接口source
- MultiDiffusion(arXiv 2023):把多条 diffusion 轨迹绑成统一的受控生成框架source
- OmniGen(CVPR 2025):统一图像生成source
- On Distillation of Guided Diffusion Models(CVPR 2023):把 classifier-free guided diffusion 蒸馏到极少步采样source
- Paint by Example(CVPR 2023):基于示例的扩散图像编辑source
- Pathways on the Image Manifold(CVPR 2025):通过视频生成做图像编辑source
- Post-Training Quantization on Diffusion Models(CVPR 2023):把扩散模型推理进一步压到低比特部署source
- QK-Edit(ICCV 2025):在 MM-DiT 中重新审视图像与视频编辑的 attention 注入source
- ReCo(CVPR 2023):区域控制的文本到图像生成source
- Reangle-A-Video(ICCV 2025):把 4D 视频生成重写为视频到视频翻译source
- Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance(CVPR 2024):把 CFG 的空间不一致问题拉到前台source
- SANA-Sprint(arXiv):用连续时间一致性蒸馏把一步扩散再往前推source
- SLD(CVPR 2024):把 diffusion 生成改成 LLM 驱动的闭环自纠错系统source
- Scalable Diffusion Models with Transformers(ICCV 2023):DiT 把 Transformer 真正坐实为可扩展扩散主干source
- Self-Guided Diffusion Models(CVPR 2023):把 guidance 从外部条件器部分收回到模型内部结构source
- Specialist Diffusion(CVPR 2023):可插拔且样本高效的文本到图像扩散微调source
- SwiftEdit(CVPR 2025):基于一步扩散的极速文本引导图像编辑source
- Text Embedding Knows How to Quantize Text-Guided Diffusion Models(arXiv):把文本嵌入直接拉进 text-guided diffusion 量化链路source
- Towards Practical Plug-and-Play Diffusion Models(CVPR 2023):把 diffusion 提速做成可插拔工程模块source
- UniReal(CVPR 2025):通过学习真实世界动态实现通用图像生成与编辑source
- Wavelet Diffusion Models(CVPR 2023):快速且可扩展的图像生成器source
- 图像生成topic
- 图像生成与编辑统一建模entity
- 图像编辑的进步主要来自数据扩展还是架构升级question
- 扩散效率工程topic
- 文本到图像扩散中的多概念定制(CVPR 2023)source
- 统一图像生成-编辑模型可能会胜过专用流水线claim
- 统一图像生成编辑模型能否持续压过专用流水线question
- 通过图像特定提示学习实现零样本生成模型适配(CVPR 2023)source
- 面向文本到图像生成的可验证与可复现人工评测(CVPR 2023)source
#method
- 图像生成与编辑统一建模entity
- 扩散 Transformerentity
#multimodal
#near-cvpr-2025
- A Video is Worth 256 Bases(CVPR 2024):零样本视频编辑的时空 EM 反演source
- A-STAR(ICCV 2023):在测试时直接修 cross-attention 的概念冲突与遗忘source
- ACT-Diffusion(CVPR 2024):用对抗一致性训练把一步扩散做得更省source
- AIGV-Assessor(CVPR 2025):用大模型评测文本到视频生成感知质量source
- ANetQA(CVPR 2023):面向未裁剪视频细粒度组合推理的大规模基准source
- AVID(CVPR 2024):基于扩散模型的任意长度视频修补source
- Accelerating Diffusion Sampling with Optimized Time Steps(CVPR 2024):用优化时间步加速扩散采样source
- Accelerating Diffusion Transformer via Gradient-Optimized Cache(arXiv):用梯度优化缓存继续压缩 DiT 推理成本source
- Adding Conditional Control to Text-to-Image Diffusion Models(ICCV 2023):把条件控制做成 diffusion 的通用侧支接口source
- Align-A-Video(CVPR 2025):面向一致视频编辑的确定性奖励调优source
- All Are Worth Words(CVPR 2023):把 ViT 直接变成扩散模型主干source
- Analyzing and Improving the Training Dynamics of Diffusion Models(CVPR 2024):修正扩散训练动力学的缩放失衡source
- AnyDoor(CVPR 2024):零样本对象级图像定制source
- AnyEdit(CVPR 2025):面向任意创意的统一高质量图像编辑source
- AthletePose3D(CVPR Workshop 2025):真实体育 3D 姿态与生物力学锚点source
- AthleticsPose(arXiv 2025):AthleticsPose 聚焦真实田径动作中的 3D 姿态估计与泛化评估。source
- Attend-and-Excite(TOG 2023):在推理时主动修复 diffusion 的语义遗漏source
- Attention Calibration for Disentangled Text-to-Image Personalization(CVPR 2024):解耦式文本到图像个性化的注意力校准source
- Automated Offside Detection(ACM MM Workshop 2021):这项工作把足球越位判定转成时空视频分析问题,强调规则、时刻同步和几何位置。source
- BBDM(CVPR 2023):把 Brownian Bridge diffusion 接成图像到图像翻译主线source
- Blended Diffusion(CVPR 2022):把文本驱动自然图像编辑直接接进扩散生成过程source
- BoxDiff(ICCV 2023):不用训练,直接把框约束压进 diffusion 采样过程source
- C3Net(CVPR 2024):把 ControlNet 从单条件接口推进到多模态复合条件接口source
- CAMEL(CVPR 2024):面向文本驱动视频编辑的因果运动增强source
- CCEdit(CVPR 2024):创意且可控的视频编辑source
- CONFORM(CVPR 2024):用对比学习提升高保真文本到图像扩散模型source
- Catapult Athlete Monitoring(Company product page):Catapult athlete monitoring 页面展示运动员负荷、训练监测和多模态数据产品。source
- Check, Locate, Rectify(CVPR 2024):文本到图像生成的训练免费布局校准系统source
- CoDi(CVPR 2024):用于更高保真且更快图像生成的条件扩散蒸馏source
- Come-Closer-Diffuse-Faster(CVPR 2022):用随机收缩把条件扩散的采样路径压得更短source
- CommonCanvas(CVPR 2024):在 Creative Commons 图像上训练的开放扩散模型source
- ConCon-Chi(CVPR 2024):面向个性化视觉语言任务的概念-上下文嵌合基准source
- Concept Weaver(CVPR 2024):在文本到图像模型中实现多概念融合source
- Condition-Aware Neural Network for Controlled Image Generation(CVPR 2024):面向可控图像生成的条件感知网络source
- Contrastive Denoising Score(CVPR 2024):用于文本引导潜扩散图像编辑的对比去噪评分source
- CosmicMan(CVPR 2024):面向人物的文本到图像基础模型source
- Customization Assistant(CVPR 2024):面向文本到图像生成的定制辅助系统source
- DC-ControlNet(arXiv 2025):把多元素条件控制拆成 inter-element / intra-element 两层接口source
- DIVE(ICCV 2025):用 DINO 做主体驱动视频编辑source
- DLT(ICCV 2023):把 layout generation 做成离散-连续联合 diffusionsource
- DeepCache(CVPR 2024):用特征缓存免费加速扩散模型source
- DeepLabCut(GitHub repository):DeepLabCut 是少量标注即可训练的无标记关键点追踪工具。source
- DenseDiffusion(ICCV 2023):用 attention modulation 让 dense caption 和布局控制真正可用source
- DiffEditor(CVPR 2024):提升扩散式图像编辑的精度与灵活性source
- Diffusion Autoencoders(CVPR 2022):为扩散模型补上更可解释、可解码的语义表征层source
- Diffusion Models Without Attention(CVPR 2024):不用注意力也能做高分辨率扩散source
- DiffusionCLIP(CVPR 2022):把文本引导图像操控更早接到 diffusion 路线里source
- Distilling ODE Solvers of Diffusion Models into Smaller Steps(CVPR 2024):把扩散求解器蒸馏到更少步数source
- Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models(arXiv):把并行梯度蒸馏接进快速 ODE solver 路线source
- Domain Expansion of Image Generators(CVPR 2023):图像生成器的领域扩展source
- DreamBooth(CVPR 2023):面向主体驱动生成的文本到图像扩散微调source
- DreamOmni(CVPR 2025):统一图像生成与编辑source
- DynVideo-E(CVPR 2024):利用动态 NeRF 做大尺度运动与视角变化的人体中心视频编辑source
- D²iT(CVPR 2025):用于高精度图像生成的动态扩散 Transformersource
- EDICT(CVPR 2023):把精确 diffusion inversion 变成真实图像编辑的关键接口source
- Encapsulated Composition(CVPR 2025):组合式文本到图像/视频模型高质量视频合成source
- EvalCrafter(CVPR 2024):大视频生成模型的评测与基准source
- FADE(CVPR 2025):面向视频编辑的频率感知扩散模型分解source
- Fairy(CVPR 2024):快速并行的指令引导视频到视频合成source
- FateZero(ICCV 2023):融合注意力做零样本文本视频编辑source
- FiVE-Bench(ICCV 2025):细粒度视频编辑评测基准source
- FineDiving Repository(GitHub repository):FineDiving 仓库提供数据集与代码入口。source
- FineDiving(CVPR 2022):技术动作评分与过程理解锚点source
- FineGym(CVPR 2020):体育 AI 的细粒度动作理解早期锚点source
- FineSports(CVPR 2024):多人层级细粒度体育动作数据锚点source
- FireEdit(CVPR 2025):基于区域感知视觉语言模型的细粒度指令图像编辑source
- FlashEval(CVPR 2024):快速而准确地评测文本到图像扩散模型source
- FlowVid(CVPR 2024):通过处理不完美光流实现一致的视频到视频合成source
- FramePainter(ICCV 2025):用视频扩散先验增强交互式图像编辑source
- FreeU(CVPR 2024):不重训也能提质的扩散 U-Net 调参source
- GLIGEN(CVPR 2023):开放集合 grounded 文本到图像生成source
- GlitchBench(CVPR 2024):大型多模态模型能否识别电子游戏故障source
- HallusionBench(CVPR 2024):大型视觉语言模型中的幻觉与视觉错觉诊断基准source
- High-Fidelity Guided Image Synthesis with Latent Diffusion Models(CVPR 2023):把 latent diffusion 的 guidance 质量推到更高保真source
- HomeCourt(Product page):HomeCourt 代表手机相机驱动的消费级训练反馈应用。source
- Imagen Editor 与 EditBench(CVPR 2023):推进并评测文本引导图像修补source
- Imagic(CVPR 2023):基于扩散模型的文本真实图像编辑source
- InsViE-1M(ICCV 2025):通过精细数据构造实现有效的 instruction-based 视频编辑source
- InsightEdit(CVPR 2025):迈向更强指令跟随的图像编辑source
- InstructPix2Pix(CVPR 2023):学习遵循图像编辑指令source
- KINEXON Player Tracking(Company product page):KINEXON player tracking 页面展示 UWB/GPS/LPS 球员追踪系统。source
- LOGO(CVPR 2023):群体动作质量评估锚点source
- LVBench(ICCV 2025):极限长视频理解基准source
- Latent Diffusion Models(CVPR 2022):高分辨率图像合成的潜空间扩散框架source
- LayoutDiffusion(CVPR 2023):面向布局到图像生成的可控扩散模型source
- LayoutDiffusion(ICCV 2023):把 graphic layout generation 做成离散 diffusion 的标准接口source
- LinGen(CVPR 2025):面向高分辨率分钟级文本到视频生成的线性复杂度框架source
- MAPLM(CVPR 2024):面向地图与交通场景理解的真实世界大规模视觉语言基准source
- MMAction2(GitHub repository):MMAction2 是 OpenMMLab 视频理解工具箱,支持动作识别、检测和骨架动作等任务。source
- MMMU(CVPR 2024):面向专家级 AGI 的大规模多学科多模态理解与推理基准source
- MMPose / RTMPose(GitHub repository):MMPose 提供 2D/3D 姿态估计工具链,RTMPose 强调实时部署。source
- MVBench(CVPR 2024):综合性的多模态视频理解基准source
- MaskINT(CVPR 2024):基于插值式非自回归 masked transformer 的视频编辑source
- MediaPipe Pose(Google AI Edge documentation):MediaPipe Pose / BlazePose 提供移动端友好的 3D landmarks 姿态估计。source
- MotionEditor(CVPR 2024):基于内容感知扩散的视频运动编辑source
- MotionFollower(ICCV 2025):通过 score-guided diffusion 编辑视频运动source
- MotionStone(CVPR 2025):用 DiT 解耦运动强度调制的图像到视频生成source
- MultiDiffusion(arXiv 2023):把多条 diffusion 轨迹绑成统一的受控生成框架source
- MultiSports(ICCV 2021):多人时空动作定位的数据锚点source
- NFL Hawk-Eye First Down(Associated Press 2025):AP 报道 NFL 引入基于 Hawk-Eye 的首攻测量技术。source
- NIST AI RMF(NIST):NIST AI RMF 提供 AI 风险管理框架。source
- NULL-Text Inversion(CVPR 2023):用 guided diffusion 编辑真实图像source
- OSV(CVPR 2025):高质量图像到视频生成一步就够source
- OmniGen(CVPR 2025):统一图像生成source
- On Distillation of Guided Diffusion Models(CVPR 2023):把 classifier-free guided diffusion 蒸馏到极少步采样source
- OpenCap(PLOS Computational Biology / PMC 2023):OpenCap 用智能手机视频估计人体运动学与动力学,降低实验室级运动捕捉门槛。source
- OpenPose(GitHub repository):OpenPose 是早期多人 2D 关键点检测工具。source
- Paint by Example(CVPR 2023):基于示例的扩散图像编辑source
- Pathways on the Image Manifold(CVPR 2025):通过视频生成做图像编辑source
- Pix2Video:利用图像扩散进行视频编辑source
- Plug-and-Play Diffusion Features(CVPR 2023):把 diffusion feature 直接变成文本驱动图像翻译接口source
- Post-Training Quantization on Diffusion Models(CVPR 2023):把扩散模型推理进一步压到低比特部署source
- Premier League Semi-Automated Offside(Reuters 2025):Reuters 报道英超启用半自动越位技术。source
- Prompt-to-Prompt(arXiv 2022):把 cross-attention 直接变成文本编辑控制面板source
- QK-Edit(ICCV 2025):在 MM-DiT 中重新审视图像与视频编辑的 attention 注入source
- RAVE(CVPR 2024):通过随机噪声重排实现快速且一致的视频编辑source
- ReCo(CVPR 2023):区域控制的文本到图像生成source
- Reangle-A-Video(ICCV 2025):把 4D 视频生成重写为视频到视频翻译source
- Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance(CVPR 2024):把 CFG 的空间不一致问题拉到前台source
- SANA-Sprint(arXiv):用连续时间一致性蒸馏把一步扩散再往前推source
- SLD(CVPR 2024):把 diffusion 生成改成 LLM 驱动的闭环自纠错系统source
- SOK-Bench(CVPR 2024):带开放世界知识对齐的情境视频推理基准source
- ST-GCN(AAAI 2018 / arXiv):ST-GCN 用时空图卷积建模骨架动作,是姿态驱动动作识别的经典基线。source
- STI-Bench(ICCV 2025):多模态大模型是否已准备好进行精确时空世界理解source
- Scalable Diffusion Models with Transformers(ICCV 2023):DiT 把 Transformer 真正坐实为可扩展扩散主干source
- Second Spectrum / Genius Sports(Company newsroom):Genius Sports 收购 Second Spectrum 的公告展示了光学追踪、联赛数据和媒体可视化的商业链路。source
- Self-Guided Diffusion Models(CVPR 2023):把 guidance 从外部条件器部分收回到模型内部结构source
- Shape-aware Text-driven Layered Video Editing(CVPR 2023):形状感知的分层文本视频编辑source
- SketchVideo(CVPR 2025):基于草图的视频生成与编辑source
- SoccerNet Action Spotting(SoccerNet official task):SoccerNet action spotting 是足球视频事件定位的核心公开任务入口。source
- SoccerNet-GSR(CVPR Workshop 2024):足球比赛状态重建锚点source
- Specialist Diffusion(CVPR 2023):可插拔且样本高效的文本到图像扩散微调source
- SportMamba(arXiv 2025):用状态空间模型处理团队运动中的非线性多目标跟踪source
- Sports AI Review 2025(Artificial Intelligence Review 2025):这篇综述讨论体育视觉、分析和 AI 系统的发展趋势。source
- SportsCap(arXiv 2021):SportsCap 研究单目体育视频中的 3D 人体运动捕捉和细粒度动作理解。source
- SportsHHI(CVPR 2024):体育视频中的高层人-人交互检测基准source
- SportsMOTentity
- SportsMOT Dataset Page(DeeperAction dataset page):SportsMOT 官方数据页记录数据下载、许可和基准说明。source
- SportsMOT(ICCV 2023):多运动场景下的大规模球员多目标跟踪基准source
- StableVideo(ICCV 2023):文本驱动且一致性感知的扩散视频编辑source
- StreamingT2V(CVPR 2025):一致、动态、可扩展的长视频文本生成source
- SwiftEdit(CVPR 2025):基于一步扩散的极速文本引导图像编辑source
- TacticAI(Nature Communications 2024):战术决策支持锚点source
- TeamTrack(CVPRW 2024):全场视角多运动多目标跟踪数据集source
- Temporal Parsing Transformer(ECCV 2022):Temporal Parsing Transformer 把动作质量评估拆成时序解析问题,在打分类体育动作中强调过程结构。source
- Text Embedding Knows How to Quantize Text-Guided Diffusion Models(arXiv):把文本嵌入直接拉进 text-guided diffusion 量化链路source
- TimeSformer(ICML 2021):TimeSformer 用纯 attention 结构建模视频时空关系,是视频 Transformer 路线的重要基础。source
- Tora(CVPR 2025):面向视频生成的轨迹导向扩散 Transformersource
- Towards Practical Plug-and-Play Diffusion Models(CVPR 2023):把 diffusion 提速做成可插拔工程模块source
- TrackNetV3(arXiv / technical report):高速小目标球类 tracking 锚点source
- TranSPORTmer(arXiv 2024):面向多智能体体育轨迹理解的统一 Transformer 框架source
- Tune-A-Video(ICCV 2023):单样本调优图像扩散模型做文本到视频生成source
- UniReal(CVPR 2025):通过学习真实世界动态实现通用图像生成与编辑source
- Universal Soccer Video Understanding(CVPR 2025):统一足球视频理解锚点source
- VBench(CVPR 2024):面向视频生成模型的综合评测套件source
- VEGGIE(ICCV 2025):通过 grounded generation 进行指令式编辑与视频概念推理source
- VEU-Bench(CVPR 2025):迈向对视频编辑的全面理解source
- VIVE3D(CVPR 2023):基于 3D-aware GAN 的视角无关视频编辑source
- VidToMe(CVPR 2024):用于零样本视频编辑的视频 token mergingsource
- Video-Bench(CVPR 2025):面向视频生成的人类对齐评测基准source
- Video-P2P(ICCV 2023):基于 cross-attention control 的视频编辑source
- VideoCrafter2(CVPR 2024):突破数据限制的高质量视频扩散模型source
- VideoDirector(CVPR 2025):借助文本到视频模型实现精确视频编辑source
- VideoMAE(NeurIPS 2022 / arXiv):VideoMAE 用 masked autoencoding 做视频自监督预训练,强调数据效率。source
- WEAR(arXiv 2023):WEAR 提供户外运动中的第一视角视频与可穿戴传感器数据,用来研究视频、IMU 与活动识别的多模态融合。source
- Wavelet Diffusion Models(CVPR 2023):快速且可扩展的图像生成器source
- 体育 AI 研究路线图topic
- 体育 AI 视频理解topic
- 加速迭代扩散反演的真实图像编辑(ICCV 2023)source
- 图像生成topic
- 图像生成与编辑统一建模entity
- 图像编辑topic
- 图像编辑的进步主要来自数据扩展还是架构升级question
- 当前模型仍然难以真正理解视频编辑claim
- 扩散 Transformerentity
- 扩散 Transformer 正在成为默认的可扩展生成主干claim
- 扩散效率工程topic
- 扩散模型topic
- 文本到图像扩散中的多概念定制(CVPR 2023)source
- 现有评测是否真的刻画了视频编辑理解能力question
- 生成模型评测topic
- 用于文本驱动图像编辑的 Prompt Tuning Inversion(ICCV 2023)source
- 统一图像生成-编辑模型可能会胜过专用流水线claim
- 统一图像生成编辑模型能否持续压过专用流水线question
- 视觉-语言topic
- 视频理解topic
- 视频生成topic
- 视频编辑topic
- 视频编辑理解entity
- 通过图像特定提示学习实现零样本生成模型适配(CVPR 2023)source
- 通过多模态大模型实现语言驱动视频修补(CVPR 2024)source
- 通过形式化验证评测文本到视频模型的神经符号方法(CVPR 2025)source
- 面向文本到图像生成的可验证与可复现人工评测(CVPR 2023)source
#open-claim
- 当前模型仍然难以真正理解视频编辑claim
- 扩散 Transformer 正在成为默认的可扩展生成主干claim
- 统一图像生成-编辑模型可能会胜过专用流水线claim
#primary-source
- A Video is Worth 256 Bases(CVPR 2024):零样本视频编辑的时空 EM 反演source
- A-STAR(ICCV 2023):在测试时直接修 cross-attention 的概念冲突与遗忘source
- ACT-Diffusion(CVPR 2024):用对抗一致性训练把一步扩散做得更省source
- AIGV-Assessor(CVPR 2025):用大模型评测文本到视频生成感知质量source
- ANetQA(CVPR 2023):面向未裁剪视频细粒度组合推理的大规模基准source
- AVID(CVPR 2024):基于扩散模型的任意长度视频修补source
- Accelerating Diffusion Sampling with Optimized Time Steps(CVPR 2024):用优化时间步加速扩散采样source
- Accelerating Diffusion Transformer via Gradient-Optimized Cache(arXiv):用梯度优化缓存继续压缩 DiT 推理成本source
- Adding Conditional Control to Text-to-Image Diffusion Models(ICCV 2023):把条件控制做成 diffusion 的通用侧支接口source
- Align-A-Video(CVPR 2025):面向一致视频编辑的确定性奖励调优source
- All Are Worth Words(CVPR 2023):把 ViT 直接变成扩散模型主干source
- Analyzing and Improving the Training Dynamics of Diffusion Models(CVPR 2024):修正扩散训练动力学的缩放失衡source
- AnyDoor(CVPR 2024):零样本对象级图像定制source
- AnyEdit(CVPR 2025):面向任意创意的统一高质量图像编辑source
- AthletePose3D(CVPR Workshop 2025):真实体育 3D 姿态与生物力学锚点source
- AthleticsPose(arXiv 2025):AthleticsPose 聚焦真实田径动作中的 3D 姿态估计与泛化评估。source
- Attend-and-Excite(TOG 2023):在推理时主动修复 diffusion 的语义遗漏source
- Attention Calibration for Disentangled Text-to-Image Personalization(CVPR 2024):解耦式文本到图像个性化的注意力校准source
- Automated Offside Detection(ACM MM Workshop 2021):这项工作把足球越位判定转成时空视频分析问题,强调规则、时刻同步和几何位置。source
- BBDM(CVPR 2023):把 Brownian Bridge diffusion 接成图像到图像翻译主线source
- Blended Diffusion(CVPR 2022):把文本驱动自然图像编辑直接接进扩散生成过程source
- BoxDiff(ICCV 2023):不用训练,直接把框约束压进 diffusion 采样过程source
- C3Net(CVPR 2024):把 ControlNet 从单条件接口推进到多模态复合条件接口source
- CAMEL(CVPR 2024):面向文本驱动视频编辑的因果运动增强source
- CCEdit(CVPR 2024):创意且可控的视频编辑source
- CONFORM(CVPR 2024):用对比学习提升高保真文本到图像扩散模型source
- Check, Locate, Rectify(CVPR 2024):文本到图像生成的训练免费布局校准系统source
- CoDi(CVPR 2024):用于更高保真且更快图像生成的条件扩散蒸馏source
- Come-Closer-Diffuse-Faster(CVPR 2022):用随机收缩把条件扩散的采样路径压得更短source
- CommonCanvas(CVPR 2024):在 Creative Commons 图像上训练的开放扩散模型source
- ConCon-Chi(CVPR 2024):面向个性化视觉语言任务的概念-上下文嵌合基准source
- Concept Weaver(CVPR 2024):在文本到图像模型中实现多概念融合source
- Condition-Aware Neural Network for Controlled Image Generation(CVPR 2024):面向可控图像生成的条件感知网络source
- Contrastive Denoising Score(CVPR 2024):用于文本引导潜扩散图像编辑的对比去噪评分source
- CosmicMan(CVPR 2024):面向人物的文本到图像基础模型source
- Customization Assistant(CVPR 2024):面向文本到图像生成的定制辅助系统source
- DC-ControlNet(arXiv 2025):把多元素条件控制拆成 inter-element / intra-element 两层接口source
- DIVE(ICCV 2025):用 DINO 做主体驱动视频编辑source
- DLT(ICCV 2023):把 layout generation 做成离散-连续联合 diffusionsource
- DeepCache(CVPR 2024):用特征缓存免费加速扩散模型source
- DenseDiffusion(ICCV 2023):用 attention modulation 让 dense caption 和布局控制真正可用source
- DiffEditor(CVPR 2024):提升扩散式图像编辑的精度与灵活性source
- Diffusion Autoencoders(CVPR 2022):为扩散模型补上更可解释、可解码的语义表征层source
- Diffusion Models Without Attention(CVPR 2024):不用注意力也能做高分辨率扩散source
- DiffusionCLIP(CVPR 2022):把文本引导图像操控更早接到 diffusion 路线里source
- Distilling ODE Solvers of Diffusion Models into Smaller Steps(CVPR 2024):把扩散求解器蒸馏到更少步数source
- Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models(arXiv):把并行梯度蒸馏接进快速 ODE solver 路线source
- Domain Expansion of Image Generators(CVPR 2023):图像生成器的领域扩展source
- DreamBooth(CVPR 2023):面向主体驱动生成的文本到图像扩散微调source
- DreamOmni(CVPR 2025):统一图像生成与编辑source
- DynVideo-E(CVPR 2024):利用动态 NeRF 做大尺度运动与视角变化的人体中心视频编辑source
- D²iT(CVPR 2025):用于高精度图像生成的动态扩散 Transformersource
- EDICT(CVPR 2023):把精确 diffusion inversion 变成真实图像编辑的关键接口source
- Encapsulated Composition(CVPR 2025):组合式文本到图像/视频模型高质量视频合成source
- EvalCrafter(CVPR 2024):大视频生成模型的评测与基准source
- FADE(CVPR 2025):面向视频编辑的频率感知扩散模型分解source
- Fairy(CVPR 2024):快速并行的指令引导视频到视频合成source
- FateZero(ICCV 2023):融合注意力做零样本文本视频编辑source
- FiVE-Bench(ICCV 2025):细粒度视频编辑评测基准source
- FineDiving(CVPR 2022):技术动作评分与过程理解锚点source
- FineGym(CVPR 2020):体育 AI 的细粒度动作理解早期锚点source
- FineSports(CVPR 2024):多人层级细粒度体育动作数据锚点source
- FireEdit(CVPR 2025):基于区域感知视觉语言模型的细粒度指令图像编辑source
- FlashEval(CVPR 2024):快速而准确地评测文本到图像扩散模型source
- FlowVid(CVPR 2024):通过处理不完美光流实现一致的视频到视频合成source
- FramePainter(ICCV 2025):用视频扩散先验增强交互式图像编辑source
- FreeU(CVPR 2024):不重训也能提质的扩散 U-Net 调参source
- GLIGEN(CVPR 2023):开放集合 grounded 文本到图像生成source
- GlitchBench(CVPR 2024):大型多模态模型能否识别电子游戏故障source
- HallusionBench(CVPR 2024):大型视觉语言模型中的幻觉与视觉错觉诊断基准source
- High-Fidelity Guided Image Synthesis with Latent Diffusion Models(CVPR 2023):把 latent diffusion 的 guidance 质量推到更高保真source
- Imagen Editor 与 EditBench(CVPR 2023):推进并评测文本引导图像修补source
- Imagic(CVPR 2023):基于扩散模型的文本真实图像编辑source
- InsViE-1M(ICCV 2025):通过精细数据构造实现有效的 instruction-based 视频编辑source
- InsightEdit(CVPR 2025):迈向更强指令跟随的图像编辑source
- InstructPix2Pix(CVPR 2023):学习遵循图像编辑指令source
- LOGO(CVPR 2023):群体动作质量评估锚点source
- LVBench(ICCV 2025):极限长视频理解基准source
- Latent Diffusion Models(CVPR 2022):高分辨率图像合成的潜空间扩散框架source
- LayoutDiffusion(CVPR 2023):面向布局到图像生成的可控扩散模型source
- LayoutDiffusion(ICCV 2023):把 graphic layout generation 做成离散 diffusion 的标准接口source
- LinGen(CVPR 2025):面向高分辨率分钟级文本到视频生成的线性复杂度框架source
- MAPLM(CVPR 2024):面向地图与交通场景理解的真实世界大规模视觉语言基准source
- MMMU(CVPR 2024):面向专家级 AGI 的大规模多学科多模态理解与推理基准source
- MVBench(CVPR 2024):综合性的多模态视频理解基准source
- MaskINT(CVPR 2024):基于插值式非自回归 masked transformer 的视频编辑source
- MotionEditor(CVPR 2024):基于内容感知扩散的视频运动编辑source
- MotionFollower(ICCV 2025):通过 score-guided diffusion 编辑视频运动source
- MotionStone(CVPR 2025):用 DiT 解耦运动强度调制的图像到视频生成source
- MultiDiffusion(arXiv 2023):把多条 diffusion 轨迹绑成统一的受控生成框架source
- MultiSports(ICCV 2021):多人时空动作定位的数据锚点source
- NULL-Text Inversion(CVPR 2023):用 guided diffusion 编辑真实图像source
- OSV(CVPR 2025):高质量图像到视频生成一步就够source
- OmniGen(CVPR 2025):统一图像生成source
- On Distillation of Guided Diffusion Models(CVPR 2023):把 classifier-free guided diffusion 蒸馏到极少步采样source
- OpenCap(PLOS Computational Biology / PMC 2023):OpenCap 用智能手机视频估计人体运动学与动力学,降低实验室级运动捕捉门槛。source
- Paint by Example(CVPR 2023):基于示例的扩散图像编辑source
- Pathways on the Image Manifold(CVPR 2025):通过视频生成做图像编辑source
- Pix2Video:利用图像扩散进行视频编辑source
- Plug-and-Play Diffusion Features(CVPR 2023):把 diffusion feature 直接变成文本驱动图像翻译接口source
- Post-Training Quantization on Diffusion Models(CVPR 2023):把扩散模型推理进一步压到低比特部署source
- Prompt-to-Prompt(arXiv 2022):把 cross-attention 直接变成文本编辑控制面板source
- QK-Edit(ICCV 2025):在 MM-DiT 中重新审视图像与视频编辑的 attention 注入source
- RAVE(CVPR 2024):通过随机噪声重排实现快速且一致的视频编辑source
- ReCo(CVPR 2023):区域控制的文本到图像生成source
- Reangle-A-Video(ICCV 2025):把 4D 视频生成重写为视频到视频翻译source
- Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance(CVPR 2024):把 CFG 的空间不一致问题拉到前台source
- SANA-Sprint(arXiv):用连续时间一致性蒸馏把一步扩散再往前推source
- SLD(CVPR 2024):把 diffusion 生成改成 LLM 驱动的闭环自纠错系统source
- SOK-Bench(CVPR 2024):带开放世界知识对齐的情境视频推理基准source
- ST-GCN(AAAI 2018 / arXiv):ST-GCN 用时空图卷积建模骨架动作,是姿态驱动动作识别的经典基线。source
- STI-Bench(ICCV 2025):多模态大模型是否已准备好进行精确时空世界理解source
- Scalable Diffusion Models with Transformers(ICCV 2023):DiT 把 Transformer 真正坐实为可扩展扩散主干source
- Self-Guided Diffusion Models(CVPR 2023):把 guidance 从外部条件器部分收回到模型内部结构source
- Shape-aware Text-driven Layered Video Editing(CVPR 2023):形状感知的分层文本视频编辑source
- SketchVideo(CVPR 2025):基于草图的视频生成与编辑source
- SoccerNet-GSR(CVPR Workshop 2024):足球比赛状态重建锚点source
- Specialist Diffusion(CVPR 2023):可插拔且样本高效的文本到图像扩散微调source
- SportMamba(arXiv 2025):用状态空间模型处理团队运动中的非线性多目标跟踪source
- SportsCap(arXiv 2021):SportsCap 研究单目体育视频中的 3D 人体运动捕捉和细粒度动作理解。source
- SportsHHI(CVPR 2024):体育视频中的高层人-人交互检测基准source
- SportsMOT(ICCV 2023):多运动场景下的大规模球员多目标跟踪基准source
- StableVideo(ICCV 2023):文本驱动且一致性感知的扩散视频编辑source
- StreamingT2V(CVPR 2025):一致、动态、可扩展的长视频文本生成source
- SwiftEdit(CVPR 2025):基于一步扩散的极速文本引导图像编辑source
- TacticAI(Nature Communications 2024):战术决策支持锚点source
- TeamTrack(CVPRW 2024):全场视角多运动多目标跟踪数据集source
- Temporal Parsing Transformer(ECCV 2022):Temporal Parsing Transformer 把动作质量评估拆成时序解析问题,在打分类体育动作中强调过程结构。source
- Text Embedding Knows How to Quantize Text-Guided Diffusion Models(arXiv):把文本嵌入直接拉进 text-guided diffusion 量化链路source
- TimeSformer(ICML 2021):TimeSformer 用纯 attention 结构建模视频时空关系,是视频 Transformer 路线的重要基础。source
- Tora(CVPR 2025):面向视频生成的轨迹导向扩散 Transformersource
- Towards Practical Plug-and-Play Diffusion Models(CVPR 2023):把 diffusion 提速做成可插拔工程模块source
- TrackNetV3(arXiv / technical report):高速小目标球类 tracking 锚点source
- TranSPORTmer(arXiv 2024):面向多智能体体育轨迹理解的统一 Transformer 框架source
- Tune-A-Video(ICCV 2023):单样本调优图像扩散模型做文本到视频生成source
- UniReal(CVPR 2025):通过学习真实世界动态实现通用图像生成与编辑source
- Universal Soccer Video Understanding(CVPR 2025):统一足球视频理解锚点source
- VBench(CVPR 2024):面向视频生成模型的综合评测套件source
- VEGGIE(ICCV 2025):通过 grounded generation 进行指令式编辑与视频概念推理source
- VEU-Bench(CVPR 2025):迈向对视频编辑的全面理解source
- VIVE3D(CVPR 2023):基于 3D-aware GAN 的视角无关视频编辑source
- VidToMe(CVPR 2024):用于零样本视频编辑的视频 token mergingsource
- Video-Bench(CVPR 2025):面向视频生成的人类对齐评测基准source
- Video-P2P(ICCV 2023):基于 cross-attention control 的视频编辑source
- VideoCrafter2(CVPR 2024):突破数据限制的高质量视频扩散模型source
- VideoDirector(CVPR 2025):借助文本到视频模型实现精确视频编辑source
- VideoMAE(NeurIPS 2022 / arXiv):VideoMAE 用 masked autoencoding 做视频自监督预训练,强调数据效率。source
- WEAR(arXiv 2023):WEAR 提供户外运动中的第一视角视频与可穿戴传感器数据,用来研究视频、IMU 与活动识别的多模态融合。source
- Wavelet Diffusion Models(CVPR 2023):快速且可扩展的图像生成器source
- 加速迭代扩散反演的真实图像编辑(ICCV 2023)source
- 文本到图像扩散中的多概念定制(CVPR 2023)source
- 用于文本驱动图像编辑的 Prompt Tuning Inversion(ICCV 2023)source
- 通过图像特定提示学习实现零样本生成模型适配(CVPR 2023)source
- 通过多模态大模型实现语言驱动视频修补(CVPR 2024)source
- 通过形式化验证评测文本到视频模型的神经符号方法(CVPR 2025)source
- 面向文本到图像生成的可验证与可复现人工评测(CVPR 2023)source
#reasoning
- ANetQA(CVPR 2023):面向未裁剪视频细粒度组合推理的大规模基准source
- Automated Offside Detection(ACM MM Workshop 2021):这项工作把足球越位判定转成时空视频分析问题,强调规则、时刻同步和几何位置。source
- MMMU(CVPR 2024):面向专家级 AGI 的大规模多学科多模态理解与推理基准source
- SOK-Bench(CVPR 2024):带开放世界知识对齐的情境视频推理基准source
- ST-GCN(AAAI 2018 / arXiv):ST-GCN 用时空图卷积建模骨架动作,是姿态驱动动作识别的经典基线。source
- TacticAI(Nature Communications 2024):战术决策支持锚点source
- TimeSformer(ICML 2021):TimeSformer 用纯 attention 结构建模视频时空关系,是视频 Transformer 路线的重要基础。source
- TranSPORTmer(arXiv 2024):面向多智能体体育轨迹理解的统一 Transformer 框架source
- Universal Soccer Video Understanding(CVPR 2025):统一足球视频理解锚点source
- VEGGIE(ICCV 2025):通过 grounded generation 进行指令式编辑与视频概念推理source
- 视频理解topic
#representation-learning
#secondary-source
- Catapult Athlete Monitoring(Company product page):Catapult athlete monitoring 页面展示运动员负荷、训练监测和多模态数据产品。source
- DeepLabCut(GitHub repository):DeepLabCut 是少量标注即可训练的无标记关键点追踪工具。source
- FineDiving Repository(GitHub repository):FineDiving 仓库提供数据集与代码入口。source
- HomeCourt(Product page):HomeCourt 代表手机相机驱动的消费级训练反馈应用。source
- KINEXON Player Tracking(Company product page):KINEXON player tracking 页面展示 UWB/GPS/LPS 球员追踪系统。source
- MMAction2(GitHub repository):MMAction2 是 OpenMMLab 视频理解工具箱,支持动作识别、检测和骨架动作等任务。source
- MMPose / RTMPose(GitHub repository):MMPose 提供 2D/3D 姿态估计工具链,RTMPose 强调实时部署。source
- MediaPipe Pose(Google AI Edge documentation):MediaPipe Pose / BlazePose 提供移动端友好的 3D landmarks 姿态估计。source
- NFL Hawk-Eye First Down(Associated Press 2025):AP 报道 NFL 引入基于 Hawk-Eye 的首攻测量技术。source
- NIST AI RMF(NIST):NIST AI RMF 提供 AI 风险管理框架。source
- OpenPose(GitHub repository):OpenPose 是早期多人 2D 关键点检测工具。source
- Premier League Semi-Automated Offside(Reuters 2025):Reuters 报道英超启用半自动越位技术。source
- Second Spectrum / Genius Sports(Company newsroom):Genius Sports 收购 Second Spectrum 的公告展示了光学追踪、联赛数据和媒体可视化的商业链路。source
- SoccerNet Action Spotting(SoccerNet official task):SoccerNet action spotting 是足球视频事件定位的核心公开任务入口。source
- Sports AI Review 2025(Artificial Intelligence Review 2025):这篇综述讨论体育视觉、分析和 AI 系统的发展趋势。source
- SportsMOT Dataset Page(DeeperAction dataset page):SportsMOT 官方数据页记录数据下载、许可和基准说明。source
#survey-needed
- 图像编辑的进步主要来自数据扩展还是架构升级question
- 现有评测是否真的刻画了视频编辑理解能力question
- 统一图像生成编辑模型能否持续压过专用流水线question
#tracking
- KINEXON Player Tracking(Company product page):KINEXON player tracking 页面展示 UWB/GPS/LPS 球员追踪系统。source
- Second Spectrum / Genius Sports(Company newsroom):Genius Sports 收购 Second Spectrum 的公告展示了光学追踪、联赛数据和媒体可视化的商业链路。source
- SoccerNet-GSR(CVPR Workshop 2024):足球比赛状态重建锚点source
- SportMamba(arXiv 2025):用状态空间模型处理团队运动中的非线性多目标跟踪source
- SportsMOTentity
- SportsMOT Dataset Page(DeeperAction dataset page):SportsMOT 官方数据页记录数据下载、许可和基准说明。source
- SportsMOT(ICCV 2023):多运动场景下的大规模球员多目标跟踪基准source
- TeamTrack(CVPRW 2024):全场视角多运动多目标跟踪数据集source
- TrackNetV3(arXiv / technical report):高速小目标球类 tracking 锚点source
- TranSPORTmer(arXiv 2024):面向多智能体体育轨迹理解的统一 Transformer 框架source
- 体育 AI 研究路线图topic
- 体育 AI 视频理解topic
#video-editing
- A Video is Worth 256 Bases(CVPR 2024):零样本视频编辑的时空 EM 反演source
- AVID(CVPR 2024):基于扩散模型的任意长度视频修补source
- Align-A-Video(CVPR 2025):面向一致视频编辑的确定性奖励调优source
- CAMEL(CVPR 2024):面向文本驱动视频编辑的因果运动增强source
- CCEdit(CVPR 2024):创意且可控的视频编辑source
- DIVE(ICCV 2025):用 DINO 做主体驱动视频编辑source
- DynVideo-E(CVPR 2024):利用动态 NeRF 做大尺度运动与视角变化的人体中心视频编辑source
- FADE(CVPR 2025):面向视频编辑的频率感知扩散模型分解source
- Fairy(CVPR 2024):快速并行的指令引导视频到视频合成source
- FateZero(ICCV 2023):融合注意力做零样本文本视频编辑source
- FiVE-Bench(ICCV 2025):细粒度视频编辑评测基准source
- FlowVid(CVPR 2024):通过处理不完美光流实现一致的视频到视频合成source
- FramePainter(ICCV 2025):用视频扩散先验增强交互式图像编辑source
- InsViE-1M(ICCV 2025):通过精细数据构造实现有效的 instruction-based 视频编辑source
- MaskINT(CVPR 2024):基于插值式非自回归 masked transformer 的视频编辑source
- MotionEditor(CVPR 2024):基于内容感知扩散的视频运动编辑source
- MotionFollower(ICCV 2025):通过 score-guided diffusion 编辑视频运动source
- Pix2Video:利用图像扩散进行视频编辑source
- QK-Edit(ICCV 2025):在 MM-DiT 中重新审视图像与视频编辑的 attention 注入source
- RAVE(CVPR 2024):通过随机噪声重排实现快速且一致的视频编辑source
- Reangle-A-Video(ICCV 2025):把 4D 视频生成重写为视频到视频翻译source
- Shape-aware Text-driven Layered Video Editing(CVPR 2023):形状感知的分层文本视频编辑source
- SketchVideo(CVPR 2025):基于草图的视频生成与编辑source
- StableVideo(ICCV 2023):文本驱动且一致性感知的扩散视频编辑source
- VEGGIE(ICCV 2025):通过 grounded generation 进行指令式编辑与视频概念推理source
- VEU-Bench(CVPR 2025):迈向对视频编辑的全面理解source
- VIVE3D(CVPR 2023):基于 3D-aware GAN 的视角无关视频编辑source
- VidToMe(CVPR 2024):用于零样本视频编辑的视频 token mergingsource
- Video-P2P(ICCV 2023):基于 cross-attention control 的视频编辑source
- VideoDirector(CVPR 2025):借助文本到视频模型实现精确视频编辑source
- 当前模型仍然难以真正理解视频编辑claim
- 现有评测是否真的刻画了视频编辑理解能力question
- 视频编辑topic
- 视频编辑理解entity
- 通过多模态大模型实现语言驱动视频修补(CVPR 2024)source
#video-generation
- AIGV-Assessor(CVPR 2025):用大模型评测文本到视频生成感知质量source
- AVID(CVPR 2024):基于扩散模型的任意长度视频修补source
- CAMEL(CVPR 2024):面向文本驱动视频编辑的因果运动增强source
- CCEdit(CVPR 2024):创意且可控的视频编辑source
- DynVideo-E(CVPR 2024):利用动态 NeRF 做大尺度运动与视角变化的人体中心视频编辑source
- Encapsulated Composition(CVPR 2025):组合式文本到图像/视频模型高质量视频合成source
- EvalCrafter(CVPR 2024):大视频生成模型的评测与基准source
- Fairy(CVPR 2024):快速并行的指令引导视频到视频合成source
- FlowVid(CVPR 2024):通过处理不完美光流实现一致的视频到视频合成source
- FramePainter(ICCV 2025):用视频扩散先验增强交互式图像编辑source
- InsViE-1M(ICCV 2025):通过精细数据构造实现有效的 instruction-based 视频编辑source
- LinGen(CVPR 2025):面向高分辨率分钟级文本到视频生成的线性复杂度框架source
- MaskINT(CVPR 2024):基于插值式非自回归 masked transformer 的视频编辑source
- MotionEditor(CVPR 2024):基于内容感知扩散的视频运动编辑source
- MotionFollower(ICCV 2025):通过 score-guided diffusion 编辑视频运动source
- MotionStone(CVPR 2025):用 DiT 解耦运动强度调制的图像到视频生成source
- OSV(CVPR 2025):高质量图像到视频生成一步就够source
- Pix2Video:利用图像扩散进行视频编辑source
- RAVE(CVPR 2024):通过随机噪声重排实现快速且一致的视频编辑source
- Reangle-A-Video(ICCV 2025):把 4D 视频生成重写为视频到视频翻译source
- Shape-aware Text-driven Layered Video Editing(CVPR 2023):形状感知的分层文本视频编辑source
- SketchVideo(CVPR 2025):基于草图的视频生成与编辑source
- StableVideo(ICCV 2023):文本驱动且一致性感知的扩散视频编辑source
- StreamingT2V(CVPR 2025):一致、动态、可扩展的长视频文本生成source
- Tora(CVPR 2025):面向视频生成的轨迹导向扩散 Transformersource
- Tune-A-Video(ICCV 2023):单样本调优图像扩散模型做文本到视频生成source
- VBench(CVPR 2024):面向视频生成模型的综合评测套件source
- VIVE3D(CVPR 2023):基于 3D-aware GAN 的视角无关视频编辑source
- VidToMe(CVPR 2024):用于零样本视频编辑的视频 token mergingsource
- Video-Bench(CVPR 2025):面向视频生成的人类对齐评测基准source
- Video-P2P(ICCV 2023):基于 cross-attention control 的视频编辑source
- VideoCrafter2(CVPR 2024):突破数据限制的高质量视频扩散模型source
- 视频生成topic
- 通过形式化验证评测文本到视频模型的神经符号方法(CVPR 2025)source
#video-understanding
- ANetQA(CVPR 2023):面向未裁剪视频细粒度组合推理的大规模基准source
- AthletePose3D(CVPR Workshop 2025):真实体育 3D 姿态与生物力学锚点source
- AthleticsPose(arXiv 2025):AthleticsPose 聚焦真实田径动作中的 3D 姿态估计与泛化评估。source
- Automated Offside Detection(ACM MM Workshop 2021):这项工作把足球越位判定转成时空视频分析问题,强调规则、时刻同步和几何位置。source
- Catapult Athlete Monitoring(Company product page):Catapult athlete monitoring 页面展示运动员负荷、训练监测和多模态数据产品。source
- DeepLabCut(GitHub repository):DeepLabCut 是少量标注即可训练的无标记关键点追踪工具。source
- FineDiving Repository(GitHub repository):FineDiving 仓库提供数据集与代码入口。source
- FineDiving(CVPR 2022):技术动作评分与过程理解锚点source
- FineGym(CVPR 2020):体育 AI 的细粒度动作理解早期锚点source
- FineSports(CVPR 2024):多人层级细粒度体育动作数据锚点source
- GlitchBench(CVPR 2024):大型多模态模型能否识别电子游戏故障source
- HomeCourt(Product page):HomeCourt 代表手机相机驱动的消费级训练反馈应用。source
- LOGO(CVPR 2023):群体动作质量评估锚点source
- LVBench(ICCV 2025):极限长视频理解基准source
- MMAction2(GitHub repository):MMAction2 是 OpenMMLab 视频理解工具箱,支持动作识别、检测和骨架动作等任务。source
- MMPose / RTMPose(GitHub repository):MMPose 提供 2D/3D 姿态估计工具链,RTMPose 强调实时部署。source
- MVBench(CVPR 2024):综合性的多模态视频理解基准source
- MediaPipe Pose(Google AI Edge documentation):MediaPipe Pose / BlazePose 提供移动端友好的 3D landmarks 姿态估计。source
- MultiSports(ICCV 2021):多人时空动作定位的数据锚点source
- NFL Hawk-Eye First Down(Associated Press 2025):AP 报道 NFL 引入基于 Hawk-Eye 的首攻测量技术。source
- OpenCap(PLOS Computational Biology / PMC 2023):OpenCap 用智能手机视频估计人体运动学与动力学,降低实验室级运动捕捉门槛。source
- OpenPose(GitHub repository):OpenPose 是早期多人 2D 关键点检测工具。source
- Premier League Semi-Automated Offside(Reuters 2025):Reuters 报道英超启用半自动越位技术。source
- SOK-Bench(CVPR 2024):带开放世界知识对齐的情境视频推理基准source
- ST-GCN(AAAI 2018 / arXiv):ST-GCN 用时空图卷积建模骨架动作,是姿态驱动动作识别的经典基线。source
- STI-Bench(ICCV 2025):多模态大模型是否已准备好进行精确时空世界理解source
- SoccerNet Action Spotting(SoccerNet official task):SoccerNet action spotting 是足球视频事件定位的核心公开任务入口。source
- SoccerNet-GSR(CVPR Workshop 2024):足球比赛状态重建锚点source
- Sports AI Review 2025(Artificial Intelligence Review 2025):这篇综述讨论体育视觉、分析和 AI 系统的发展趋势。source
- SportsCap(arXiv 2021):SportsCap 研究单目体育视频中的 3D 人体运动捕捉和细粒度动作理解。source
- SportsHHI(CVPR 2024):体育视频中的高层人-人交互检测基准source
- TacticAI(Nature Communications 2024):战术决策支持锚点source
- Temporal Parsing Transformer(ECCV 2022):Temporal Parsing Transformer 把动作质量评估拆成时序解析问题,在打分类体育动作中强调过程结构。source
- TimeSformer(ICML 2021):TimeSformer 用纯 attention 结构建模视频时空关系,是视频 Transformer 路线的重要基础。source
- TrackNetV3(arXiv / technical report):高速小目标球类 tracking 锚点source
- Universal Soccer Video Understanding(CVPR 2025):统一足球视频理解锚点source
- VEGGIE(ICCV 2025):通过 grounded generation 进行指令式编辑与视频概念推理source
- VideoMAE(NeurIPS 2022 / arXiv):VideoMAE 用 masked autoencoding 做视频自监督预训练,强调数据效率。source
- WEAR(arXiv 2023):WEAR 提供户外运动中的第一视角视频与可穿戴传感器数据,用来研究视频、IMU 与活动识别的多模态融合。source
- 体育 AI 研究路线图topic
- 体育 AI 视频理解topic
- 视频理解topic
- 通过多模态大模型实现语言驱动视频修补(CVPR 2024)source
#vision-language
- ConCon-Chi(CVPR 2024):面向个性化视觉语言任务的概念-上下文嵌合基准source
- GLIGEN(CVPR 2023):开放集合 grounded 文本到图像生成source
- HallusionBench(CVPR 2024):大型视觉语言模型中的幻觉与视觉错觉诊断基准source
- MAPLM(CVPR 2024):面向地图与交通场景理解的真实世界大规模视觉语言基准source
- MMMU(CVPR 2024):面向专家级 AGI 的大规模多学科多模态理解与推理基准source
- STI-Bench(ICCV 2025):多模态大模型是否已准备好进行精确时空世界理解source
- VEGGIE(ICCV 2025):通过 grounded generation 进行指令式编辑与视频概念推理source
- 视觉-语言topic
- 通过多模态大模型实现语言驱动视频修补(CVPR 2024)source