Tags
#autoregressive
#benchmark
- 视频编辑理解entity
#benchmarking
- AIGV-Assessor:用大模型评测文本到视频生成感知质量source
- ANetQA:面向未裁剪视频细粒度组合推理的大规模基准source
- AthletePose3D:真实体育 3D 姿态与生物力学锚点source
- AthleticsPose:AthleticsPose 聚焦真实田径动作中的 3D 姿态估计与泛化评估。source
- Broadcast2Pitch:从非受控足球转播视频重建比赛状态source
- ConCon-Chi:面向个性化视觉语言任务的概念-上下文嵌合基准source
- EvalCrafter:大视频生成模型的评测与基准source
- FiVE-Bench:细粒度视频编辑评测基准source
- FineDiving Repository:FineDiving 仓库提供数据集与代码入口。source
- FineDiving:技术动作评分与过程理解锚点source
- FineGym:体育 AI 的细粒度动作理解早期锚点source
- FineSports:多人层级细粒度体育动作数据锚点source
- FlashEval:快速而准确地评测文本到图像扩散模型source
- GlitchBench:大型多模态模型能否识别电子游戏故障source
- HallusionBench:大型视觉语言模型中的幻觉与视觉错觉诊断基准source
- Imagen Editor 与 EditBench:推进并评测文本引导图像修补source
- LOGO:群体动作质量评估锚点source
- LVBench:极限长视频理解基准source
- MAPLM:面向地图与交通场景理解的真实世界大规模视觉语言基准source
- MMMU:面向专家级 AGI 的大规模多学科多模态理解与推理基准source
- MVBench:综合性的多模态视频理解基准source
- MultiSports:多人时空动作定位的数据锚点source
- OpenCap:OpenCap 用智能手机视频估计人体运动学与动力学,降低实验室级运动捕捉门槛。source
- RefereeBench:多运动项目视频裁判能力评测source
- SOK-Bench:带开放世界知识对齐的情境视频推理基准source
- STI-Bench:多模态大模型是否已准备好进行精确时空世界理解source
- ShuttleSet:人工标注的羽毛球单打 stroke-level 数据集source
- SoccerNet 2022 Challenges Results:足球视频理解挑战早期基线source
- SoccerNet 2023 Challenges Results:足球视频多任务挑战结果source
- SoccerNet Action Spotting:SoccerNet action spotting 是足球视频事件定位的核心公开任务入口。source
- SoccerNet-Tracking:足球多目标跟踪数据集与基准source
- SoccerNet-v2:广播足球视频整体理解基准source
- Sports AI Research Roadmaptopic
- Sports AI Video Understandingtopic
- Sports-QA:复杂专业体育视频问答基准source
- SportsCap:SportsCap 研究单目体育视频中的 3D 人体运动捕捉和细粒度动作理解。source
- SportsHHI:体育视频中的高层人-人交互检测基准source
- SportsMOT Dataset Page:SportsMOT 官方数据页记录数据下载、许可和基准说明。source
- SportsMOT:多运动场景下的大规模球员多目标跟踪基准source
- TeamTrack:全场视角多运动多目标跟踪数据集source
- Temporal Parsing Transformer:Temporal Parsing Transformer 把动作质量评估拆成时序解析问题,在打分类体育动作中强调过程结构。source
- VBench:面向视频生成模型的综合评测套件source
- Video-Bench:面向视频生成的人类对齐评测基准source
- WEAR:WEAR 提供户外运动中的第一视角视频与可穿戴传感器数据,用来研究视频、IMU 与活动识别的多模态融合。source
- 现有评测是否真的刻画了视频编辑理解能力question
- 生成模型评测topic
- 通过形式化验证评测文本到视频模型的神经符号方法source
- 面向文本到图像生成的可验证与可复现人工评测source
#conditioning
- BBDM:把 Brownian Bridge diffusion 接成图像到图像翻译主线source
- Blended Diffusion:把文本驱动自然图像编辑直接接进扩散生成过程source
- DiffusionCLIP:把文本引导图像操控更早接到 diffusion 路线里source
- High-Fidelity Guided Image Synthesis with Latent Diffusion Models:把 latent diffusion 的 guidance 质量推到更高保真source
- Plug-and-Play Diffusion Features:把 diffusion feature 直接变成文本驱动图像翻译接口source
- Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance:把 CFG 的空间不一致问题拉到前台source
#control
- AnyDoor:零样本对象级图像定制source
- CAMEL:面向文本驱动视频编辑的因果运动增强source
- Check, Locate, Rectify:文本到图像生成的训练免费布局校准系统source
- Condition-Aware Neural Network for Controlled Image Generation:面向可控图像生成的条件感知网络source
- LayoutDiffusion:面向布局到图像生成的可控扩散模型source
- MotionFollower:通过 score-guided diffusion 编辑视频运动source
- QK-Edit:在 MM-DiT 中重新审视图像与视频编辑的 attention 注入source
- ReCo:区域控制的文本到图像生成source
- Shape-aware Text-driven Layered Video Editing:形状感知的分层文本视频编辑source
#dataset
- SportsMOTentity
#diffusion
- A Video is Worth 256 Bases:零样本视频编辑的时空 EM 反演source
- A-STAR:在测试时直接修 cross-attention 的概念冲突与遗忘source
- ACT-Diffusion:用对抗一致性训练把一步扩散做得更省source
- AVID:基于扩散模型的任意长度视频修补source
- Accelerating Diffusion Sampling with Optimized Time Steps:用优化时间步加速扩散采样source
- Accelerating Diffusion Transformer via Gradient-Optimized Cache:用梯度优化缓存继续压缩 DiT 推理成本source
- Adding Conditional Control to Text-to-Image Diffusion Models:把条件控制做成 diffusion 的通用侧支接口source
- All Are Worth Words:把 ViT 直接变成扩散模型主干source
- Analyzing and Improving the Training Dynamics of Diffusion Models:修正扩散训练动力学的缩放失衡source
- Attend-and-Excite:在推理时主动修复 diffusion 的语义遗漏source
- BBDM:把 Brownian Bridge diffusion 接成图像到图像翻译主线source
- Blended Diffusion:把文本驱动自然图像编辑直接接进扩散生成过程source
- BoxDiff:不用训练,直接把框约束压进 diffusion 采样过程source
- C3Net:把 ControlNet 从单条件接口推进到多模态复合条件接口source
- CAMEL:面向文本驱动视频编辑的因果运动增强source
- CCEdit:创意且可控的视频编辑source
- CONFORM:用对比学习提升高保真文本到图像扩散模型source
- CoDi:用于更高保真且更快图像生成的条件扩散蒸馏source
- Come-Closer-Diffuse-Faster:用随机收缩把条件扩散的采样路径压得更短source
- CommonCanvas:在 Creative Commons 图像上训练的开放扩散模型source
- Contrastive Denoising Score:用于文本引导潜扩散图像编辑的对比去噪评分source
- DC-ControlNet:把多元素条件控制拆成 inter-element / intra-element 两层接口source
- DLT:把 layout generation 做成离散-连续联合 diffusionsource
- DeepCache:用特征缓存免费加速扩散模型source
- DenseDiffusion:用 attention modulation 让 dense caption 和布局控制真正可用source
- Diffusion Autoencoders:为扩散模型补上更可解释、可解码的语义表征层source
- Diffusion Models Without Attention:不用注意力也能做高分辨率扩散source
- DiffusionCLIP:把文本引导图像操控更早接到 diffusion 路线里source
- Distilling ODE Solvers of Diffusion Models into Smaller Steps:把扩散求解器蒸馏到更少步数source
- Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models:把并行梯度蒸馏接进快速 ODE solver 路线source
- EDICT:把精确 diffusion inversion 变成真实图像编辑的关键接口source
- FreeU:不重训也能提质的扩散 U-Net 调参source
- High-Fidelity Guided Image Synthesis with Latent Diffusion Models:把 latent diffusion 的 guidance 质量推到更高保真source
- Imagic:基于扩散模型的文本真实图像编辑source
- Latent Diffusion Models:高分辨率图像合成的潜空间扩散框架source
- LayoutDiffusion:把 graphic layout generation 做成离散 diffusion 的标准接口source
- LayoutDiffusion:面向布局到图像生成的可控扩散模型source
- MotionEditor:基于内容感知扩散的视频运动编辑source
- MotionFollower:通过 score-guided diffusion 编辑视频运动source
- MotionStone:用 DiT 解耦运动强度调制的图像到视频生成source
- MultiDiffusion:把多条 diffusion 轨迹绑成统一的受控生成框架source
- NULL-Text Inversion:用 guided diffusion 编辑真实图像source
- On Distillation of Guided Diffusion Models:把 classifier-free guided diffusion 蒸馏到极少步采样source
- Plug-and-Play Diffusion Features:把 diffusion feature 直接变成文本驱动图像翻译接口source
- Post-Training Quantization on Diffusion Models:把扩散模型推理进一步压到低比特部署source
- Prompt-to-Prompt:把 cross-attention 直接变成文本编辑控制面板source
- QK-Edit:在 MM-DiT 中重新审视图像与视频编辑的 attention 注入source
- RAVE:通过随机噪声重排实现快速且一致的视频编辑source
- Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance:把 CFG 的空间不一致问题拉到前台source
- SANA-Sprint:用连续时间一致性蒸馏把一步扩散再往前推source
- SLD:把 diffusion 生成改成 LLM 驱动的闭环自纠错系统source
- Scalable Diffusion Models with Transformers:DiT 把 Transformer 真正坐实为可扩展扩散主干source
- Self-Guided Diffusion Models:把 guidance 从外部条件器部分收回到模型内部结构source
- Specialist Diffusion:可插拔且样本高效的文本到图像扩散微调source
- StableVideo:文本驱动且一致性感知的扩散视频编辑source
- Text Embedding Knows How to Quantize Text-Guided Diffusion Models:把文本嵌入直接拉进 text-guided diffusion 量化链路source
- Towards Practical Plug-and-Play Diffusion Models:把 diffusion 提速做成可插拔工程模块source
- Video-P2P:基于 cross-attention control 的视频编辑source
- Wavelet Diffusion Models:快速且可扩展的图像生成器source
- 加速迭代扩散反演的真实图像编辑source
- 图像生成topic
- 图像编辑topic
- 扩散 Transformerentity
- 扩散 Transformer 正在成为默认的可扩展生成主干claim
- 扩散效率工程topic
- 扩散模型topic
- 用于文本驱动图像编辑的 Prompt Tuning Inversionsource
- 视频生成topic
- 视频编辑topic
#editing
#efficiency
- A-STAR:在测试时直接修 cross-attention 的概念冲突与遗忘source
- ACT-Diffusion:用对抗一致性训练把一步扩散做得更省source
- Accelerating Diffusion Sampling with Optimized Time Steps:用优化时间步加速扩散采样source
- Accelerating Diffusion Transformer via Gradient-Optimized Cache:用梯度优化缓存继续压缩 DiT 推理成本source
- Adding Conditional Control to Text-to-Image Diffusion Models:把条件控制做成 diffusion 的通用侧支接口source
- Attend-and-Excite:在推理时主动修复 diffusion 的语义遗漏source
- BoxDiff:不用训练,直接把框约束压进 diffusion 采样过程source
- C3Net:把 ControlNet 从单条件接口推进到多模态复合条件接口source
- CoDi:用于更高保真且更快图像生成的条件扩散蒸馏source
- Come-Closer-Diffuse-Faster:用随机收缩把条件扩散的采样路径压得更短source
- DC-ControlNet:把多元素条件控制拆成 inter-element / intra-element 两层接口source
- DeepCache:用特征缓存免费加速扩散模型source
- DenseDiffusion:用 attention modulation 让 dense caption 和布局控制真正可用source
- Distilling ODE Solvers of Diffusion Models into Smaller Steps:把扩散求解器蒸馏到更少步数source
- Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models:把并行梯度蒸馏接进快速 ODE solver 路线source
- Fairy:快速并行的指令引导视频到视频合成source
- FreeU:不重训也能提质的扩散 U-Net 调参source
- MultiDiffusion:把多条 diffusion 轨迹绑成统一的受控生成框架source
- On Distillation of Guided Diffusion Models:把 classifier-free guided diffusion 蒸馏到极少步采样source
- Post-Training Quantization on Diffusion Models:把扩散模型推理进一步压到低比特部署source
- RAVE:通过随机噪声重排实现快速且一致的视频编辑source
- SANA-Sprint:用连续时间一致性蒸馏把一步扩散再往前推source
- SLD:把 diffusion 生成改成 LLM 驱动的闭环自纠错系统source
- Self-Guided Diffusion Models:把 guidance 从外部条件器部分收回到模型内部结构source
- Specialist Diffusion:可插拔且样本高效的文本到图像扩散微调source
- Text Embedding Knows How to Quantize Text-Guided Diffusion Models:把文本嵌入直接拉进 text-guided diffusion 量化链路source
- Towards Practical Plug-and-Play Diffusion Models:把 diffusion 提速做成可插拔工程模块source
- VidToMe:用于零样本视频编辑的视频 token mergingsource
- VideoAuto-R1(arXiv;CVPR 2026 accepted claim pending proceedings):按需推理的视频理解框架source
- Wavelet Diffusion Models:快速且可扩展的图像生成器source
- 扩散效率工程topic
- 扩散模型topic
#evaluation
- AIGV-Assessor:用大模型评测文本到视频生成感知质量source
- ANetQA:面向未裁剪视频细粒度组合推理的大规模基准source
- Active Learning for Action Spotting:足球事件定位的低标注路线source
- ConCon-Chi:面向个性化视觉语言任务的概念-上下文嵌合基准source
- EvalCrafter:大视频生成模型的评测与基准source
- FiVE-Bench:细粒度视频编辑评测基准source
- FineCausal:可解释细粒度动作质量评估source
- FlashEval:快速而准确地评测文本到图像扩散模型source
- GlitchBench:大型多模态模型能否识别电子游戏故障source
- HallusionBench:大型视觉语言模型中的幻觉与视觉错觉诊断基准source
- Imagen Editor 与 EditBench:推进并评测文本引导图像修补source
- LVBench:极限长视频理解基准source
- MAPLM:面向地图与交通场景理解的真实世界大规模视觉语言基准source
- MMMU:面向专家级 AGI 的大规模多学科多模态理解与推理基准source
- MVBench:综合性的多模态视频理解基准source
- NIST AI RMF:NIST AI RMF 提供 AI 风险管理框架。source
- RefereeBench:多运动项目视频裁判能力评测source
- SOK-Bench:带开放世界知识对齐的情境视频推理基准source
- VBench:面向视频生成模型的综合评测套件source
- Video-Bench:面向视频生成的人类对齐评测基准source
- 生成模型评测topic
- 视频编辑理解entity
- 通过形式化验证评测文本到视频模型的神经符号方法source
- 面向文本到图像生成的可验证与可复现人工评测source
#high-confidence
#image-editing
- AnyDoor:零样本对象级图像定制source
- AnyEdit:面向任意创意的统一高质量图像编辑source
- BBDM:把 Brownian Bridge diffusion 接成图像到图像翻译主线source
- Blended Diffusion:把文本驱动自然图像编辑直接接进扩散生成过程source
- Concept Weaver:在文本到图像模型中实现多概念融合source
- Contrastive Denoising Score:用于文本引导潜扩散图像编辑的对比去噪评分source
- Customization Assistant:面向文本到图像生成的定制辅助系统source
- DIVE:用 DINO 做主体驱动视频编辑source
- DiffEditor:提升扩散式图像编辑的精度与灵活性source
- DiffusionCLIP:把文本引导图像操控更早接到 diffusion 路线里source
- DreamBooth:面向主体驱动生成的文本到图像扩散微调source
- DreamOmni:统一图像生成与编辑source
- EDICT:把精确 diffusion inversion 变成真实图像编辑的关键接口source
- FireEdit:基于区域感知视觉语言模型的细粒度指令图像编辑source
- FramePainter:用视频扩散先验增强交互式图像编辑source
- Imagen Editor 与 EditBench:推进并评测文本引导图像修补source
- Imagic:基于扩散模型的文本真实图像编辑source
- InsViE-1M:通过精细数据构造实现有效的 instruction-based 视频编辑source
- InsightEdit:迈向更强指令跟随的图像编辑source
- InstructPix2Pix:学习遵循图像编辑指令source
- NULL-Text Inversion:用 guided diffusion 编辑真实图像source
- Paint by Example:基于示例的扩散图像编辑source
- Pathways on the Image Manifold:通过视频生成做图像编辑source
- Pix2Video:利用图像扩散进行视频编辑source
- Plug-and-Play Diffusion Features:把 diffusion feature 直接变成文本驱动图像翻译接口source
- Prompt-to-Prompt:把 cross-attention 直接变成文本编辑控制面板source
- QK-Edit:在 MM-DiT 中重新审视图像与视频编辑的 attention 注入source
- SwiftEdit:基于一步扩散的极速文本引导图像编辑source
- UniReal:通过学习真实世界动态实现通用图像生成与编辑source
- 加速迭代扩散反演的真实图像编辑source
- 图像生成与编辑统一建模entity
- 图像编辑topic
- 图像编辑的进步主要来自数据扩展还是架构升级question
- 文本到图像扩散中的多概念定制source
- 用于文本驱动图像编辑的 Prompt Tuning Inversionsource
- 统一图像生成-编辑模型可能会胜过专用流水线claim
- 统一图像生成编辑模型能否持续压过专用流水线question
- 通过图像特定提示学习实现零样本生成模型适配source
#image-generation
- A-STAR:在测试时直接修 cross-attention 的概念冲突与遗忘source
- ACT-Diffusion:用对抗一致性训练把一步扩散做得更省source
- Accelerating Diffusion Sampling with Optimized Time Steps:用优化时间步加速扩散采样source
- Accelerating Diffusion Transformer via Gradient-Optimized Cache:用梯度优化缓存继续压缩 DiT 推理成本source
- Adding Conditional Control to Text-to-Image Diffusion Models:把条件控制做成 diffusion 的通用侧支接口source
- All Are Worth Words:把 ViT 直接变成扩散模型主干source
- Analyzing and Improving the Training Dynamics of Diffusion Models:修正扩散训练动力学的缩放失衡source
- AnyDoor:零样本对象级图像定制source
- AnyEdit:面向任意创意的统一高质量图像编辑source
- Attend-and-Excite:在推理时主动修复 diffusion 的语义遗漏source
- Attention Calibration for Disentangled Text-to-Image Personalization:解耦式文本到图像个性化的注意力校准source
- BoxDiff:不用训练,直接把框约束压进 diffusion 采样过程source
- C3Net:把 ControlNet 从单条件接口推进到多模态复合条件接口source
- CONFORM:用对比学习提升高保真文本到图像扩散模型source
- Check, Locate, Rectify:文本到图像生成的训练免费布局校准系统source
- CoDi:用于更高保真且更快图像生成的条件扩散蒸馏source
- Come-Closer-Diffuse-Faster:用随机收缩把条件扩散的采样路径压得更短source
- CommonCanvas:在 Creative Commons 图像上训练的开放扩散模型source
- Concept Weaver:在文本到图像模型中实现多概念融合source
- Condition-Aware Neural Network for Controlled Image Generation:面向可控图像生成的条件感知网络source
- Contrastive Denoising Score:用于文本引导潜扩散图像编辑的对比去噪评分source
- CosmicMan:面向人物的文本到图像基础模型source
- Customization Assistant:面向文本到图像生成的定制辅助系统source
- DC-ControlNet:把多元素条件控制拆成 inter-element / intra-element 两层接口source
- DIVE:用 DINO 做主体驱动视频编辑source
- DLT:把 layout generation 做成离散-连续联合 diffusionsource
- DeepCache:用特征缓存免费加速扩散模型source
- DenseDiffusion:用 attention modulation 让 dense caption 和布局控制真正可用source
- Diffusion Autoencoders:为扩散模型补上更可解释、可解码的语义表征层source
- Diffusion Models Without Attention:不用注意力也能做高分辨率扩散source
- Distilling ODE Solvers of Diffusion Models into Smaller Steps:把扩散求解器蒸馏到更少步数source
- Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models:把并行梯度蒸馏接进快速 ODE solver 路线source
- Domain Expansion of Image Generators:图像生成器的领域扩展source
- DreamBooth:面向主体驱动生成的文本到图像扩散微调source
- DreamOmni:统一图像生成与编辑source
- D²iT:用于高精度图像生成的动态扩散 Transformersource
- Encapsulated Composition:组合式文本到图像/视频模型高质量视频合成source
- FireEdit:基于区域感知视觉语言模型的细粒度指令图像编辑source
- FlashEval:快速而准确地评测文本到图像扩散模型source
- FreeU:不重训也能提质的扩散 U-Net 调参source
- GLIGEN:开放集合 grounded 文本到图像生成source
- High-Fidelity Guided Image Synthesis with Latent Diffusion Models:把 latent diffusion 的 guidance 质量推到更高保真source
- InsightEdit:迈向更强指令跟随的图像编辑source
- Latent Diffusion Models:高分辨率图像合成的潜空间扩散框架source
- LayoutDiffusion:把 graphic layout generation 做成离散 diffusion 的标准接口source
- LayoutDiffusion:面向布局到图像生成的可控扩散模型source
- Mainstream Vision Backbonestopic
- MultiDiffusion:把多条 diffusion 轨迹绑成统一的受控生成框架source
- OmniGen:统一图像生成source
- On Distillation of Guided Diffusion Models:把 classifier-free guided diffusion 蒸馏到极少步采样source
- Paint by Example:基于示例的扩散图像编辑source
- Pathways on the Image Manifold:通过视频生成做图像编辑source
- Post-Training Quantization on Diffusion Models:把扩散模型推理进一步压到低比特部署source
- QK-Edit:在 MM-DiT 中重新审视图像与视频编辑的 attention 注入source
- ReCo:区域控制的文本到图像生成source
- Reangle-A-Video:把 4D 视频生成重写为视频到视频翻译source
- Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance:把 CFG 的空间不一致问题拉到前台source
- SANA-Sprint:用连续时间一致性蒸馏把一步扩散再往前推source
- SLD:把 diffusion 生成改成 LLM 驱动的闭环自纠错系统source
- Scalable Diffusion Models with Transformers:DiT 把 Transformer 真正坐实为可扩展扩散主干source
- Self-Guided Diffusion Models:把 guidance 从外部条件器部分收回到模型内部结构source
- Specialist Diffusion:可插拔且样本高效的文本到图像扩散微调source
- SwiftEdit:基于一步扩散的极速文本引导图像编辑source
- Text Embedding Knows How to Quantize Text-Guided Diffusion Models:把文本嵌入直接拉进 text-guided diffusion 量化链路source
- Towards Practical Plug-and-Play Diffusion Models:把 diffusion 提速做成可插拔工程模块source
- UniReal:通过学习真实世界动态实现通用图像生成与编辑source
- Wavelet Diffusion Models:快速且可扩展的图像生成器source
- 图像生成topic
- 图像生成与编辑统一建模entity
- 图像编辑的进步主要来自数据扩展还是架构升级question
- 扩散效率工程topic
- 文本到图像扩散中的多概念定制source
- 统一图像生成-编辑模型可能会胜过专用流水线claim
- 统一图像生成编辑模型能否持续压过专用流水线question
- 通过图像特定提示学习实现零样本生成模型适配source
- 面向文本到图像生成的可验证与可复现人工评测source
#method
- 图像生成与编辑统一建模entity
- 扩散 Transformerentity
#multimodal
#near-cvpr-2025
- A Video is Worth 256 Bases:零样本视频编辑的时空 EM 反演source
- A-STAR:在测试时直接修 cross-attention 的概念冲突与遗忘source
- ACT-Diffusion:用对抗一致性训练把一步扩散做得更省source
- AI Driven Soccer Analysis:足球视频分析系统样本source
- AIGV-Assessor:用大模型评测文本到视频生成感知质量source
- ANetQA:面向未裁剪视频细粒度组合推理的大规模基准source
- AVID:基于扩散模型的任意长度视频修补source
- Accelerating Diffusion Sampling with Optimized Time Steps:用优化时间步加速扩散采样source
- Accelerating Diffusion Transformer via Gradient-Optimized Cache:用梯度优化缓存继续压缩 DiT 推理成本source
- Active Learning for Action Spotting:足球事件定位的低标注路线source
- Adding Conditional Control to Text-to-Image Diffusion Models:把条件控制做成 diffusion 的通用侧支接口source
- Align-A-Video:面向一致视频编辑的确定性奖励调优source
- All Are Worth Words:把 ViT 直接变成扩散模型主干source
- Analyzing and Improving the Training Dynamics of Diffusion Models:修正扩散训练动力学的缩放失衡source
- AnyDoor:零样本对象级图像定制source
- AnyEdit:面向任意创意的统一高质量图像编辑source
- AthletePose3D:真实体育 3D 姿态与生物力学锚点source
- AthleticsPose:AthleticsPose 聚焦真实田径动作中的 3D 姿态估计与泛化评估。source
- Attend-and-Excite:在推理时主动修复 diffusion 的语义遗漏source
- Attention Calibration for Disentangled Text-to-Image Personalization:解耦式文本到图像个性化的注意力校准source
- Automated Offside Detection:这项工作把足球越位判定转成时空视频分析问题,强调规则、时刻同步和几何位置。source
- BBDM:把 Brownian Bridge diffusion 接成图像到图像翻译主线source
- BST:面向羽毛球击球类型识别的骨架动作 Transformersource
- BadmintonDB:面向球员级比赛分析与预测的羽毛球数据集source
- Blended Diffusion:把文本驱动自然图像编辑直接接进扩散生成过程source
- BlockGCN:重新强化骨架动作识别中的拓扑意识source
- BoxDiff:不用训练,直接把框约束压进 diffusion 采样过程source
- Broadcast2Pitch:从非受控足球转播视频重建比赛状态source
- C3Net:把 ControlNet 从单条件接口推进到多模态复合条件接口source
- CAMEL:面向文本驱动视频编辑的因果运动增强source
- CCEdit:创意且可控的视频编辑source
- CONFORM:用对比学习提升高保真文本到图像扩散模型source
- Catapult Athlete Monitoring:Catapult athlete monitoring 页面展示运动员负荷、训练监测和多模态数据产品。source
- Check, Locate, Rectify:文本到图像生成的训练免费布局校准系统source
- CoDi:用于更高保真且更快图像生成的条件扩散蒸馏source
- Come-Closer-Diffuse-Faster:用随机收缩把条件扩散的采样路径压得更短source
- CommonCanvas:在 Creative Commons 图像上训练的开放扩散模型source
- ConCon-Chi:面向个性化视觉语言任务的概念-上下文嵌合基准source
- Concept Weaver:在文本到图像模型中实现多概念融合source
- Condition-Aware Neural Network for Controlled Image Generation:面向可控图像生成的条件感知网络source
- Contrastive Denoising Score:用于文本引导潜扩散图像编辑的对比去噪评分source
- CosmicMan:面向人物的文本到图像基础模型source
- Customization Assistant:面向文本到图像生成的定制辅助系统source
- DC-ControlNet:把多元素条件控制拆成 inter-element / intra-element 两层接口source
- DIVE:用 DINO 做主体驱动视频编辑source
- DLT:把 layout generation 做成离散-连续联合 diffusionsource
- DeepCache:用特征缓存免费加速扩散模型source
- DeepLabCut:DeepLabCut 是少量标注即可训练的无标记关键点追踪工具。source
- DenseDiffusion:用 attention modulation 让 dense caption 和布局控制真正可用source
- DiffEditor:提升扩散式图像编辑的精度与灵活性source
- Diffusion Autoencoders:为扩散模型补上更可解释、可解码的语义表征层source
- Diffusion Models Without Attention:不用注意力也能做高分辨率扩散source
- DiffusionCLIP:把文本引导图像操控更早接到 diffusion 路线里source
- Distilling ODE Solvers of Diffusion Models into Smaller Steps:把扩散求解器蒸馏到更少步数source
- Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models:把并行梯度蒸馏接进快速 ODE solver 路线source
- Domain Expansion of Image Generators:图像生成器的领域扩展source
- DreamBooth:面向主体驱动生成的文本到图像扩散微调source
- DreamOmni:统一图像生成与编辑source
- DynVideo-E:利用动态 NeRF 做大尺度运动与视角变化的人体中心视频编辑source
- D²iT:用于高精度图像生成的动态扩散 Transformersource
- EDICT:把精确 diffusion inversion 变成真实图像编辑的关键接口source
- Encapsulated Composition:组合式文本到图像/视频模型高质量视频合成source
- EvalCrafter:大视频生成模型的评测与基准source
- Event2Tracking:用长时多模态上下文重建多智能体足球轨迹source
- FADE:面向视频编辑的频率感知扩散模型分解source
- Fairy:快速并行的指令引导视频到视频合成source
- FateZero:融合注意力做零样本文本视频编辑source
- FiVE-Bench:细粒度视频编辑评测基准source
- FineCausal:可解释细粒度动作质量评估source
- FineDiving Repository:FineDiving 仓库提供数据集与代码入口。source
- FineDiving:技术动作评分与过程理解锚点source
- FineGym:体育 AI 的细粒度动作理解早期锚点source
- FineSports:多人层级细粒度体育动作数据锚点source
- FireEdit:基于区域感知视觉语言模型的细粒度指令图像编辑source
- FlashEval:快速而准确地评测文本到图像扩散模型source
- FlowVid:通过处理不完美光流实现一致的视频到视频合成source
- FramePainter:用视频扩散先验增强交互式图像编辑source
- FreeU:不重训也能提质的扩散 U-Net 调参source
- GLIGEN:开放集合 grounded 文本到图像生成source
- GlitchBench:大型多模态模型能否识别电子游戏故障source
- HallusionBench:大型视觉语言模型中的幻觉与视觉错觉诊断基准source
- High-Fidelity Guided Image Synthesis with Latent Diffusion Models:把 latent diffusion 的 guidance 质量推到更高保真source
- HomeCourt:HomeCourt 代表手机相机驱动的消费级训练反馈应用。source
- Human-in-the-loop Adaptation:团队运动检索的人机闭环适配source
- Imagen Editor 与 EditBench:推进并评测文本引导图像修补source
- Imagic:基于扩散模型的文本真实图像编辑source
- Indexroot
- InsViE-1M:通过精细数据构造实现有效的 instruction-based 视频编辑source
- InsightEdit:迈向更强指令跟随的图像编辑source
- InstructPix2Pix:学习遵循图像编辑指令source
- KINEXON Player Tracking:KINEXON player tracking 页面展示 UWB/GPS/LPS 球员追踪系统。source
- LLM Wiki Patternroot
- LOGO:群体动作质量评估锚点source
- LVBench:极限长视频理解基准source
- Latent Diffusion Models:高分辨率图像合成的潜空间扩散框架source
- LayoutDiffusion:把 graphic layout generation 做成离散 diffusion 的标准接口source
- LayoutDiffusion:面向布局到图像生成的可控扩散模型source
- LinGen:面向高分辨率分钟级文本到视频生成的线性复杂度框架source
- MAPLM:面向地图与交通场景理解的真实世界大规模视觉语言基准source
- MMAction2:MMAction2 是 OpenMMLab 视频理解工具箱,支持动作识别、检测和骨架动作等任务。source
- MMMU:面向专家级 AGI 的大规模多学科多模态理解与推理基准source
- MMPose / RTMPose:MMPose 提供 2D/3D 姿态估计工具链,RTMPose 强调实时部署。source
- MVBench:综合性的多模态视频理解基准source
- Mainstream Vision Backbonestopic
- MaskINT:基于插值式非自回归 masked transformer 的视频编辑source
- MediaPipe Pose:MediaPipe Pose / BlazePose 提供移动端友好的 3D landmarks 姿态估计。source
- MonoTrack:单目羽毛球视频的 3D 轨迹重建source
- MotionEditor:基于内容感知扩散的视频运动编辑source
- MotionFollower:通过 score-guided diffusion 编辑视频运动source
- MotionStone:用 DiT 解耦运动强度调制的图像到视频生成source
- MultiDiffusion:把多条 diffusion 轨迹绑成统一的受控生成框架source
- MultiSenseBadminton:面向羽毛球表现评估的多传感器生物力学数据集source
- MultiSports:多人时空动作定位的数据锚点source
- NFL Hawk-Eye First Down:AP 报道 NFL 引入基于 Hawk-Eye 的首攻测量技术。source
- NIST AI RMF:NIST AI RMF 提供 AI 风险管理框架。source
- NULL-Text Inversion:用 guided diffusion 编辑真实图像source
- OSV:高质量图像到视频生成一步就够source
- OmniGen:统一图像生成source
- On Distillation of Guided Diffusion Models:把 classifier-free guided diffusion 蒸馏到极少步采样source
- OpenCap:OpenCap 用智能手机视频估计人体运动学与动力学,降低实验室级运动捕捉门槛。source
- OpenPose:OpenPose 是早期多人 2D 关键点检测工具。source
- Paint by Example:基于示例的扩散图像编辑source
- PathCRF:从球员轨迹推断控球路径来做足球事件检测source
- Pathways on the Image Manifold:通过视频生成做图像编辑source
- Pix2Video:利用图像扩散进行视频编辑source
- Plug-and-Play Diffusion Features:把 diffusion feature 直接变成文本驱动图像翻译接口source
- Post-Training Quantization on Diffusion Models:把扩散模型推理进一步压到低比特部署source
- Premier League Semi-Automated Offside:Reuters 报道英超启用半自动越位技术。source
- Prompt-to-Prompt:把 cross-attention 直接变成文本编辑控制面板source
- ProtoGCN:用原型视角强化骨架动作识别的细粒度差异source
- QK-Edit:在 MM-DiT 中重新审视图像与视频编辑的 attention 注入source
- RAVE:通过随机噪声重排实现快速且一致的视频编辑source
- ReCo:区域控制的文本到图像生成source
- Reangle-A-Video:把 4D 视频生成重写为视频到视频翻译source
- RefereeBench:多运动项目视频裁判能力评测source
- Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance:把 CFG 的空间不一致问题拉到前台source
- SANA-Sprint:用连续时间一致性蒸馏把一步扩散再往前推source
- SLD:把 diffusion 生成改成 LLM 驱动的闭环自纠错系统source
- SOK-Bench:带开放世界知识对齐的情境视频推理基准source
- ST-GCN:ST-GCN 用时空图卷积建模骨架动作,是姿态驱动动作识别的经典基线。source
- STI-Bench:多模态大模型是否已准备好进行精确时空世界理解source
- Scalable Diffusion Models with Transformers:DiT 把 Transformer 真正坐实为可扩展扩散主干source
- Second Spectrum / Genius Sports:Genius Sports 收购 Second Spectrum 的公告展示了光学追踪、联赛数据和媒体可视化的商业链路。source
- Self-Guided Diffusion Models:把 guidance 从外部条件器部分收回到模型内部结构source
- Shape-aware Text-driven Layered Video Editing:形状感知的分层文本视频编辑source
- ShuttleSet:人工标注的羽毛球单打 stroke-level 数据集source
- SkateFormer:面向人体动作识别的骨架-时间 Transformersource
- SketchVideo:基于草图的视频生成与编辑source
- SoccerNet 2022 Challenges Results:足球视频理解挑战早期基线source
- SoccerNet 2023 Challenges Results:足球视频多任务挑战结果source
- SoccerNet 2023 Tracking Challenge MOT4MOT:球员跟踪团队报告source
- SoccerNet Action Spotting:SoccerNet action spotting 是足球视频事件定位的核心公开任务入口。source
- SoccerNet-GSR:足球比赛状态重建锚点source
- SoccerNet-Tracking:足球多目标跟踪数据集与基准source
- SoccerNet-v2 Camera Calibration:足球场标定与球员定位source
- SoccerNet-v2:广播足球视频整体理解基准source
- Specialist Diffusion:可插拔且样本高效的文本到图像扩散微调source
- SportMamba:用状态空间模型处理团队运动中的非线性多目标跟踪source
- Sports AI Research Roadmaptopic
- Sports AI Review 2025:这篇综述讨论体育视觉、分析和 AI 系统的发展趋势。source
- Sports AI Video Understandingtopic
- Sports-QA:复杂专业体育视频问答基准source
- SportsCap:SportsCap 研究单目体育视频中的 3D 人体运动捕捉和细粒度动作理解。source
- SportsHHI:体育视频中的高层人-人交互检测基准source
- SportsMOTentity
- SportsMOT Dataset Page:SportsMOT 官方数据页记录数据下载、许可和基准说明。source
- SportsMOT:多运动场景下的大规模球员多目标跟踪基准source
- StableVideo:文本驱动且一致性感知的扩散视频编辑source
- StreamingT2V:一致、动态、可扩展的长视频文本生成source
- SwiftEdit:基于一步扩散的极速文本引导图像编辑source
- TacticAI:战术决策支持锚点source
- TeamTrack:全场视角多运动多目标跟踪数据集source
- TemPose:面向羽毛球细粒度动作识别的骨架 Transformersource
- Temporal Parsing Transformer:Temporal Parsing Transformer 把动作质量评估拆成时序解析问题,在打分类体育动作中强调过程结构。source
- Text Embedding Knows How to Quantize Text-Guided Diffusion Models:把文本嵌入直接拉进 text-guided diffusion 量化链路source
- TimeSformer:TimeSformer 用纯 attention 结构建模视频时空关系,是视频 Transformer 路线的重要基础。source
- Tora:面向视频生成的轨迹导向扩散 Transformersource
- Towards Practical Plug-and-Play Diffusion Models:把 diffusion 提速做成可插拔工程模块source
- Towards Structured Analysis:广播羽毛球视频的结构化分析早期系统source
- TrackMAE(arXiv;CVPR 2026 accepted claim pending proceedings):用轨迹重建强化视频自监督表征source
- TrackNetV2:高效羽毛球追踪网络source
- TrackNetV3:增强羽毛球 shuttle tracking 的数据增强与轨迹校正source
- TrackNetV4:用运动注意力图增强快速体育小目标追踪source
- TrackNet:体育高速小目标追踪网络source
- TranSPORTmer:面向多智能体体育轨迹理解的统一 Transformer 框架source
- Tune-A-Video:单样本调优图像扩散模型做文本到视频生成source
- UniReal:通过学习真实世界动态实现通用图像生成与编辑source
- Universal Soccer Video Understanding:统一足球视频理解锚点source
- VARS:多视角足球视频助理裁判系统source
- VBench:面向视频生成模型的综合评测套件source
- VEGGIE:通过 grounded generation 进行指令式编辑与视频概念推理source
- VEU-Bench:迈向对视频编辑的全面理解source
- VIVE3D:基于 3D-aware GAN 的视角无关视频编辑source
- VidToMe:用于零样本视频编辑的视频 token mergingsource
- Video Understandingtopic
- Video-Bench:面向视频生成的人类对齐评测基准source
- Video-P2P:基于 cross-attention control 的视频编辑source
- VideoAuto-R1(arXiv;CVPR 2026 accepted claim pending proceedings):按需推理的视频理解框架source
- VideoCrafter2:突破数据限制的高质量视频扩散模型source
- VideoDirector:借助文本到视频模型实现精确视频编辑source
- VideoMAE:VideoMAE 用 masked autoencoding 做视频自监督预训练,强调数据效率。source
- WEAR:WEAR 提供户外运动中的第一视角视频与可穿戴传感器数据,用来研究视频、IMU 与活动识别的多模态融合。source
- Wavelet Diffusion Models:快速且可扩展的图像生成器source
- X-VARS:可解释足球视频助理裁判系统source
- 加速迭代扩散反演的真实图像编辑source
- 图像生成topic
- 图像生成与编辑统一建模entity
- 图像编辑topic
- 图像编辑的进步主要来自数据扩展还是架构升级question
- 当前模型仍然难以真正理解视频编辑claim
- 扩散 Transformerentity
- 扩散 Transformer 正在成为默认的可扩展生成主干claim
- 扩散效率工程topic
- 扩散模型topic
- 文本到图像扩散中的多概念定制source
- 现有评测是否真的刻画了视频编辑理解能力question
- 生成模型评测topic
- 用于文本驱动图像编辑的 Prompt Tuning Inversionsource
- 统一图像生成-编辑模型可能会胜过专用流水线claim
- 统一图像生成编辑模型能否持续压过专用流水线question
- 羽毛球挥拍动作纠正 demo 应如何定义question
- 视觉-语言topic
- 视频生成topic
- 视频编辑topic
- 视频编辑理解entity
- 通过图像特定提示学习实现零样本生成模型适配source
- 通过多模态大模型实现语言驱动视频修补source
- 通过形式化验证评测文本到视频模型的神经符号方法source
- 面向文本到图像生成的可验证与可复现人工评测source
#open-claim
- 当前模型仍然难以真正理解视频编辑claim
- 扩散 Transformer 正在成为默认的可扩展生成主干claim
- 统一图像生成-编辑模型可能会胜过专用流水线claim
#primary-source
- A Video is Worth 256 Bases:零样本视频编辑的时空 EM 反演source
- A-STAR:在测试时直接修 cross-attention 的概念冲突与遗忘source
- ACT-Diffusion:用对抗一致性训练把一步扩散做得更省source
- AI Driven Soccer Analysis:足球视频分析系统样本source
- AIGV-Assessor:用大模型评测文本到视频生成感知质量source
- ANetQA:面向未裁剪视频细粒度组合推理的大规模基准source
- AVID:基于扩散模型的任意长度视频修补source
- Accelerating Diffusion Sampling with Optimized Time Steps:用优化时间步加速扩散采样source
- Accelerating Diffusion Transformer via Gradient-Optimized Cache:用梯度优化缓存继续压缩 DiT 推理成本source
- Active Learning for Action Spotting:足球事件定位的低标注路线source
- Adding Conditional Control to Text-to-Image Diffusion Models:把条件控制做成 diffusion 的通用侧支接口source
- Align-A-Video:面向一致视频编辑的确定性奖励调优source
- All Are Worth Words:把 ViT 直接变成扩散模型主干source
- Analyzing and Improving the Training Dynamics of Diffusion Models:修正扩散训练动力学的缩放失衡source
- AnyDoor:零样本对象级图像定制source
- AnyEdit:面向任意创意的统一高质量图像编辑source
- AthletePose3D:真实体育 3D 姿态与生物力学锚点source
- AthleticsPose:AthleticsPose 聚焦真实田径动作中的 3D 姿态估计与泛化评估。source
- Attend-and-Excite:在推理时主动修复 diffusion 的语义遗漏source
- Attention Calibration for Disentangled Text-to-Image Personalization:解耦式文本到图像个性化的注意力校准source
- Automated Offside Detection:这项工作把足球越位判定转成时空视频分析问题,强调规则、时刻同步和几何位置。source
- BBDM:把 Brownian Bridge diffusion 接成图像到图像翻译主线source
- BST:面向羽毛球击球类型识别的骨架动作 Transformersource
- BadmintonDB:面向球员级比赛分析与预测的羽毛球数据集source
- Blended Diffusion:把文本驱动自然图像编辑直接接进扩散生成过程source
- BlockGCN:重新强化骨架动作识别中的拓扑意识source
- BoxDiff:不用训练,直接把框约束压进 diffusion 采样过程source
- Broadcast2Pitch:从非受控足球转播视频重建比赛状态source
- C3Net:把 ControlNet 从单条件接口推进到多模态复合条件接口source
- CAMEL:面向文本驱动视频编辑的因果运动增强source
- CCEdit:创意且可控的视频编辑source
- CONFORM:用对比学习提升高保真文本到图像扩散模型source
- Check, Locate, Rectify:文本到图像生成的训练免费布局校准系统source
- CoDi:用于更高保真且更快图像生成的条件扩散蒸馏source
- Come-Closer-Diffuse-Faster:用随机收缩把条件扩散的采样路径压得更短source
- CommonCanvas:在 Creative Commons 图像上训练的开放扩散模型source
- ConCon-Chi:面向个性化视觉语言任务的概念-上下文嵌合基准source
- Concept Weaver:在文本到图像模型中实现多概念融合source
- Condition-Aware Neural Network for Controlled Image Generation:面向可控图像生成的条件感知网络source
- Contrastive Denoising Score:用于文本引导潜扩散图像编辑的对比去噪评分source
- CosmicMan:面向人物的文本到图像基础模型source
- Customization Assistant:面向文本到图像生成的定制辅助系统source
- DC-ControlNet:把多元素条件控制拆成 inter-element / intra-element 两层接口source
- DIVE:用 DINO 做主体驱动视频编辑source
- DLT:把 layout generation 做成离散-连续联合 diffusionsource
- DeepCache:用特征缓存免费加速扩散模型source
- DenseDiffusion:用 attention modulation 让 dense caption 和布局控制真正可用source
- DiffEditor:提升扩散式图像编辑的精度与灵活性source
- Diffusion Autoencoders:为扩散模型补上更可解释、可解码的语义表征层source
- Diffusion Models Without Attention:不用注意力也能做高分辨率扩散source
- DiffusionCLIP:把文本引导图像操控更早接到 diffusion 路线里source
- Distilling ODE Solvers of Diffusion Models into Smaller Steps:把扩散求解器蒸馏到更少步数source
- Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models:把并行梯度蒸馏接进快速 ODE solver 路线source
- Domain Expansion of Image Generators:图像生成器的领域扩展source
- DreamBooth:面向主体驱动生成的文本到图像扩散微调source
- DreamOmni:统一图像生成与编辑source
- DynVideo-E:利用动态 NeRF 做大尺度运动与视角变化的人体中心视频编辑source
- D²iT:用于高精度图像生成的动态扩散 Transformersource
- EDICT:把精确 diffusion inversion 变成真实图像编辑的关键接口source
- Encapsulated Composition:组合式文本到图像/视频模型高质量视频合成source
- EvalCrafter:大视频生成模型的评测与基准source
- Event2Tracking:用长时多模态上下文重建多智能体足球轨迹source
- FADE:面向视频编辑的频率感知扩散模型分解source
- Fairy:快速并行的指令引导视频到视频合成source
- FateZero:融合注意力做零样本文本视频编辑source
- FiVE-Bench:细粒度视频编辑评测基准source
- FineCausal:可解释细粒度动作质量评估source
- FineDiving:技术动作评分与过程理解锚点source
- FineGym:体育 AI 的细粒度动作理解早期锚点source
- FineSports:多人层级细粒度体育动作数据锚点source
- FireEdit:基于区域感知视觉语言模型的细粒度指令图像编辑source
- FlashEval:快速而准确地评测文本到图像扩散模型source
- FlowVid:通过处理不完美光流实现一致的视频到视频合成source
- FramePainter:用视频扩散先验增强交互式图像编辑source
- FreeU:不重训也能提质的扩散 U-Net 调参source
- GLIGEN:开放集合 grounded 文本到图像生成source
- GlitchBench:大型多模态模型能否识别电子游戏故障source
- HallusionBench:大型视觉语言模型中的幻觉与视觉错觉诊断基准source
- High-Fidelity Guided Image Synthesis with Latent Diffusion Models:把 latent diffusion 的 guidance 质量推到更高保真source
- Human-in-the-loop Adaptation:团队运动检索的人机闭环适配source
- Imagen Editor 与 EditBench:推进并评测文本引导图像修补source
- Imagic:基于扩散模型的文本真实图像编辑source
- InsViE-1M:通过精细数据构造实现有效的 instruction-based 视频编辑source
- InsightEdit:迈向更强指令跟随的图像编辑source
- InstructPix2Pix:学习遵循图像编辑指令source
- LOGO:群体动作质量评估锚点source
- LVBench:极限长视频理解基准source
- Latent Diffusion Models:高分辨率图像合成的潜空间扩散框架source
- LayoutDiffusion:把 graphic layout generation 做成离散 diffusion 的标准接口source
- LayoutDiffusion:面向布局到图像生成的可控扩散模型source
- LinGen:面向高分辨率分钟级文本到视频生成的线性复杂度框架source
- MAPLM:面向地图与交通场景理解的真实世界大规模视觉语言基准source
- MMMU:面向专家级 AGI 的大规模多学科多模态理解与推理基准source
- MVBench:综合性的多模态视频理解基准source
- MaskINT:基于插值式非自回归 masked transformer 的视频编辑source
- MonoTrack:单目羽毛球视频的 3D 轨迹重建source
- MotionEditor:基于内容感知扩散的视频运动编辑source
- MotionFollower:通过 score-guided diffusion 编辑视频运动source
- MotionStone:用 DiT 解耦运动强度调制的图像到视频生成source
- MultiDiffusion:把多条 diffusion 轨迹绑成统一的受控生成框架source
- MultiSenseBadminton:面向羽毛球表现评估的多传感器生物力学数据集source
- MultiSports:多人时空动作定位的数据锚点source
- NULL-Text Inversion:用 guided diffusion 编辑真实图像source
- OSV:高质量图像到视频生成一步就够source
- OmniGen:统一图像生成source
- On Distillation of Guided Diffusion Models:把 classifier-free guided diffusion 蒸馏到极少步采样source
- OpenCap:OpenCap 用智能手机视频估计人体运动学与动力学,降低实验室级运动捕捉门槛。source
- Paint by Example:基于示例的扩散图像编辑source
- PathCRF:从球员轨迹推断控球路径来做足球事件检测source
- Pathways on the Image Manifold:通过视频生成做图像编辑source
- Pix2Video:利用图像扩散进行视频编辑source
- Plug-and-Play Diffusion Features:把 diffusion feature 直接变成文本驱动图像翻译接口source
- Post-Training Quantization on Diffusion Models:把扩散模型推理进一步压到低比特部署source
- Prompt-to-Prompt:把 cross-attention 直接变成文本编辑控制面板source
- ProtoGCN:用原型视角强化骨架动作识别的细粒度差异source
- QK-Edit:在 MM-DiT 中重新审视图像与视频编辑的 attention 注入source
- RAVE:通过随机噪声重排实现快速且一致的视频编辑source
- ReCo:区域控制的文本到图像生成source
- Reangle-A-Video:把 4D 视频生成重写为视频到视频翻译source
- RefereeBench:多运动项目视频裁判能力评测source
- Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance:把 CFG 的空间不一致问题拉到前台source
- SANA-Sprint:用连续时间一致性蒸馏把一步扩散再往前推source
- SLD:把 diffusion 生成改成 LLM 驱动的闭环自纠错系统source
- SOK-Bench:带开放世界知识对齐的情境视频推理基准source
- ST-GCN:ST-GCN 用时空图卷积建模骨架动作,是姿态驱动动作识别的经典基线。source
- STI-Bench:多模态大模型是否已准备好进行精确时空世界理解source
- Scalable Diffusion Models with Transformers:DiT 把 Transformer 真正坐实为可扩展扩散主干source
- Self-Guided Diffusion Models:把 guidance 从外部条件器部分收回到模型内部结构source
- Shape-aware Text-driven Layered Video Editing:形状感知的分层文本视频编辑source
- ShuttleSet:人工标注的羽毛球单打 stroke-level 数据集source
- SkateFormer:面向人体动作识别的骨架-时间 Transformersource
- SketchVideo:基于草图的视频生成与编辑source
- SoccerNet 2022 Challenges Results:足球视频理解挑战早期基线source
- SoccerNet 2023 Challenges Results:足球视频多任务挑战结果source
- SoccerNet 2023 Tracking Challenge MOT4MOT:球员跟踪团队报告source
- SoccerNet-GSR:足球比赛状态重建锚点source
- SoccerNet-Tracking:足球多目标跟踪数据集与基准source
- SoccerNet-v2 Camera Calibration:足球场标定与球员定位source
- SoccerNet-v2:广播足球视频整体理解基准source
- Specialist Diffusion:可插拔且样本高效的文本到图像扩散微调source
- SportMamba:用状态空间模型处理团队运动中的非线性多目标跟踪source
- Sports-QA:复杂专业体育视频问答基准source
- SportsCap:SportsCap 研究单目体育视频中的 3D 人体运动捕捉和细粒度动作理解。source
- SportsHHI:体育视频中的高层人-人交互检测基准source
- SportsMOT:多运动场景下的大规模球员多目标跟踪基准source
- StableVideo:文本驱动且一致性感知的扩散视频编辑source
- StreamingT2V:一致、动态、可扩展的长视频文本生成source
- SwiftEdit:基于一步扩散的极速文本引导图像编辑source
- TacticAI:战术决策支持锚点source
- TeamTrack:全场视角多运动多目标跟踪数据集source
- TemPose:面向羽毛球细粒度动作识别的骨架 Transformersource
- Temporal Parsing Transformer:Temporal Parsing Transformer 把动作质量评估拆成时序解析问题,在打分类体育动作中强调过程结构。source
- Text Embedding Knows How to Quantize Text-Guided Diffusion Models:把文本嵌入直接拉进 text-guided diffusion 量化链路source
- TimeSformer:TimeSformer 用纯 attention 结构建模视频时空关系,是视频 Transformer 路线的重要基础。source
- Tora:面向视频生成的轨迹导向扩散 Transformersource
- Towards Practical Plug-and-Play Diffusion Models:把 diffusion 提速做成可插拔工程模块source
- Towards Structured Analysis:广播羽毛球视频的结构化分析早期系统source
- TrackMAE(arXiv;CVPR 2026 accepted claim pending proceedings):用轨迹重建强化视频自监督表征source
- TrackNetV2:高效羽毛球追踪网络source
- TrackNetV3:增强羽毛球 shuttle tracking 的数据增强与轨迹校正source
- TrackNetV4:用运动注意力图增强快速体育小目标追踪source
- TrackNet:体育高速小目标追踪网络source
- TranSPORTmer:面向多智能体体育轨迹理解的统一 Transformer 框架source
- Tune-A-Video:单样本调优图像扩散模型做文本到视频生成source
- UniReal:通过学习真实世界动态实现通用图像生成与编辑source
- Universal Soccer Video Understanding:统一足球视频理解锚点source
- VARS:多视角足球视频助理裁判系统source
- VBench:面向视频生成模型的综合评测套件source
- VEGGIE:通过 grounded generation 进行指令式编辑与视频概念推理source
- VEU-Bench:迈向对视频编辑的全面理解source
- VIVE3D:基于 3D-aware GAN 的视角无关视频编辑source
- VidToMe:用于零样本视频编辑的视频 token mergingsource
- Video-Bench:面向视频生成的人类对齐评测基准source
- Video-P2P:基于 cross-attention control 的视频编辑source
- VideoAuto-R1(arXiv;CVPR 2026 accepted claim pending proceedings):按需推理的视频理解框架source
- VideoCrafter2:突破数据限制的高质量视频扩散模型source
- VideoDirector:借助文本到视频模型实现精确视频编辑source
- VideoMAE:VideoMAE 用 masked autoencoding 做视频自监督预训练,强调数据效率。source
- WEAR:WEAR 提供户外运动中的第一视角视频与可穿戴传感器数据,用来研究视频、IMU 与活动识别的多模态融合。source
- Wavelet Diffusion Models:快速且可扩展的图像生成器source
- X-VARS:可解释足球视频助理裁判系统source
- 加速迭代扩散反演的真实图像编辑source
- 文本到图像扩散中的多概念定制source
- 用于文本驱动图像编辑的 Prompt Tuning Inversionsource
- 通过图像特定提示学习实现零样本生成模型适配source
- 通过多模态大模型实现语言驱动视频修补source
- 通过形式化验证评测文本到视频模型的神经符号方法source
- 面向文本到图像生成的可验证与可复现人工评测source
#reasoning
- ANetQA:面向未裁剪视频细粒度组合推理的大规模基准source
- Automated Offside Detection:这项工作把足球越位判定转成时空视频分析问题,强调规则、时刻同步和几何位置。source
- FineCausal:可解释细粒度动作质量评估source
- MMMU:面向专家级 AGI 的大规模多学科多模态理解与推理基准source
- PathCRF:从球员轨迹推断控球路径来做足球事件检测source
- SOK-Bench:带开放世界知识对齐的情境视频推理基准source
- ST-GCN:ST-GCN 用时空图卷积建模骨架动作,是姿态驱动动作识别的经典基线。source
- TacticAI:战术决策支持锚点source
- TimeSformer:TimeSformer 用纯 attention 结构建模视频时空关系,是视频 Transformer 路线的重要基础。source
- TranSPORTmer:面向多智能体体育轨迹理解的统一 Transformer 框架source
- Universal Soccer Video Understanding:统一足球视频理解锚点source
- VARS:多视角足球视频助理裁判系统source
- VEGGIE:通过 grounded generation 进行指令式编辑与视频概念推理source
- Video Understandingtopic
- VideoAuto-R1(arXiv;CVPR 2026 accepted claim pending proceedings):按需推理的视频理解框架source
- X-VARS:可解释足球视频助理裁判系统source
#representation-learning
- BST:面向羽毛球击球类型识别的骨架动作 Transformersource
- BadmintonDB:面向球员级比赛分析与预测的羽毛球数据集source
- BlockGCN:重新强化骨架动作识别中的拓扑意识source
- Diffusion Autoencoders:为扩散模型补上更可解释、可解码的语义表征层source
- Mainstream Vision Backbonestopic
- MultiSenseBadminton:面向羽毛球表现评估的多传感器生物力学数据集source
- ProtoGCN:用原型视角强化骨架动作识别的细粒度差异source
- SkateFormer:面向人体动作识别的骨架-时间 Transformersource
- TemPose:面向羽毛球细粒度动作识别的骨架 Transformersource
- TrackMAE(arXiv;CVPR 2026 accepted claim pending proceedings):用轨迹重建强化视频自监督表征source
- VideoMAE:VideoMAE 用 masked autoencoding 做视频自监督预训练,强调数据效率。source
- 羽毛球挥拍动作纠正 demo 应如何定义question
#secondary-source
- Catapult Athlete Monitoring:Catapult athlete monitoring 页面展示运动员负荷、训练监测和多模态数据产品。source
- DeepLabCut:DeepLabCut 是少量标注即可训练的无标记关键点追踪工具。source
- FineDiving Repository:FineDiving 仓库提供数据集与代码入口。source
- HomeCourt:HomeCourt 代表手机相机驱动的消费级训练反馈应用。source
- KINEXON Player Tracking:KINEXON player tracking 页面展示 UWB/GPS/LPS 球员追踪系统。source
- MMAction2:MMAction2 是 OpenMMLab 视频理解工具箱,支持动作识别、检测和骨架动作等任务。source
- MMPose / RTMPose:MMPose 提供 2D/3D 姿态估计工具链,RTMPose 强调实时部署。source
- MediaPipe Pose:MediaPipe Pose / BlazePose 提供移动端友好的 3D landmarks 姿态估计。source
- NFL Hawk-Eye First Down:AP 报道 NFL 引入基于 Hawk-Eye 的首攻测量技术。source
- NIST AI RMF:NIST AI RMF 提供 AI 风险管理框架。source
- OpenPose:OpenPose 是早期多人 2D 关键点检测工具。source
- Premier League Semi-Automated Offside:Reuters 报道英超启用半自动越位技术。source
- Second Spectrum / Genius Sports:Genius Sports 收购 Second Spectrum 的公告展示了光学追踪、联赛数据和媒体可视化的商业链路。source
- SoccerNet Action Spotting:SoccerNet action spotting 是足球视频事件定位的核心公开任务入口。source
- Sports AI Review 2025:这篇综述讨论体育视觉、分析和 AI 系统的发展趋势。source
- SportsMOT Dataset Page:SportsMOT 官方数据页记录数据下载、许可和基准说明。source
#survey-needed
- 图像编辑的进步主要来自数据扩展还是架构升级question
- 现有评测是否真的刻画了视频编辑理解能力question
- 统一图像生成编辑模型能否持续压过专用流水线question
- 羽毛球挥拍动作纠正 demo 应如何定义question
#tracking
- AI Driven Soccer Analysis:足球视频分析系统样本source
- BST:面向羽毛球击球类型识别的骨架动作 Transformersource
- Broadcast2Pitch:从非受控足球转播视频重建比赛状态source
- Event2Tracking:用长时多模态上下文重建多智能体足球轨迹source
- KINEXON Player Tracking:KINEXON player tracking 页面展示 UWB/GPS/LPS 球员追踪系统。source
- MonoTrack:单目羽毛球视频的 3D 轨迹重建source
- PathCRF:从球员轨迹推断控球路径来做足球事件检测source
- Second Spectrum / Genius Sports:Genius Sports 收购 Second Spectrum 的公告展示了光学追踪、联赛数据和媒体可视化的商业链路。source
- SoccerNet 2023 Tracking Challenge MOT4MOT:球员跟踪团队报告source
- SoccerNet-GSR:足球比赛状态重建锚点source
- SoccerNet-Tracking:足球多目标跟踪数据集与基准source
- SoccerNet-v2 Camera Calibration:足球场标定与球员定位source
- SportMamba:用状态空间模型处理团队运动中的非线性多目标跟踪source
- Sports AI Research Roadmaptopic
- Sports AI Video Understandingtopic
- SportsMOTentity
- SportsMOT Dataset Page:SportsMOT 官方数据页记录数据下载、许可和基准说明。source
- SportsMOT:多运动场景下的大规模球员多目标跟踪基准source
- TeamTrack:全场视角多运动多目标跟踪数据集source
- Towards Structured Analysis:广播羽毛球视频的结构化分析早期系统source
- TrackMAE(arXiv;CVPR 2026 accepted claim pending proceedings):用轨迹重建强化视频自监督表征source
- TrackNetV2:高效羽毛球追踪网络source
- TrackNetV3:增强羽毛球 shuttle tracking 的数据增强与轨迹校正source
- TrackNetV4:用运动注意力图增强快速体育小目标追踪source
- TrackNet:体育高速小目标追踪网络source
- TranSPORTmer:面向多智能体体育轨迹理解的统一 Transformer 框架source
#video-editing
- A Video is Worth 256 Bases:零样本视频编辑的时空 EM 反演source
- AVID:基于扩散模型的任意长度视频修补source
- Align-A-Video:面向一致视频编辑的确定性奖励调优source
- CAMEL:面向文本驱动视频编辑的因果运动增强source
- CCEdit:创意且可控的视频编辑source
- DIVE:用 DINO 做主体驱动视频编辑source
- DynVideo-E:利用动态 NeRF 做大尺度运动与视角变化的人体中心视频编辑source
- FADE:面向视频编辑的频率感知扩散模型分解source
- Fairy:快速并行的指令引导视频到视频合成source
- FateZero:融合注意力做零样本文本视频编辑source
- FiVE-Bench:细粒度视频编辑评测基准source
- FlowVid:通过处理不完美光流实现一致的视频到视频合成source
- FramePainter:用视频扩散先验增强交互式图像编辑source
- InsViE-1M:通过精细数据构造实现有效的 instruction-based 视频编辑source
- MaskINT:基于插值式非自回归 masked transformer 的视频编辑source
- MotionEditor:基于内容感知扩散的视频运动编辑source
- MotionFollower:通过 score-guided diffusion 编辑视频运动source
- Pix2Video:利用图像扩散进行视频编辑source
- QK-Edit:在 MM-DiT 中重新审视图像与视频编辑的 attention 注入source
- RAVE:通过随机噪声重排实现快速且一致的视频编辑source
- Reangle-A-Video:把 4D 视频生成重写为视频到视频翻译source
- Shape-aware Text-driven Layered Video Editing:形状感知的分层文本视频编辑source
- SketchVideo:基于草图的视频生成与编辑source
- StableVideo:文本驱动且一致性感知的扩散视频编辑source
- VEGGIE:通过 grounded generation 进行指令式编辑与视频概念推理source
- VEU-Bench:迈向对视频编辑的全面理解source
- VIVE3D:基于 3D-aware GAN 的视角无关视频编辑source
- VidToMe:用于零样本视频编辑的视频 token mergingsource
- Video-P2P:基于 cross-attention control 的视频编辑source
- VideoDirector:借助文本到视频模型实现精确视频编辑source
- 当前模型仍然难以真正理解视频编辑claim
- 现有评测是否真的刻画了视频编辑理解能力question
- 视频编辑topic
- 视频编辑理解entity
- 通过多模态大模型实现语言驱动视频修补source
#video-generation
- AIGV-Assessor:用大模型评测文本到视频生成感知质量source
- AVID:基于扩散模型的任意长度视频修补source
- CAMEL:面向文本驱动视频编辑的因果运动增强source
- CCEdit:创意且可控的视频编辑source
- DynVideo-E:利用动态 NeRF 做大尺度运动与视角变化的人体中心视频编辑source
- Encapsulated Composition:组合式文本到图像/视频模型高质量视频合成source
- EvalCrafter:大视频生成模型的评测与基准source
- Fairy:快速并行的指令引导视频到视频合成source
- FlowVid:通过处理不完美光流实现一致的视频到视频合成source
- FramePainter:用视频扩散先验增强交互式图像编辑source
- InsViE-1M:通过精细数据构造实现有效的 instruction-based 视频编辑source
- LinGen:面向高分辨率分钟级文本到视频生成的线性复杂度框架source
- MaskINT:基于插值式非自回归 masked transformer 的视频编辑source
- MotionEditor:基于内容感知扩散的视频运动编辑source
- MotionFollower:通过 score-guided diffusion 编辑视频运动source
- MotionStone:用 DiT 解耦运动强度调制的图像到视频生成source
- OSV:高质量图像到视频生成一步就够source
- Pix2Video:利用图像扩散进行视频编辑source
- RAVE:通过随机噪声重排实现快速且一致的视频编辑source
- Reangle-A-Video:把 4D 视频生成重写为视频到视频翻译source
- Shape-aware Text-driven Layered Video Editing:形状感知的分层文本视频编辑source
- SketchVideo:基于草图的视频生成与编辑source
- StableVideo:文本驱动且一致性感知的扩散视频编辑source
- StreamingT2V:一致、动态、可扩展的长视频文本生成source
- Tora:面向视频生成的轨迹导向扩散 Transformersource
- Tune-A-Video:单样本调优图像扩散模型做文本到视频生成source
- VBench:面向视频生成模型的综合评测套件source
- VIVE3D:基于 3D-aware GAN 的视角无关视频编辑source
- VidToMe:用于零样本视频编辑的视频 token mergingsource
- Video-Bench:面向视频生成的人类对齐评测基准source
- Video-P2P:基于 cross-attention control 的视频编辑source
- VideoCrafter2:突破数据限制的高质量视频扩散模型source
- 视频生成topic
- 通过形式化验证评测文本到视频模型的神经符号方法source
#video-understanding
- AI Driven Soccer Analysis:足球视频分析系统样本source
- ANetQA:面向未裁剪视频细粒度组合推理的大规模基准source
- Active Learning for Action Spotting:足球事件定位的低标注路线source
- AthletePose3D:真实体育 3D 姿态与生物力学锚点source
- AthleticsPose:AthleticsPose 聚焦真实田径动作中的 3D 姿态估计与泛化评估。source
- Automated Offside Detection:这项工作把足球越位判定转成时空视频分析问题,强调规则、时刻同步和几何位置。source
- BST:面向羽毛球击球类型识别的骨架动作 Transformersource
- BadmintonDB:面向球员级比赛分析与预测的羽毛球数据集source
- BlockGCN:重新强化骨架动作识别中的拓扑意识source
- Broadcast2Pitch:从非受控足球转播视频重建比赛状态source
- Catapult Athlete Monitoring:Catapult athlete monitoring 页面展示运动员负荷、训练监测和多模态数据产品。source
- DeepLabCut:DeepLabCut 是少量标注即可训练的无标记关键点追踪工具。source
- Event2Tracking:用长时多模态上下文重建多智能体足球轨迹source
- FineCausal:可解释细粒度动作质量评估source
- FineDiving Repository:FineDiving 仓库提供数据集与代码入口。source
- FineDiving:技术动作评分与过程理解锚点source
- FineGym:体育 AI 的细粒度动作理解早期锚点source
- FineSports:多人层级细粒度体育动作数据锚点source
- GlitchBench:大型多模态模型能否识别电子游戏故障source
- HomeCourt:HomeCourt 代表手机相机驱动的消费级训练反馈应用。source
- Human-in-the-loop Adaptation:团队运动检索的人机闭环适配source
- LOGO:群体动作质量评估锚点source
- LVBench:极限长视频理解基准source
- MMAction2:MMAction2 是 OpenMMLab 视频理解工具箱,支持动作识别、检测和骨架动作等任务。source
- MMPose / RTMPose:MMPose 提供 2D/3D 姿态估计工具链,RTMPose 强调实时部署。source
- MVBench:综合性的多模态视频理解基准source
- Mainstream Vision Backbonestopic
- MediaPipe Pose:MediaPipe Pose / BlazePose 提供移动端友好的 3D landmarks 姿态估计。source
- MonoTrack:单目羽毛球视频的 3D 轨迹重建source
- MultiSenseBadminton:面向羽毛球表现评估的多传感器生物力学数据集source
- MultiSports:多人时空动作定位的数据锚点source
- NFL Hawk-Eye First Down:AP 报道 NFL 引入基于 Hawk-Eye 的首攻测量技术。source
- OpenCap:OpenCap 用智能手机视频估计人体运动学与动力学,降低实验室级运动捕捉门槛。source
- OpenPose:OpenPose 是早期多人 2D 关键点检测工具。source
- PathCRF:从球员轨迹推断控球路径来做足球事件检测source
- Premier League Semi-Automated Offside:Reuters 报道英超启用半自动越位技术。source
- ProtoGCN:用原型视角强化骨架动作识别的细粒度差异source
- RefereeBench:多运动项目视频裁判能力评测source
- SOK-Bench:带开放世界知识对齐的情境视频推理基准source
- ST-GCN:ST-GCN 用时空图卷积建模骨架动作,是姿态驱动动作识别的经典基线。source
- STI-Bench:多模态大模型是否已准备好进行精确时空世界理解source
- ShuttleSet:人工标注的羽毛球单打 stroke-level 数据集source
- SkateFormer:面向人体动作识别的骨架-时间 Transformersource
- SoccerNet 2022 Challenges Results:足球视频理解挑战早期基线source
- SoccerNet 2023 Challenges Results:足球视频多任务挑战结果source
- SoccerNet 2023 Tracking Challenge MOT4MOT:球员跟踪团队报告source
- SoccerNet Action Spotting:SoccerNet action spotting 是足球视频事件定位的核心公开任务入口。source
- SoccerNet-GSR:足球比赛状态重建锚点source
- SoccerNet-Tracking:足球多目标跟踪数据集与基准source
- SoccerNet-v2 Camera Calibration:足球场标定与球员定位source
- SoccerNet-v2:广播足球视频整体理解基准source
- Sports AI Research Roadmaptopic
- Sports AI Review 2025:这篇综述讨论体育视觉、分析和 AI 系统的发展趋势。source
- Sports AI Video Understandingtopic
- Sports-QA:复杂专业体育视频问答基准source
- SportsCap:SportsCap 研究单目体育视频中的 3D 人体运动捕捉和细粒度动作理解。source
- SportsHHI:体育视频中的高层人-人交互检测基准source
- TacticAI:战术决策支持锚点source
- TemPose:面向羽毛球细粒度动作识别的骨架 Transformersource
- Temporal Parsing Transformer:Temporal Parsing Transformer 把动作质量评估拆成时序解析问题,在打分类体育动作中强调过程结构。source
- TimeSformer:TimeSformer 用纯 attention 结构建模视频时空关系,是视频 Transformer 路线的重要基础。source
- Towards Structured Analysis:广播羽毛球视频的结构化分析早期系统source
- TrackMAE(arXiv;CVPR 2026 accepted claim pending proceedings):用轨迹重建强化视频自监督表征source
- TrackNetV2:高效羽毛球追踪网络source
- TrackNetV3:增强羽毛球 shuttle tracking 的数据增强与轨迹校正source
- TrackNetV4:用运动注意力图增强快速体育小目标追踪source
- TrackNet:体育高速小目标追踪网络source
- Universal Soccer Video Understanding:统一足球视频理解锚点source
- VARS:多视角足球视频助理裁判系统source
- VEGGIE:通过 grounded generation 进行指令式编辑与视频概念推理source
- Video Understandingtopic
- VideoAuto-R1(arXiv;CVPR 2026 accepted claim pending proceedings):按需推理的视频理解框架source
- VideoMAE:VideoMAE 用 masked autoencoding 做视频自监督预训练,强调数据效率。source
- WEAR:WEAR 提供户外运动中的第一视角视频与可穿戴传感器数据,用来研究视频、IMU 与活动识别的多模态融合。source
- X-VARS:可解释足球视频助理裁判系统source
- 羽毛球挥拍动作纠正 demo 应如何定义question
- 通过多模态大模型实现语言驱动视频修补source
#vision-language
- ConCon-Chi:面向个性化视觉语言任务的概念-上下文嵌合基准source
- GLIGEN:开放集合 grounded 文本到图像生成source
- HallusionBench:大型视觉语言模型中的幻觉与视觉错觉诊断基准source
- Human-in-the-loop Adaptation:团队运动检索的人机闭环适配source
- MAPLM:面向地图与交通场景理解的真实世界大规模视觉语言基准source
- MMMU:面向专家级 AGI 的大规模多学科多模态理解与推理基准source
- STI-Bench:多模态大模型是否已准备好进行精确时空世界理解source
- Sports-QA:复杂专业体育视频问答基准source
- VARS:多视角足球视频助理裁判系统source
- VEGGIE:通过 grounded generation 进行指令式编辑与视频概念推理source
- VideoAuto-R1(arXiv;CVPR 2026 accepted claim pending proceedings):按需推理的视频理解框架source
- X-VARS:可解释足球视频助理裁判系统source
- 视觉-语言topic
- 通过多模态大模型实现语言驱动视频修补source