索引
这是 CVPR 2025 研究 wiki 的总入口。
想先看整体结构与阅读路径,请从这里开始;想看当前状态与 backlog,请转到 dashboard。
最后更新:2026-04-25 | Topics:11 | 已编译页面:193
总览入口
- llm-wiki — Karpathy 提出的 LLM Wiki 概念说明,也是本知识库的设计理念入口。
- docs/superpowers/specs/2026-04-12-cvpr-2025-hermes-kb-design — 第一阶段设计方案与范围界定。
- AGENTS — Hermes 在本 vault 中的编译职责、工作流程与操作规则。
- SCHEMA — 页面结构规范、frontmatter 要求、标签体系与 lint 检查标准。
- dashboard — 当前知识库进度、backlog、优先级与下一步建议动作。
- log — 按时间记录的 ingest、编译、修复与结构调整历史。
中文阅读路线
- 第一次进入这个库:按
dashboard → topics/image-generation → topics/video-generation → topics/video-editing → claims/claim-dit-is-becoming-the-default-scalable-generation-backbone阅读,最快建立整体印象。 - 想先看图像侧主线:按
topics/image-generation → topics/image-editing → entities/unified-image-generation-editing → claims/claim-unified-models-may-outcompete-specialized-image-pipelines阅读。 - 想先看视频侧主线:按
topics/video-generation → topics/video-editing → entities/video-editing-understanding → claims/claim-current-models-still-struggle-to-understand-video-editing阅读。 - 想先看体育 AI 主线:按
topics/sports-ai-roadmap → topics/sports-ai-video-understanding → entities/sportsmot → sources/2026-04-24-transportmer阅读。 - 想看方法主干怎样演化:按
topics/diffusion-models → entities/diffusion-transformer → claims/claim-dit-is-becoming-the-default-scalable-generation-backbone阅读。 - 只想直接看论文:直接从下面的
论文来源区块按中文简介筛选,再进入对应 source note。
主题页
- topics/diffusion-models — 扩散模型基础、结构扩展、效率权衡,以及在图像/视频任务中的复用关系。
- topics/diffusion-efficiency-engineering — 扩散效率工程主线,整理 backbone、采样提速、部署压缩与 guidance 工程化。
- topics/generative-model-evaluation — 生成模型评测方式、基准设计、盲点,以及证据质量问题。
- topics/image-editing — 图像编辑主题,关注指令编辑、控制能力、保真度和推理效率。
- topics/image-generation — 图像生成主题,覆盖图像合成、编辑一体化、可控性与条件机制。
- topics/sports-ai-roadmap — 体育 AI 研究路线图,把感知、跟踪、交互、轨迹、战术、评估与部署组织成公开阅读路径。
- topics/sports-ai-video-understanding — 体育 AI 视频理解主题,聚焦球员跟踪、人-人交互、全场轨迹与多智能体状态理解。
- topics/video-editing — 视频编辑主题,关注文本驱动编辑、时序一致性、保真度与评测。
- topics/video-generation — 视频生成主题,关注长时生成、运动控制、速度与一致性。
- topics/video-understanding — 视频理解主题,聚焦时序推理、长上下文建模与视频评测问题。
- topics/vision-language — 视觉-语言主题,聚焦多模态条件控制、对齐与语言驱动推理。
论文来源
- sources/2026-04-12-align-a-video — CVPR 2025;用确定性 reward tuning 提升视频编辑质量,并尽量稳住时序一致性。
- sources/2026-04-12-anyedit — CVPR 2025;通过大规模多类型编辑数据和任务路由做统一图像编辑。
- sources/2026-04-12-d2it — CVPR 2025;用动态区域压缩改进图像生成中的局部细节与全局一致性平衡。
- sources/2026-04-12-dreamomni — CVPR 2025;通过合成编辑数据扩展,把图像生成和编辑放进同一训练框架。
- sources/2026-04-12-fade — CVPR 2025;借助视频扩散先验和频域调制做免训练视频编辑。
- sources/2026-04-12-fireedit — CVPR 2025;用区域感知视觉语言 grounding 提升细粒度图像编辑。
- sources/2026-04-12-insightedit — CVPR 2025;用更好的数据集和双流多模态引导提升指令跟随与背景保持。
- sources/2026-04-12-lingen — CVPR 2025;把长视频生成的核心复杂度降到线性,冲击分钟级生成。
- sources/2026-04-12-omnigen — CVPR 2025;用一个更简洁的统一模型覆盖生成、编辑和视觉条件控制。
- sources/2026-04-12-osv — CVPR 2025;一步式 image-to-video 生成,并保留可选 refinement 作为速度-质量旋钮。
- sources/2026-04-12-streamingt2v — CVPR 2025;通过短期/长期记忆模块保持长视频生成的一致性。
- sources/2026-04-12-swiftedit — CVPR 2025;用一步式扩散把文本引导图像编辑加速到接近实时。
- sources/2026-04-12-tora — CVPR 2025;把轨迹作为显式条件输入,强化视频运动控制与保真度。
- sources/2026-04-12-unireal — CVPR 2025;把图像生成和编辑统一重写成非连续视频生成问题。
- sources/2026-04-12-veu-bench — CVPR 2025;面向视频编辑理解的 benchmark,用来揭示当前模型短板。
- sources/2026-04-12-videodirector — CVPR 2025;通过时空解耦引导实现更精确的视频编辑与内容保留。
- sources/2026-04-14-aigv-assessor — CVPR 2025;用大模型和专家评分体系评测文本到视频生成的感知质量。
- sources/2026-04-14-encapsulated-composition-t2i-t2v — CVPR 2025;用 T2I 与 T2V 模块封装组合提高视频合成质量、运动平滑度与速度。
- sources/2026-04-14-pathways-image-manifold — CVPR 2025;把图像编辑重写为视频生成的连续路径搜索过程。
- sources/2026-04-14-motionstone — CVPR 2025;用 DiT 的运动强度调制强化图像到视频生成中的结构控制。
- sources/2026-04-14-sketchvideo — CVPR 2025;以草图为核心控制接口的视频生成与编辑工作。
- sources/2026-04-14-video-bench — CVPR 2025;面向视频生成的人类对齐评测基准。
- sources/2026-04-14-diffeditor — CVPR 2024;提升扩散式图像编辑精度与灵活性的代表性工作。
- sources/2026-04-14-instructpix2pix — CVPR 2023;早期 instruction-based image editing 的关键锚点。
- sources/2026-04-14-tune-a-video — ICCV 2023;通过单样本调优把图像扩散模型迁移到视频生成。
- sources/2026-04-14-videocrafter2 — CVPR 2024;面向高质量视频扩散模型的数据与训练方案工作。
- sources/2026-04-14-evalcrafter — CVPR 2024;大视频生成模型评测线的重要早期锚点。
- sources/2026-04-14-fatezero — ICCV 2023;早期零样本文本视频编辑的重要方法锚点。
- sources/2026-04-14-five-bench — ICCV 2025;细粒度视频编辑评测基准。
- sources/2026-04-14-dreambooth — CVPR 2023;主体驱动生成与个性化扩散微调的重要锚点。
- sources/2026-04-14-gligen — CVPR 2023;开放集合 grounded 文本到图像生成。
- sources/2026-04-14-latent-diffusion-models — CVPR 2022;高分辨率图像生成的潜空间扩散框架。
- sources/2026-04-14-imagen-editor-editbench — CVPR 2023;把图像编辑方法与 EditBench 评测基准放到同一历史节点。
- sources/2026-04-14-video-p2p — ICCV 2023;以 cross-attention control 为核心的视频编辑早期锚点。
- sources/2026-04-14-flasheval — CVPR 2024;面向文本到图像扩散模型的快速评测方法。
- sources/2026-04-14-anydoor — CVPR 2024;零样本对象级图像定制,补强可控生成与局部编辑路线。
- sources/2026-04-14-motioneditor — CVPR 2024;把视频编辑推进到运动编辑专门化阶段。
- sources/2026-04-14-rave-video-editing — CVPR 2024;强调快速且一致的视频编辑工程路线。
- sources/2026-04-14-verifiable-human-eval-t2i — CVPR 2023;关注文本到图像生成人工评测的可验证与可复现性。
- sources/2026-04-14-paint-by-example — CVPR 2023;用参考示例而不是纯文本做图像编辑。
- sources/2026-04-14-null-text-inversion — CVPR 2023;强化真实图像扩散编辑中的 inversion 机制。
- sources/2026-04-14-ccedit — CVPR 2024;强调创意变化与可控性平衡的视频编辑。
- sources/2026-04-14-maskint — CVPR 2024;用 masked transformer 走视频编辑的非扩散路线。
- sources/2026-04-14-effective-real-image-editing — ICCV 2023;继续加速真实图像扩散反演。
- sources/2026-04-14-prompt-tuning-inversion — ICCV 2023;用 prompt tuning 改善文本驱动图像编辑反演。
- sources/2026-04-14-framepainter — ICCV 2025;用视频扩散先验增强交互式图像编辑。
- sources/2026-04-14-dive-subject-driven-video-editing — ICCV 2025;把主体驱动路线进一步推到视频编辑。
- sources/2026-04-14-qk-edit — ICCV 2025;在 MM-DiT 中重做图像与视频编辑的 attention 注入。
- sources/2026-04-14-insvie-1m — ICCV 2025;通过精细数据构造强化 instruction-based 视频编辑。
- sources/2026-04-14-veggie — ICCV 2025;把视频编辑与视频概念推理接到同一 grounded generation 框架。
- sources/2026-04-14-hallusionbench — CVPR 2024;诊断大型视觉语言模型中的幻觉与视觉错觉。
- sources/2026-04-14-camel-video-editing — CVPR 2024;用因果运动增强提升文本驱动视频编辑。
- sources/2026-04-14-vidtome — CVPR 2024;用 token merging 加速零样本视频编辑。
- sources/2026-04-14-motionfollower — ICCV 2025;用 score-guided diffusion 做视频运动编辑。
- sources/2026-04-14-reangle-a-video — ICCV 2025;把 4D 视频生成重写为视频到视频翻译。
- sources/2026-04-14-stablevideo — ICCV 2023;面向一致性感知的文本驱动扩散视频编辑。
- sources/2026-04-14-pix2video — ICCV 2023;利用图像扩散能力做视频编辑。
- sources/2026-04-14-video-worth-256-bases — CVPR 2024;用时空 EM inversion 支持零样本视频编辑。
- sources/2026-04-14-glitchbench — CVPR 2024;用视频故障诊断测试多模态模型的视频理解能力。
- sources/2026-04-14-avid-video-inpainting — CVPR 2024;基于扩散模型的任意长度视频修补。
- sources/2026-04-14-dynvideo-e — CVPR 2024;利用动态 NeRF 做大运动/视角变化的人体中心视频编辑。
- sources/2026-04-14-language-driven-video-inpainting — CVPR 2024;把多模态大模型接入语言驱动视频修补。
- sources/2026-04-14-imagic — CVPR 2023;扩散时代真实图像文本编辑的重要早期锚点。
- sources/2026-04-14-layoutdiffusion — CVPR 2023;面向布局到图像生成的可控扩散模型。
- sources/2026-04-14-mvbench — CVPR 2024;综合性的多模态视频理解基准。
- sources/2026-04-14-vbench — CVPR 2024;面向视频生成模型的综合评测套件。
- sources/2026-04-14-shape-aware-layered-video-editing — CVPR 2023;形状感知的分层文本视频编辑。
- sources/2026-04-14-vive3d — CVPR 2023;基于 3D-aware GAN 的视角无关视频编辑。
- sources/2026-04-14-fairy-video-to-video — CVPR 2024;快速并行的指令引导视频到视频合成。
- sources/2026-04-14-flowvid — CVPR 2024;利用光流一致性做视频到视频合成。
- sources/2026-04-14-lvbench — ICCV 2025;极限长视频理解基准。
- sources/2026-04-14-sok-bench — CVPR 2024;带开放世界知识对齐的情境视频推理基准。
- sources/2026-04-14-anetqa — CVPR 2023;面向未裁剪视频细粒度组合推理的大规模基准。
- sources/2026-04-14-neuro-symbolic-eval-t2v — CVPR 2025;用形式化验证评测文本到视频模型。
- sources/2026-04-14-sti-bench — ICCV 2025;测试 MLLMs 精确时空世界理解能力的 benchmark。
- sources/2026-04-14-mmmu — CVPR 2024;大规模多学科多模态理解与推理基准。
- sources/2026-04-14-maplm — CVPR 2024;面向地图与交通场景理解的真实世界视觉语言基准。
- sources/2026-04-14-concon-chi — CVPR 2024;面向个性化视觉语言任务的概念-上下文嵌合基准。
- sources/2026-04-14-reco — CVPR 2023;区域控制的文本到图像生成。
- sources/2026-04-14-multi-concept-customization — CVPR 2023;文本到图像扩散中的多概念定制。
- sources/2026-04-14-specialist-diffusion — CVPR 2023;可插拔且样本高效的文本到图像扩散微调。
- sources/2026-04-14-image-specific-prompt-learning — CVPR 2023;通过图像特定提示学习实现零样本生成模型适配。
- sources/2026-04-14-domain-expansion-image-generators — CVPR 2023;图像生成器的领域扩展。
- sources/2026-04-14-wavelet-diffusion-models — CVPR 2023;快速且可扩展的 wavelet diffusion 图像生成器。
- sources/2026-04-14-commoncanvas — CVPR 2024;在 Creative Commons 图像上训练的开放扩散模型。
- sources/2026-04-14-concept-weaver — CVPR 2024;面向文本到图像模型的多概念融合。
- sources/2026-04-14-codi — CVPR 2024;用条件扩散蒸馏实现更高保真且更快的图像生成。
- sources/2026-04-14-conform — CVPR 2024;用对比式训练提升高保真文本到图像扩散模型。
- sources/2026-04-14-check-locate-rectify — CVPR 2024;文本到图像生成的训练免费布局校准系统。
- sources/2026-04-14-customization-assistant — CVPR 2024;面向文本到图像生成的定制辅助系统。
- sources/2026-04-14-attention-calibration-personalization — CVPR 2024;解耦式文本到图像个性化的注意力校准。
- sources/2026-04-14-condition-aware-neural-network — CVPR 2024;面向可控图像生成的条件感知网络。
- sources/2026-04-14-contrastive-denoising-score — CVPR 2024;用对比去噪评分改进文本引导潜扩散图像编辑。
- sources/2026-04-14-cosmicman — CVPR 2024;面向人物的文本到图像基础模型。
- sources/2026-04-15-all-are-worth-words — CVPR 2023;用 U-ViT 证明 ViT 可以直接成为扩散模型主干。
- sources/2026-04-15-scalable-diffusion-models-with-transformers — ICCV 2023;正式提出 DiT,并把 Transformer 主干的 scaling 优势坐实为主线证据。
- sources/2026-04-15-act-diffusion — CVPR 2024;用对抗一致性训练降低一步扩散的训练资源门槛。
- sources/2026-04-15-analyzing-training-dynamics-diffusion-models — CVPR 2024;通过校正训练动力学提升扩散模型质量上限。
- sources/2026-04-15-deepcache — CVPR 2024;通过缓存相邻去噪步特征做训练免费的扩散加速。
- sources/2026-04-15-freeu — CVPR 2024;通过重加权 U-Net 主干与跳连,在不重训的前提下提升扩散质量。
- sources/2026-04-15-distilling-ode-solvers-diffusion-models — CVPR 2024;把扩散 ODE 求解器蒸馏到更少步数版本。
- sources/2026-04-16-on-distillation-of-guided-diffusion-models — CVPR 2023;把 classifier-free guidance 与 progressive distillation 接到一起,推动极少步扩散采样。
- sources/2026-04-16-blended-diffusion — CVPR 2022;把文本驱动自然图像编辑更早地接进 diffusion 生成过程。
- sources/2026-04-16-diffusion-autoencoders — CVPR 2022;为 diffusion 提供更可解释、可解码的语义表示层。
- sources/2026-04-16-high-fidelity-guided-image-synthesis — CVPR 2023;把 latent diffusion 上的 guidance 质量推进到更高保真。
- sources/2026-04-16-diffusionclip — CVPR 2022;把文本引导图像操控更早接到 diffusion 路线里。
- sources/2026-04-16-plug-and-play-diffusion-features — CVPR 2023;把 diffusion feature 直接变成文本驱动图像翻译接口。
- sources/2026-04-16-edict-exact-diffusion-inversion — CVPR 2023;把精确 diffusion inversion 变成真实图像编辑的关键接口。
- sources/2026-04-16-bbdm-brownian-bridge-diffusion — CVPR 2023;把 Brownian Bridge diffusion 接成图像到图像翻译主线。
- sources/2026-04-16-come-closer-diffuse-faster — CVPR 2022;用随机收缩把条件扩散的采样路径压得更短。
- sources/2026-04-16-rethinking-spatial-inconsistency-cfg — CVPR 2024;把 CFG 的空间不一致问题拉到前台。
- sources/2026-04-16-sana-sprint — arXiv;用连续时间一致性蒸馏把一步扩散再往前推。
- sources/2026-04-16-accelerating-dit-gradient-cache — arXiv;用梯度优化缓存继续压缩 DiT 推理成本。
- sources/2026-04-16-distilling-parallel-gradients-ode-solvers — arXiv;把并行梯度蒸馏接进快速 ODE solver 路线。
- sources/2026-04-16-text-embedding-quantization-diffusion — arXiv;把文本嵌入直接拉进 text-guided diffusion 量化链路。
- sources/2026-04-16-post-training-quantization-on-diffusion-models — CVPR 2023;把扩散模型推到 training-free 的 8-bit 量化部署,补上单步网络成本压缩路线。
- sources/2026-04-16-towards-practical-plug-and-play-diffusion-models — CVPR 2023;把多专家 guidance、参数高效微调和 data-free transfer 组合成可插拔 diffusion 控制框架。
- sources/2026-04-16-self-guided-diffusion-models — CVPR 2023;用自监督信号代替人工标签,为 diffusion 提供多粒度 guidance。
- sources/2026-04-16-controlnet — ICCV 2023;用冻结主干 + zero-conv 侧支把空间条件控制做成 diffusion 的通用接口。
- sources/2026-04-16-a-star — ICCV 2023;在测试时直接约束 cross-attention,减少多概念生成里的冲突与遗忘。
- sources/2026-04-16-boxdiff — ICCV 2023;把 box / scribble 空间约束直接塞进采样期 guidance,不用额外训练。
- sources/2026-04-16-dense-text-attention-modulation — ICCV 2023;用训练免费的 attention modulation 把 dense caption 与布局控制接进 diffusion。
- sources/2026-04-16-prompt-to-prompt — arXiv 2022;把 cross-attention 直接变成文本编辑控制面板。
- sources/2026-04-16-attend-and-excite — TOG 2023;在推理时主动修复 diffusion 的语义遗漏与主体漏生。
- sources/2026-04-16-multidiffusion — arXiv 2023;把多条 diffusion 轨迹融合成统一的受控生成框架。
- sources/2026-04-16-dlt-layout-transformer — ICCV 2023;把 layout generation 做成离散-连续联合 diffusion。
- sources/2026-04-16-self-correcting-llm-controlled-diffusion-models — CVPR 2024;把 diffusion 生成改成 LLM 驱动的闭环自纠错系统。
- sources/2026-04-16-c3net — CVPR 2024;把 ControlNet 推进到多模态复合条件接口。
- sources/2026-04-16-layoutdiffusion-graphic-layout-generation — ICCV 2023;把 graphic layout generation 做成离散 diffusion 的标准接口。
- sources/2026-04-16-dc-controlnet — arXiv;把多元素条件控制拆成 inter-element / intra-element 两层接口。
- sources/2026-04-23-sportmamba — arXiv 2025;用 Mamba-attention 与高度自适应关联度量处理团队运动中的非线性多目标跟踪。
- sources/2026-04-24-sportsmot — ICCV 2023;多运动场景下的大规模球员 MOT 数据集,是 SportsMOT 的原始基准论文。
- sources/2026-04-24-sportshhi — CVPR 2024;体育视频中高层人-人交互检测数据集,把理解粒度从 tracking 推向 interaction。
- sources/2026-04-24-teamtrack — CVPR Workshop 2024;全场视角多运动 MOT 数据集,补强 full-pitch tracking 与空间理解。
- sources/2026-04-24-transportmer — arXiv 2024;统一预测、补全、球推断和比赛状态分类的多智能体轨迹理解框架。
- 体育机器视觉文献清单 — - sources/2026-04-25-finegym — CVPR 2020;层级细粒度体育动作理解数据集,是体育动作语义结构的早期锚点。
- sources/2026-04-25-multisports — ICCV 2021;多人、多运动、时空动作定位数据集,补上体育 AI 的 action localization 层。
- sources/2026-04-25-finediving — CVPR 2022;过程感知动作质量评估数据集,连接技术动作评分和可解释训练反馈。
- sources/2026-04-25-logo-group-action-quality — CVPR 2023;长视频群体动作质量评估数据集,补上团队/群体表现评价证据。
- sources/2026-04-25-tacticai — Nature Communications 2024;足球角球战术 AI 助手,把体育 AI 推到专家评估和战术建议。
- sources/2026-04-25-soccernet-game-state-reconstruction — CVPR Workshop 2024;足球比赛状态重建,统一追踪、身份识别、号码识别与俯视图坐标。
- sources/2026-04-25-finesports — CVPR 2024;多人层级细粒度篮球动作数据,连接动作理解与团队运动场景。
- sources/2026-04-25-athletepose3d — CVPR Workshop 2025;真实竞技动作 3D 姿态与生物力学数据集,补上姿态/训练反馈证据。
- sources/2026-04-25-universal-soccer-video-understanding — CVPR 2025;统一足球视频理解方向,连接事件、视频和文本语义。
- sources/2026-04-25-tracknetv3 — technical report;羽毛球高速小目标轨迹追踪,补上球/器械 tracking 难点。
- sources/2026-04-25-wear-outdoor-sports-dataset — arXiv 2023;WEAR 提供户外运动中的第一视角视频与可穿戴传感器数据,用来研究视频、IMU 与活动识别的多模态融合。
- sources/2026-04-25-soccernet-action-spotting — SoccerNet official task;SoccerNet action spotting 是足球视频事件定位的核心公开任务入口。
- sources/2026-04-25-sportscap — arXiv 2021;SportsCap 研究单目体育视频中的 3D 人体运动捕捉和细粒度动作理解。
- sources/2026-04-25-automated-offside-detection — ACM MM Workshop 2021;这项工作把足球越位判定转成时空视频分析问题,强调规则、时刻同步和几何位置。
- sources/2026-04-25-opencap — PLOS Computational Biology / PMC 2023;OpenCap 用智能手机视频估计人体运动学与动力学,降低实验室级运动捕捉门槛。
- sources/2026-04-25-temporal-parsing-transformer-aqa — ECCV 2022;Temporal Parsing Transformer 把动作质量评估拆成时序解析问题,在打分类体育动作中强调过程结构。
- sources/2026-04-25-timesformer — ICML 2021;TimeSformer 用纯 attention 结构建模视频时空关系,是视频 Transformer 路线的重要基础。
- sources/2026-04-25-st-gcn — AAAI 2018 / arXiv;ST-GCN 用时空图卷积建模骨架动作,是姿态驱动动作识别的经典基线。
- sources/2026-04-25-videomae — NeurIPS 2022 / arXiv;VideoMAE 用 masked autoencoding 做视频自监督预训练,强调数据效率。
- sources/2026-04-25-sportsmot-dataset-page — DeeperAction dataset page;SportsMOT 官方数据页记录数据下载、许可和基准说明。
- sources/2026-04-25-finediving-repository — GitHub repository;FineDiving 仓库提供数据集与代码入口。
- sources/2026-04-25-athleticspose — arXiv 2025;AthleticsPose 聚焦真实田径动作中的 3D 姿态估计与泛化评估。
- sources/2026-04-25-sports-ai-review-2025 — Artificial Intelligence Review 2025;这篇综述讨论体育视觉、分析和 AI 系统的发展趋势。
- sources/2026-04-25-ap-nfl-hawkeye-first-down — Associated Press 2025;AP 报道 NFL 引入基于 Hawk-Eye 的首攻测量技术。
- sources/2026-04-25-mmaction2 — GitHub repository;MMAction2 是 OpenMMLab 视频理解工具箱,支持动作识别、检测和骨架动作等任务。
- sources/2026-04-25-reuters-premier-league-semi-automated-offside — Reuters 2025;Reuters 报道英超启用半自动越位技术。
- sources/2026-04-25-genius-sports-second-spectrum — Company newsroom;Genius Sports 收购 Second Spectrum 的公告展示了光学追踪、联赛数据和媒体可视化的商业链路。
- sources/2026-04-25-catapult-athlete-monitoring — Company product page;Catapult athlete monitoring 页面展示运动员负荷、训练监测和多模态数据产品。
- sources/2026-04-25-kinexon-player-tracking — Company product page;KINEXON player tracking 页面展示 UWB/GPS/LPS 球员追踪系统。
- sources/2026-04-25-homecourt — Product page;HomeCourt 代表手机相机驱动的消费级训练反馈应用。
- sources/2026-04-25-openpose — GitHub repository;OpenPose 是早期多人 2D 关键点检测工具。
- sources/2026-04-25-mmpose — GitHub repository;MMPose 提供 2D/3D 姿态估计工具链,RTMPose 强调实时部署。
- sources/2026-04-25-mediapipe-pose — Google AI Edge documentation;MediaPipe Pose / BlazePose 提供移动端友好的 3D landmarks 姿态估计。
- sources/2026-04-25-deeplabcut — GitHub repository;DeepLabCut 是少量标注即可训练的无标记关键点追踪工具。
- sources/2026-04-25-nist-ai-risk-management-framework — NIST;NIST AI RMF 提供 AI 风险管理框架。
- sources/2026-04-15-accelerating-diffusion-sampling-optimized-time-steps — CVPR 2024;用优化时间步替代均匀步长,提高少步采样表现。
- sources/2026-04-15-diffusion-models-without-attention — CVPR 2024;用 state space 主干给出非 DiT 的高分辨率扩散路线。
实体页
- entities/diffusion-transformer — 图像与视频生成论文中反复出现的 DiT 主干架构族。
- entities/sportsmot — 团队运动多目标跟踪数据集,把体育视频中的时序理解与目标关联补成具体证据锚点。
- entities/unified-image-generation-editing — 将图像生成和编辑放进同一框架的方法家族。
- entities/video-editing-understanding — 用于衡量视频编辑操作理解与结果判断能力的评测方向。
判断页
- claims/claim-current-models-still-struggle-to-understand-video-editing — 当前视频语言模型在“理解视频编辑”这件事上仍然偏弱。
- claims/claim-dit-is-becoming-the-default-scalable-generation-backbone — DiT 正在成为可扩展生成模型的通用主干。
- claims/claim-unified-models-may-outcompete-specialized-image-pipelines — 统一的生成-编辑模型长期可能优于专用流水线。
问题页
- questions/question-data-vs-architecture-in-image-editing — 图像编辑进步究竟主要来自数据扩展还是架构升级。
- questions/question-will-unified-image-models-sustain-their-advantage — 统一图像生成编辑模型能否持续压过专用流水线。
- questions/question-do-benchmarks-track-real-video-editing-understanding — 现有评测是否真的刻画了视频编辑理解能力。
模板
- templates/source-note-template — 结构化 source note 模板。
- templates/topic-template — topic 综合页模板。
- templates/entity-template — 模型、数据集、实验室等实体页模板。
- templates/claim-template — 待验证或存在争议的 claim 页模板。
- templates/question-template — 开放研究问题页模板。
- templates/raw-meta-template — raw ingest 元数据模板。
- templates/raw-links-template — primary / secondary 链接模板。
工具
scripts/lint_wiki.py— 用于检查 frontmatter、标签、索引覆盖、链接和 raw 链接一致性的首轮 lint 脚本。- docs/linting — 本地 lint 工作流说明,包含默认命令、
--strict / --quiet / --json模式、severity 解释与建议动作摘要的用法。