索引

这是 CVPR 2025 研究 wiki 的总入口。

想先看整体结构与阅读路径，请从这里开始；想看当前状态与 backlog，请转到 dashboard。

最后更新：2026-04-25 | Topics：11 | 已编译页面：193

总览入口

llm-wiki — Karpathy 提出的 LLM Wiki 概念说明，也是本知识库的设计理念入口。
docs/superpowers/specs/2026-04-12-cvpr-2025-hermes-kb-design — 第一阶段设计方案与范围界定。
AGENTS — Hermes 在本 vault 中的编译职责、工作流程与操作规则。
SCHEMA — 页面结构规范、frontmatter 要求、标签体系与 lint 检查标准。
dashboard — 当前知识库进度、backlog、优先级与下一步建议动作。
log — 按时间记录的 ingest、编译、修复与结构调整历史。

中文阅读路线

第一次进入这个库：按 dashboard → topics/image-generation → topics/video-generation → topics/video-editing → claims/claim-dit-is-becoming-the-default-scalable-generation-backbone 阅读，最快建立整体印象。
想先看图像侧主线：按 topics/image-generation → topics/image-editing → entities/unified-image-generation-editing → claims/claim-unified-models-may-outcompete-specialized-image-pipelines 阅读。
想先看视频侧主线：按 topics/video-generation → topics/video-editing → entities/video-editing-understanding → claims/claim-current-models-still-struggle-to-understand-video-editing 阅读。
想先看体育 AI 主线：按 topics/sports-ai-roadmap → topics/sports-ai-video-understanding → entities/sportsmot → sources/2026-04-24-transportmer 阅读。
想看方法主干怎样演化：按 topics/diffusion-models → entities/diffusion-transformer → claims/claim-dit-is-becoming-the-default-scalable-generation-backbone 阅读。
只想直接看论文：直接从下面的 论文来源 区块按中文简介筛选，再进入对应 source note。

主题页

topics/diffusion-models — 扩散模型基础、结构扩展、效率权衡，以及在图像/视频任务中的复用关系。
topics/diffusion-efficiency-engineering — 扩散效率工程主线，整理 backbone、采样提速、部署压缩与 guidance 工程化。
topics/generative-model-evaluation — 生成模型评测方式、基准设计、盲点，以及证据质量问题。
topics/image-editing — 图像编辑主题，关注指令编辑、控制能力、保真度和推理效率。
topics/image-generation — 图像生成主题，覆盖图像合成、编辑一体化、可控性与条件机制。
topics/sports-ai-roadmap — 体育 AI 研究路线图，把感知、跟踪、交互、轨迹、战术、评估与部署组织成公开阅读路径。
topics/sports-ai-video-understanding — 体育 AI 视频理解主题，聚焦球员跟踪、人-人交互、全场轨迹与多智能体状态理解。
topics/video-editing — 视频编辑主题，关注文本驱动编辑、时序一致性、保真度与评测。
topics/video-generation — 视频生成主题，关注长时生成、运动控制、速度与一致性。
topics/video-understanding — 视频理解主题，聚焦时序推理、长上下文建模与视频评测问题。
topics/vision-language — 视觉-语言主题，聚焦多模态条件控制、对齐与语言驱动推理。

论文来源

sources/2026-04-12-align-a-video — CVPR 2025；用确定性 reward tuning 提升视频编辑质量，并尽量稳住时序一致性。
sources/2026-04-12-anyedit — CVPR 2025；通过大规模多类型编辑数据和任务路由做统一图像编辑。
sources/2026-04-12-d2it — CVPR 2025；用动态区域压缩改进图像生成中的局部细节与全局一致性平衡。
sources/2026-04-12-dreamomni — CVPR 2025；通过合成编辑数据扩展，把图像生成和编辑放进同一训练框架。
sources/2026-04-12-fade — CVPR 2025；借助视频扩散先验和频域调制做免训练视频编辑。
sources/2026-04-12-fireedit — CVPR 2025；用区域感知视觉语言 grounding 提升细粒度图像编辑。
sources/2026-04-12-insightedit — CVPR 2025；用更好的数据集和双流多模态引导提升指令跟随与背景保持。
sources/2026-04-12-lingen — CVPR 2025；把长视频生成的核心复杂度降到线性，冲击分钟级生成。
sources/2026-04-12-omnigen — CVPR 2025；用一个更简洁的统一模型覆盖生成、编辑和视觉条件控制。
sources/2026-04-12-osv — CVPR 2025；一步式 image-to-video 生成，并保留可选 refinement 作为速度-质量旋钮。
sources/2026-04-12-streamingt2v — CVPR 2025；通过短期/长期记忆模块保持长视频生成的一致性。
sources/2026-04-12-swiftedit — CVPR 2025；用一步式扩散把文本引导图像编辑加速到接近实时。
sources/2026-04-12-tora — CVPR 2025；把轨迹作为显式条件输入，强化视频运动控制与保真度。
sources/2026-04-12-unireal — CVPR 2025；把图像生成和编辑统一重写成非连续视频生成问题。
sources/2026-04-12-veu-bench — CVPR 2025；面向视频编辑理解的 benchmark，用来揭示当前模型短板。
sources/2026-04-12-videodirector — CVPR 2025；通过时空解耦引导实现更精确的视频编辑与内容保留。
sources/2026-04-14-aigv-assessor — CVPR 2025；用大模型和专家评分体系评测文本到视频生成的感知质量。
sources/2026-04-14-encapsulated-composition-t2i-t2v — CVPR 2025；用 T2I 与 T2V 模块封装组合提高视频合成质量、运动平滑度与速度。
sources/2026-04-14-pathways-image-manifold — CVPR 2025；把图像编辑重写为视频生成的连续路径搜索过程。
sources/2026-04-14-motionstone — CVPR 2025；用 DiT 的运动强度调制强化图像到视频生成中的结构控制。
sources/2026-04-14-sketchvideo — CVPR 2025；以草图为核心控制接口的视频生成与编辑工作。
sources/2026-04-14-video-bench — CVPR 2025；面向视频生成的人类对齐评测基准。
sources/2026-04-14-diffeditor — CVPR 2024；提升扩散式图像编辑精度与灵活性的代表性工作。
sources/2026-04-14-instructpix2pix — CVPR 2023；早期 instruction-based image editing 的关键锚点。
sources/2026-04-14-tune-a-video — ICCV 2023；通过单样本调优把图像扩散模型迁移到视频生成。
sources/2026-04-14-videocrafter2 — CVPR 2024；面向高质量视频扩散模型的数据与训练方案工作。
sources/2026-04-14-evalcrafter — CVPR 2024；大视频生成模型评测线的重要早期锚点。
sources/2026-04-14-fatezero — ICCV 2023；早期零样本文本视频编辑的重要方法锚点。
sources/2026-04-14-five-bench — ICCV 2025；细粒度视频编辑评测基准。
sources/2026-04-14-dreambooth — CVPR 2023；主体驱动生成与个性化扩散微调的重要锚点。
sources/2026-04-14-gligen — CVPR 2023；开放集合 grounded 文本到图像生成。
sources/2026-04-14-latent-diffusion-models — CVPR 2022；高分辨率图像生成的潜空间扩散框架。
sources/2026-04-14-imagen-editor-editbench — CVPR 2023；把图像编辑方法与 EditBench 评测基准放到同一历史节点。
sources/2026-04-14-video-p2p — ICCV 2023；以 cross-attention control 为核心的视频编辑早期锚点。
sources/2026-04-14-flasheval — CVPR 2024；面向文本到图像扩散模型的快速评测方法。
sources/2026-04-14-anydoor — CVPR 2024；零样本对象级图像定制，补强可控生成与局部编辑路线。
sources/2026-04-14-motioneditor — CVPR 2024；把视频编辑推进到运动编辑专门化阶段。
sources/2026-04-14-rave-video-editing — CVPR 2024；强调快速且一致的视频编辑工程路线。
sources/2026-04-14-verifiable-human-eval-t2i — CVPR 2023；关注文本到图像生成人工评测的可验证与可复现性。
sources/2026-04-14-paint-by-example — CVPR 2023；用参考示例而不是纯文本做图像编辑。
sources/2026-04-14-null-text-inversion — CVPR 2023；强化真实图像扩散编辑中的 inversion 机制。
sources/2026-04-14-ccedit — CVPR 2024；强调创意变化与可控性平衡的视频编辑。
sources/2026-04-14-maskint — CVPR 2024；用 masked transformer 走视频编辑的非扩散路线。
sources/2026-04-14-effective-real-image-editing — ICCV 2023；继续加速真实图像扩散反演。
sources/2026-04-14-prompt-tuning-inversion — ICCV 2023；用 prompt tuning 改善文本驱动图像编辑反演。
sources/2026-04-14-framepainter — ICCV 2025；用视频扩散先验增强交互式图像编辑。
sources/2026-04-14-dive-subject-driven-video-editing — ICCV 2025；把主体驱动路线进一步推到视频编辑。
sources/2026-04-14-qk-edit — ICCV 2025；在 MM-DiT 中重做图像与视频编辑的 attention 注入。
sources/2026-04-14-insvie-1m — ICCV 2025；通过精细数据构造强化 instruction-based 视频编辑。
sources/2026-04-14-veggie — ICCV 2025；把视频编辑与视频概念推理接到同一 grounded generation 框架。
sources/2026-04-14-hallusionbench — CVPR 2024；诊断大型视觉语言模型中的幻觉与视觉错觉。
sources/2026-04-14-camel-video-editing — CVPR 2024；用因果运动增强提升文本驱动视频编辑。
sources/2026-04-14-vidtome — CVPR 2024；用 token merging 加速零样本视频编辑。
sources/2026-04-14-motionfollower — ICCV 2025；用 score-guided diffusion 做视频运动编辑。
sources/2026-04-14-reangle-a-video — ICCV 2025；把 4D 视频生成重写为视频到视频翻译。
sources/2026-04-14-stablevideo — ICCV 2023；面向一致性感知的文本驱动扩散视频编辑。
sources/2026-04-14-pix2video — ICCV 2023；利用图像扩散能力做视频编辑。
sources/2026-04-14-video-worth-256-bases — CVPR 2024；用时空 EM inversion 支持零样本视频编辑。
sources/2026-04-14-glitchbench — CVPR 2024；用视频故障诊断测试多模态模型的视频理解能力。
sources/2026-04-14-avid-video-inpainting — CVPR 2024；基于扩散模型的任意长度视频修补。
sources/2026-04-14-dynvideo-e — CVPR 2024；利用动态 NeRF 做大运动/视角变化的人体中心视频编辑。
sources/2026-04-14-language-driven-video-inpainting — CVPR 2024；把多模态大模型接入语言驱动视频修补。
sources/2026-04-14-imagic — CVPR 2023；扩散时代真实图像文本编辑的重要早期锚点。
sources/2026-04-14-layoutdiffusion — CVPR 2023；面向布局到图像生成的可控扩散模型。
sources/2026-04-14-mvbench — CVPR 2024；综合性的多模态视频理解基准。
sources/2026-04-14-vbench — CVPR 2024；面向视频生成模型的综合评测套件。
sources/2026-04-14-shape-aware-layered-video-editing — CVPR 2023；形状感知的分层文本视频编辑。
sources/2026-04-14-vive3d — CVPR 2023；基于 3D-aware GAN 的视角无关视频编辑。
sources/2026-04-14-fairy-video-to-video — CVPR 2024；快速并行的指令引导视频到视频合成。
sources/2026-04-14-flowvid — CVPR 2024；利用光流一致性做视频到视频合成。
sources/2026-04-14-lvbench — ICCV 2025；极限长视频理解基准。
sources/2026-04-14-sok-bench — CVPR 2024；带开放世界知识对齐的情境视频推理基准。
sources/2026-04-14-anetqa — CVPR 2023；面向未裁剪视频细粒度组合推理的大规模基准。
sources/2026-04-14-neuro-symbolic-eval-t2v — CVPR 2025；用形式化验证评测文本到视频模型。
sources/2026-04-14-sti-bench — ICCV 2025；测试 MLLMs 精确时空世界理解能力的 benchmark。
sources/2026-04-14-mmmu — CVPR 2024；大规模多学科多模态理解与推理基准。
sources/2026-04-14-maplm — CVPR 2024；面向地图与交通场景理解的真实世界视觉语言基准。
sources/2026-04-14-concon-chi — CVPR 2024；面向个性化视觉语言任务的概念-上下文嵌合基准。
sources/2026-04-14-reco — CVPR 2023；区域控制的文本到图像生成。
sources/2026-04-14-multi-concept-customization — CVPR 2023；文本到图像扩散中的多概念定制。
sources/2026-04-14-specialist-diffusion — CVPR 2023；可插拔且样本高效的文本到图像扩散微调。
sources/2026-04-14-image-specific-prompt-learning — CVPR 2023；通过图像特定提示学习实现零样本生成模型适配。
sources/2026-04-14-domain-expansion-image-generators — CVPR 2023；图像生成器的领域扩展。
sources/2026-04-14-wavelet-diffusion-models — CVPR 2023；快速且可扩展的 wavelet diffusion 图像生成器。
sources/2026-04-14-commoncanvas — CVPR 2024；在 Creative Commons 图像上训练的开放扩散模型。
sources/2026-04-14-concept-weaver — CVPR 2024；面向文本到图像模型的多概念融合。
sources/2026-04-14-codi — CVPR 2024；用条件扩散蒸馏实现更高保真且更快的图像生成。
sources/2026-04-14-conform — CVPR 2024；用对比式训练提升高保真文本到图像扩散模型。
sources/2026-04-14-check-locate-rectify — CVPR 2024；文本到图像生成的训练免费布局校准系统。
sources/2026-04-14-customization-assistant — CVPR 2024；面向文本到图像生成的定制辅助系统。
sources/2026-04-14-attention-calibration-personalization — CVPR 2024；解耦式文本到图像个性化的注意力校准。
sources/2026-04-14-condition-aware-neural-network — CVPR 2024；面向可控图像生成的条件感知网络。
sources/2026-04-14-contrastive-denoising-score — CVPR 2024；用对比去噪评分改进文本引导潜扩散图像编辑。
sources/2026-04-14-cosmicman — CVPR 2024；面向人物的文本到图像基础模型。

sources/2026-04-15-all-are-worth-words — CVPR 2023；用 U-ViT 证明 ViT 可以直接成为扩散模型主干。
sources/2026-04-15-scalable-diffusion-models-with-transformers — ICCV 2023；正式提出 DiT，并把 Transformer 主干的 scaling 优势坐实为主线证据。
sources/2026-04-15-act-diffusion — CVPR 2024；用对抗一致性训练降低一步扩散的训练资源门槛。
sources/2026-04-15-analyzing-training-dynamics-diffusion-models — CVPR 2024；通过校正训练动力学提升扩散模型质量上限。
sources/2026-04-15-deepcache — CVPR 2024；通过缓存相邻去噪步特征做训练免费的扩散加速。

sources/2026-04-15-freeu — CVPR 2024；通过重加权 U-Net 主干与跳连，在不重训的前提下提升扩散质量。
sources/2026-04-15-distilling-ode-solvers-diffusion-models — CVPR 2024；把扩散 ODE 求解器蒸馏到更少步数版本。
sources/2026-04-16-on-distillation-of-guided-diffusion-models — CVPR 2023；把 classifier-free guidance 与 progressive distillation 接到一起，推动极少步扩散采样。
sources/2026-04-16-blended-diffusion — CVPR 2022；把文本驱动自然图像编辑更早地接进 diffusion 生成过程。
sources/2026-04-16-diffusion-autoencoders — CVPR 2022；为 diffusion 提供更可解释、可解码的语义表示层。
sources/2026-04-16-high-fidelity-guided-image-synthesis — CVPR 2023；把 latent diffusion 上的 guidance 质量推进到更高保真。
sources/2026-04-16-diffusionclip — CVPR 2022；把文本引导图像操控更早接到 diffusion 路线里。
sources/2026-04-16-plug-and-play-diffusion-features — CVPR 2023；把 diffusion feature 直接变成文本驱动图像翻译接口。
sources/2026-04-16-edict-exact-diffusion-inversion — CVPR 2023；把精确 diffusion inversion 变成真实图像编辑的关键接口。
sources/2026-04-16-bbdm-brownian-bridge-diffusion — CVPR 2023；把 Brownian Bridge diffusion 接成图像到图像翻译主线。
sources/2026-04-16-come-closer-diffuse-faster — CVPR 2022；用随机收缩把条件扩散的采样路径压得更短。
sources/2026-04-16-rethinking-spatial-inconsistency-cfg — CVPR 2024；把 CFG 的空间不一致问题拉到前台。
sources/2026-04-16-sana-sprint — arXiv；用连续时间一致性蒸馏把一步扩散再往前推。
sources/2026-04-16-accelerating-dit-gradient-cache — arXiv；用梯度优化缓存继续压缩 DiT 推理成本。
sources/2026-04-16-distilling-parallel-gradients-ode-solvers — arXiv；把并行梯度蒸馏接进快速 ODE solver 路线。
sources/2026-04-16-text-embedding-quantization-diffusion — arXiv；把文本嵌入直接拉进 text-guided diffusion 量化链路。
sources/2026-04-16-post-training-quantization-on-diffusion-models — CVPR 2023；把扩散模型推到 training-free 的 8-bit 量化部署，补上单步网络成本压缩路线。
sources/2026-04-16-towards-practical-plug-and-play-diffusion-models — CVPR 2023；把多专家 guidance、参数高效微调和 data-free transfer 组合成可插拔 diffusion 控制框架。
sources/2026-04-16-self-guided-diffusion-models — CVPR 2023；用自监督信号代替人工标签，为 diffusion 提供多粒度 guidance。
sources/2026-04-16-controlnet — ICCV 2023；用冻结主干 + zero-conv 侧支把空间条件控制做成 diffusion 的通用接口。
sources/2026-04-16-a-star — ICCV 2023；在测试时直接约束 cross-attention，减少多概念生成里的冲突与遗忘。
sources/2026-04-16-boxdiff — ICCV 2023；把 box / scribble 空间约束直接塞进采样期 guidance，不用额外训练。
sources/2026-04-16-dense-text-attention-modulation — ICCV 2023；用训练免费的 attention modulation 把 dense caption 与布局控制接进 diffusion。
sources/2026-04-16-prompt-to-prompt — arXiv 2022；把 cross-attention 直接变成文本编辑控制面板。
sources/2026-04-16-attend-and-excite — TOG 2023；在推理时主动修复 diffusion 的语义遗漏与主体漏生。
sources/2026-04-16-multidiffusion — arXiv 2023；把多条 diffusion 轨迹融合成统一的受控生成框架。
sources/2026-04-16-dlt-layout-transformer — ICCV 2023；把 layout generation 做成离散-连续联合 diffusion。
sources/2026-04-16-self-correcting-llm-controlled-diffusion-models — CVPR 2024；把 diffusion 生成改成 LLM 驱动的闭环自纠错系统。
sources/2026-04-16-c3net — CVPR 2024；把 ControlNet 推进到多模态复合条件接口。
sources/2026-04-16-layoutdiffusion-graphic-layout-generation — ICCV 2023；把 graphic layout generation 做成离散 diffusion 的标准接口。
sources/2026-04-16-dc-controlnet — arXiv；把多元素条件控制拆成 inter-element / intra-element 两层接口。
sources/2026-04-23-sportmamba — arXiv 2025；用 Mamba-attention 与高度自适应关联度量处理团队运动中的非线性多目标跟踪。
sources/2026-04-24-sportsmot — ICCV 2023；多运动场景下的大规模球员 MOT 数据集，是 SportsMOT 的原始基准论文。
sources/2026-04-24-sportshhi — CVPR 2024；体育视频中高层人-人交互检测数据集，把理解粒度从 tracking 推向 interaction。
sources/2026-04-24-teamtrack — CVPR Workshop 2024；全场视角多运动 MOT 数据集，补强 full-pitch tracking 与空间理解。
sources/2026-04-24-transportmer — arXiv 2024；统一预测、补全、球推断和比赛状态分类的多智能体轨迹理解框架。
体育机器视觉文献清单 — - sources/2026-04-25-finegym — CVPR 2020；层级细粒度体育动作理解数据集，是体育动作语义结构的早期锚点。
sources/2026-04-25-multisports — ICCV 2021；多人、多运动、时空动作定位数据集，补上体育 AI 的 action localization 层。
sources/2026-04-25-finediving — CVPR 2022；过程感知动作质量评估数据集，连接技术动作评分和可解释训练反馈。
sources/2026-04-25-logo-group-action-quality — CVPR 2023；长视频群体动作质量评估数据集，补上团队/群体表现评价证据。
sources/2026-04-25-tacticai — Nature Communications 2024；足球角球战术 AI 助手，把体育 AI 推到专家评估和战术建议。
sources/2026-04-25-soccernet-game-state-reconstruction — CVPR Workshop 2024；足球比赛状态重建，统一追踪、身份识别、号码识别与俯视图坐标。
sources/2026-04-25-finesports — CVPR 2024；多人层级细粒度篮球动作数据，连接动作理解与团队运动场景。
sources/2026-04-25-athletepose3d — CVPR Workshop 2025；真实竞技动作 3D 姿态与生物力学数据集，补上姿态/训练反馈证据。
sources/2026-04-25-universal-soccer-video-understanding — CVPR 2025；统一足球视频理解方向，连接事件、视频和文本语义。
sources/2026-04-25-tracknetv3 — technical report；羽毛球高速小目标轨迹追踪，补上球/器械 tracking 难点。
sources/2026-04-25-wear-outdoor-sports-dataset — arXiv 2023；WEAR 提供户外运动中的第一视角视频与可穿戴传感器数据，用来研究视频、IMU 与活动识别的多模态融合。
sources/2026-04-25-soccernet-action-spotting — SoccerNet official task；SoccerNet action spotting 是足球视频事件定位的核心公开任务入口。
sources/2026-04-25-sportscap — arXiv 2021；SportsCap 研究单目体育视频中的 3D 人体运动捕捉和细粒度动作理解。
sources/2026-04-25-automated-offside-detection — ACM MM Workshop 2021；这项工作把足球越位判定转成时空视频分析问题，强调规则、时刻同步和几何位置。
sources/2026-04-25-opencap — PLOS Computational Biology / PMC 2023；OpenCap 用智能手机视频估计人体运动学与动力学，降低实验室级运动捕捉门槛。
sources/2026-04-25-temporal-parsing-transformer-aqa — ECCV 2022；Temporal Parsing Transformer 把动作质量评估拆成时序解析问题，在打分类体育动作中强调过程结构。
sources/2026-04-25-timesformer — ICML 2021；TimeSformer 用纯 attention 结构建模视频时空关系，是视频 Transformer 路线的重要基础。
sources/2026-04-25-st-gcn — AAAI 2018 / arXiv；ST-GCN 用时空图卷积建模骨架动作，是姿态驱动动作识别的经典基线。
sources/2026-04-25-videomae — NeurIPS 2022 / arXiv；VideoMAE 用 masked autoencoding 做视频自监督预训练，强调数据效率。
sources/2026-04-25-sportsmot-dataset-page — DeeperAction dataset page；SportsMOT 官方数据页记录数据下载、许可和基准说明。
sources/2026-04-25-finediving-repository — GitHub repository；FineDiving 仓库提供数据集与代码入口。
sources/2026-04-25-athleticspose — arXiv 2025；AthleticsPose 聚焦真实田径动作中的 3D 姿态估计与泛化评估。
sources/2026-04-25-sports-ai-review-2025 — Artificial Intelligence Review 2025；这篇综述讨论体育视觉、分析和 AI 系统的发展趋势。
sources/2026-04-25-ap-nfl-hawkeye-first-down — Associated Press 2025；AP 报道 NFL 引入基于 Hawk-Eye 的首攻测量技术。
sources/2026-04-25-mmaction2 — GitHub repository；MMAction2 是 OpenMMLab 视频理解工具箱，支持动作识别、检测和骨架动作等任务。
sources/2026-04-25-reuters-premier-league-semi-automated-offside — Reuters 2025；Reuters 报道英超启用半自动越位技术。
sources/2026-04-25-genius-sports-second-spectrum — Company newsroom；Genius Sports 收购 Second Spectrum 的公告展示了光学追踪、联赛数据和媒体可视化的商业链路。
sources/2026-04-25-catapult-athlete-monitoring — Company product page；Catapult athlete monitoring 页面展示运动员负荷、训练监测和多模态数据产品。
sources/2026-04-25-kinexon-player-tracking — Company product page；KINEXON player tracking 页面展示 UWB/GPS/LPS 球员追踪系统。
sources/2026-04-25-homecourt — Product page；HomeCourt 代表手机相机驱动的消费级训练反馈应用。
sources/2026-04-25-openpose — GitHub repository；OpenPose 是早期多人 2D 关键点检测工具。
sources/2026-04-25-mmpose — GitHub repository；MMPose 提供 2D/3D 姿态估计工具链，RTMPose 强调实时部署。
sources/2026-04-25-mediapipe-pose — Google AI Edge documentation；MediaPipe Pose / BlazePose 提供移动端友好的 3D landmarks 姿态估计。
sources/2026-04-25-deeplabcut — GitHub repository；DeepLabCut 是少量标注即可训练的无标记关键点追踪工具。
sources/2026-04-25-nist-ai-risk-management-framework — NIST；NIST AI RMF 提供 AI 风险管理框架。
sources/2026-04-15-accelerating-diffusion-sampling-optimized-time-steps — CVPR 2024；用优化时间步替代均匀步长，提高少步采样表现。
sources/2026-04-15-diffusion-models-without-attention — CVPR 2024；用 state space 主干给出非 DiT 的高分辨率扩散路线。

实体页

entities/diffusion-transformer — 图像与视频生成论文中反复出现的 DiT 主干架构族。
entities/sportsmot — 团队运动多目标跟踪数据集，把体育视频中的时序理解与目标关联补成具体证据锚点。
entities/unified-image-generation-editing — 将图像生成和编辑放进同一框架的方法家族。
entities/video-editing-understanding — 用于衡量视频编辑操作理解与结果判断能力的评测方向。

判断页

claims/claim-current-models-still-struggle-to-understand-video-editing — 当前视频语言模型在“理解视频编辑”这件事上仍然偏弱。
claims/claim-dit-is-becoming-the-default-scalable-generation-backbone — DiT 正在成为可扩展生成模型的通用主干。
claims/claim-unified-models-may-outcompete-specialized-image-pipelines — 统一的生成-编辑模型长期可能优于专用流水线。

问题页

questions/question-data-vs-architecture-in-image-editing — 图像编辑进步究竟主要来自数据扩展还是架构升级。
questions/question-will-unified-image-models-sustain-their-advantage — 统一图像生成编辑模型能否持续压过专用流水线。
questions/question-do-benchmarks-track-real-video-editing-understanding — 现有评测是否真的刻画了视频编辑理解能力。

模板

templates/source-note-template — 结构化 source note 模板。
templates/topic-template — topic 综合页模板。
templates/entity-template — 模型、数据集、实验室等实体页模板。
templates/claim-template — 待验证或存在争议的 claim 页模板。
templates/question-template — 开放研究问题页模板。
templates/raw-meta-template — raw ingest 元数据模板。
templates/raw-links-template — primary / secondary 链接模板。

工具

scripts/lint_wiki.py — 用于检查 frontmatter、标签、索引覆盖、链接和 raw 链接一致性的首轮 lint 脚本。
docs/linting — 本地 lint 工作流说明，包含默认命令、--strict / --quiet / --json 模式、severity 解释与建议动作摘要的用法。

Index

索引

总览入口

中文阅读路线

主题页

论文来源

实体页

判断页

问题页

模板

工具

Metadata