Text Embedding Knows How to Quantize：用文本条件动态分配扩散激活位宽

一句话结论

QLIP 并不量化 text embedding；它用 CLIP text embedding 预测 prompt 对应图像的质量/量化敏感度，再为 denoising U-Net 的每层、每 timestep 动态分配 activation bits。RTX 3090 上相对同质量 W4A16，runtime 5.58→4.85s（约 1.15×），而 W4A8 更快但 FID 明显更差，说明价值是质量—位宽折中，不是大幅端到端加速。

论文定位

这是 condition-aware mixed-precision PTQ 插件。Q-Diffusion/PTQD/PCR 提供基础量化模型和 calibration；QLIP 学习 prompt × layer × timestep 的 bit policy。文本 embedding 是控制信号，CLIP text encoder 本身不是主要量化对象。

问题定义

静态 diffusion PTQ 对不同 prompts 使用相同位宽，但细节丰富 prompt 生成的图像通常更依赖高精度。论文问：能否从 prompt 预估 quantization sensitivity，在容易的输入上省 bits，在复杂输入上保精度？

方法概述

T2Q：三层线性网络读取 CLIP text embedding，以 full-precision 生成图的 GIQA pseudo-label 学习质量分数；训练后冻结。
Q2B：将预测质量映射为 low/medium/high bit 概率，并叠加 layer-、timestep-specific parameters。
仅在小 calibration set 上训练 Q2B；diffusion、T2Q 与基础 quantizer 冻结。
损失同时最小化 full-precision/quantized noise prediction 误差和平均 bit penalty。
主实验为 W4 权重，动态 activation options 如 {6,8,10} 或 {8,16,32}。

核心实验与结果

协议

Stable Diffusion v1.4、BK-SDM-Tiny-2M，512²；COCO2017 validation、Conceptual Captions。
指标：FID/sFID/CLIP、FAB、BitOPs。
RTX 3090 + CUTLASS 测 runtime，包含 T2Q/Q2B；补充测试 SDXL 768² 与 FLUX 1024²。

Proxy complexity / quality

BK-SDM / COCO：Q-Diffusion W4A16 为 FAB 16、1.03T BitOPs、FID 30.02；+QLIP 为 12.14、0.88T、30.01。
BK-SDM / Conceptual Captions：FAB 16→10.58，BitOPs 1.03→0.82T，FID 24.68→24.72。
SD v1.4 / COCO：Q-Diffusion W4A8 FID 23.40、FAB 8；+QLIP {6,8,10} 为 21.61/7.86。CLIP 0.3126→0.3120，未改善。
PTQD / Conceptual Captions：FID 25.40→20.42，FAB 8→7.77；full-precision FID 15.67 仍明显更好。

RTX 3090 真实 runtime

FP32 BK-SDM：6.50s，FID 20.00；
W4A8：4.53s，FID 28.32；
W4A16：5.58s，FID 24.68；
QLIP W4A{8,16,32}：4.85s，FID 24.72。

QLIP 相对 W4A16 为约 1.15×，相对 FP32 为约 1.34×；但比 W4A8 慢约 7%，换来 FID 改善 3.6。

SDXL / FLUX 补充

SDXL COCO：FAB 16→12.68，FID 28.46→28.16；Conceptual Captions FAB 16→11.34。
FLUX+PCR（500 COCO prompts）：FAB 9.60→7.92，ImageReward 0.9986→1.0214，PickScore 22.97→23.01。
这两组未给真实 latency，只能支持可插拔性与 proxy 改善。

关键消融

GIQA T2Q 的 SROCC/PLCC 0.8047/0.8108，优于 CLIP-IQA 与 Realism score。
只用 prompt quality/high-time policy 虽可把 FAB 降至 6.73–7.57，但 FID 恶化到 29.37/26.91；完整 Q2B 才达 FAB 7.86/FID 21.61。
image-quality criterion 优于 prompt length 与 image complexity。
加入 6-bit option 将 FAB 10.58→9.24，但 FID 24.72→25.22，显示清晰质量代价。

局限或疑问

T2Q 需 full-precision 生成图和 GIQA pseudo-label，存在离线成本与预测偏差。
“prompt richer→更需高 bit”是经验相关，跨语言、风格、长文本和分布外输入未验证。
主实验是 U-Net；SDXL/FLUX 仅补充 proxy 结果。
FAB/BitOPs 不等于 latency；真实硬件仅 RTX 3090/CUTLASS，实际收益约 1.15×。
不覆盖文本编码器、VAE、scheduler 与端到端数据移动。
作者另承认恶意伪造风险，并计划扩展图像/分割等条件。

对当前 Wiki 判断的影响

对 Diffusion 效率工程：直接支持 prompt-adaptive mixed precision 是 diffusion PTQ 的细分路线。
对扩散模型：限定支持 deployment 从静态压缩走向输入条件自适应。
对 DiT：FLUX 结果只是小规模补充，不足以称 DiT quantization 已解决。
Wiki 应避免“量化文本嵌入”的误读：被动态量化的是 denoiser activation，embedding 用来决定策略。

证据评级

B+：多 base quantizer/backbone、RTX 3090 runtime 与消融完整；边界是主要依赖 proxy cost、实际加速中等、需 pseudo-label 校准且端到端组件未覆盖。

Text Embedding Knows How to Quantize用文本条件动态分配扩散激活位宽

一句话结论

论文定位

问题定义

方法概述

核心实验与结果

协议

Proxy complexity / quality

RTX 3090 真实 runtime

SDXL / FLUX 补充

关键消融

局限或疑问

对当前 Wiki 判断的影响

证据评级

原始链接

相关页面

Referenced by2

一句话结论

论文定位

问题定义

方法概述

核心实验与结果

协议

Proxy complexity / quality

RTX 3090 真实 runtime

SDXL / FLUX 补充

关键消融

局限或疑问

对当前 Wiki 判断的影响

证据评级

原始链接

相关页面

Related pages

Related topics3

Referenced by2