EdgeDiff：面向多模态少步扩散模型的混合精度与重排序分组量化加速器

📅 2026/7/5 8:05:03 👁️ 阅读次数 📝 编程学习

EdgeDiff: Energy-Efficient Multi-Modal Few-Step Diffusion Model Accelerator Using Mixed-Precision and Reordered Group Quantization 阅读总结

中文标题：EdgeDiff：面向多模态少步扩散模型的混合精度与重排序分组量化加速器

作者：Sangjin Kim, Jungjun Oh, Jeonggyu So, Yuseon Choi, Sangyeob Kim, Dongseok Im, Gwangtae Park, Hoi-Jun Yoo
发表：IEEE JSSC
工艺：28nm CMOS
芯片面积：20.25 mm²

摘要

EdgeDiff是首款支持端到端、少步（few-step）、多模态（multi-modal）扩散模型（DM）推理的专用处理器。针对少步扩散模型（FSDM）中时间步间冗余消失、编解码器计算占比剧增及量化敏感度显著提升三大特征变化，提出条件感知重排序分组混合精度（CRMP）方案，并配套设计了压缩-累加（CAA）处理单元、位混洗树（BST）、分层累加单元（TAU）与网格化量化单元（GQU）等微架构。芯片在28nm CMOS实现，峰值能效34.4 TOPS/W，单步文生图能耗418.4 mJ/图，较此前最优工作降低3.3倍。

核心专有名词解析

术语	缩写	定义（面向跨专业读者）
扩散模型	DM	通过渐进去噪过程从随机噪声生成图像的生成式AI模型。
少步扩散模型	FSDM	通过知识蒸馏将去噪步数从数十至数千步压缩至1~4步的扩散模型变体。
多模态条件	Multi-modal	同时接受文本、图像等多种输入模态作为生成条件的机制。
通道显著性	Channel Saliency	激活张量中某些通道的幅值系统性大于其他通道的特性，这些通道对输出起主导作用。
组量化	Group Quantization	将通道分组，每组共享一个浮点缩放因子（SF），以提升低比特量化精度。
混合精度	Mixed Precision	对不同通道组采用不同位宽（INT4/INT8）执行计算，平衡精度与能效。
条件感知重排序分组混合精度	CRMP	EdgeDiff提出的量化策略：根据输入条件动态监测通道显著性，重排通道顺序后实施分组量化与混合精度分配。
压缩-累加处理单元	CAA PE	改变传统乘加顺序：先做通道间压缩累加，再做位间移位累加，将符号重配开销从乘法器转移到共享加法器。
位混洗树	BST	由单元混洗逻辑（USL）构成的蝴蝶网络，将输入比特流极化（1集中左侧、0集中右侧），降低压缩器翻转率。
分层累加单元	TAU	两级累加结构：默认使用24-bit整数累加器（I-AC），仅当溢出或离群值出现时启用浮点累加器（F-AC），减少FP累加能耗。
网格化量化单元	GQU	替代FP除法的量化电路：生成缩放因子网格（SFG），通过比较器查找量化电平，支持4/8/12/16-bit迭代量化。
单元混洗逻辑	USL	BST的基本单元，接收两比特输入，输出对齐的（密集，稀疏）对，保持1的个数不变，由1个AND门和1个OR门实现。

一、研究背景与动机

1.1 扩散模型的三项关键演进

演进一：少步去噪（FSDM）

传统DM需数千步迭代生成单张图像。
FSDM通过对抗性蒸馏（Adversarial Diffusion Distillation）将步数压缩至1_{4步，计算量降低9.7}22.0倍，EMA降低12.0~42.3倍。
硬件影响：相邻时间步的激活值不再相似（相关性消失），此前利用时间步间冗余跳过计算的优化技术[13][14]完全失效。

演进二：多模态条件输入

传统DM仅支持无条件生成或类别条件生成。
现代DM支持文本+图像等多模态条件输入（如SDXL）。
硬件影响：新增编码器（文本编码器、图像编码器）的计算负载大幅上升，编解码器在总计算中的占比显著增加。

演进三：量化敏感度剧增

传统多步DM对INT8量化鲁棒，可采用逐通道/逐张量静态量化。
FSDM对激活和权重量化的敏感度急剧上升，需采用组量化（group quantization）与混合精度方可维持图像质量。

1.2 此前硬件方案的局限性

此前方案	依赖技术	在FSDM下的失效原因
Qin et al. [13]	时间步间背景像素重用	FSDM仅1~4步，相邻步激活不相关
Guo et al. [14]	相邻步激活差分计算	同上
Yoo et al. [15]	自定义FP单元	FP运算固有能效低，不适用于低比特整数推理

1.3 三项硬件挑战

挑战一：通道显著性的动态变化

LLM等模型中，离群通道在不同输入批次下重叠率达71%~93%，可静态处理。
FSDM中，输入条件或初始噪声变化时，离群通道重叠率低于5%，需运行时动态感知。

挑战二：混合精度PE的符号重配开销

比特切片（bit-slice）计算中，高位切片为有符号数、低位切片为无符号数，产生SS/SU/US/UU四种符号模式。
传统方案[22][24]需为每种模式复制逻辑，或采用位宽放大MAC，面积与功耗开销显著。

挑战三：组量化带来的FP运算开销

组量化依赖浮点缩放因子，涉及FP缩放、累加与除法，功耗极高。
需设计专用低开销FP单元支持组量化运算。

二、核心架构与技术方案

2.1 整体架构

EdgeDiff由四大模块构成：

动态分组与重排序单元（DGRU）：包含通道分组单元（CGU）与重排序量化单元（RQU），运行时分析激活显著性，执行通道重排与组量化。
8个混合组精度核心（MGPC）：每个核心含16×16×32张量PE阵列、本地存储器及专用精度控制通路。
1.28 MB全局存储器：双Bank 640KB，含1D SIMD核心处理非线性运算。
顶层控制器：协调各模块通信与调度。

2.2 条件感知重排序分组混合精度（CRMP）

CRMP包含三个步骤：

步骤一：显著性监测（Saliency Monitoring）

MGPC计算输出激活（OA）后送入全局存储器。
1D SIMD引擎以流式方式计算各通道的通道均值，作为显著性指标。

步骤二：分组（Grouping）

按显著性值对通道排序，将320个通道划分为多个32通道组，组内显著性分布均匀。
CGU采用递归分割（recursive partitioning）实现排序，并支持组内排序旁路（bypass）——因组量化仅依赖组内最大值，组内顺序不影响结果，旁路可降低29.8%分组延迟。

步骤三：重排序（Reordering）

IA和W从全局存储器加载至MGPC时，依据分组结果进行物理地址重排。
IA：监测→分组→重排序三步全流程。
W：仅依据对应IA的分组结果执行重排序。
重排后，组内数据范围收窄：FFN层SQNR从18.17 dB提升至19.38 dB。

混合精度策略：

每组静态配置INT4或INT8，高精度组比例根据网络模块和步数预先确定。
单步推理对量化更敏感，高精度组比例高于四步推理。

2.3 压缩-累加处理单元（CAA PE）

传统架构问题：

并行乘法器→加法树：位间累加在先（乘法器内），通道间累加在后（加法树）。
支持四种符号模式需重配每个乘法器，开销巨大。

CAA创新点：

交换累加顺序：通道间累加在先（压缩器）→位间累加在后（移位加法器）。
符号模式重配从乘法器级转移到共享加法器级，显著降低开销。
第一级：16个位压缩器（BC），各对应4×4-bit乘法的一个位积。每BC接收32对1-bit输入，执行AND后压缩为6-bit结果。
第二级：位间加法器（IBA），包含两个4路移位-加结构（分别对应IA和W），采用加法器-减法器处理MSB有符号路径。

性能收益：相比传统Mult.+AT设计，MAC功耗降低36.6%，面积几乎不变（1.058×）。

2.4 位混洗树（BST）

问题：CAA架构中，32:6压缩器功耗占MAC总功耗的主导地位。

BST结构：

由单元混洗逻辑（USL）构成2.5级蝴蝶网络。
USL：2-bit输入→（密集，稀疏）输出，保持1的个数不变，由1个AND门+1个OR门实现。
第一级：分离密集（D）与稀疏（S）组；第二级：进一步分为DD/DS/SD/SS；第三级：仅混洗DS与SD分支。

效果：

比特流极化：1集中左侧、0集中右侧。
压缩器翻转率从0.867降至0.503（1.72×降低）。
静态功耗微增，但因USL仅2门/级，优于压缩器中5门/FA，整体MAC功耗降低36.6%。

2.5 分层累加单元（TAU）

问题：组量化需要FP缩放因子，FP累加功耗高昂。

TAU结构：

第一级（默认）：24-bit整数累加器（I-AC），低功耗。
第二级（条件激活）：浮点累加器（F-AC），仅当I-AC溢出或检测到离群值时启用。
溢出检测单元（ORDU）：使用前导1检测器估算所需动态范围，结合缩放因子指数判断是否超出24-bit范围。

能耗收益：

I-AC替代纯FP累加降低76.2%累加能耗。
TAU使核心能效提升：4-bit模式提升80.3%，8-bit模式提升9.8%，面积开销仅3.4%。

2.6 网格化量化单元（GQU）

问题：组量化涉及FP除法（激活 ÷ 缩放因子），功耗高昂。

GQU原理：

生成缩放因子网格（SFG）：由网格生成电路（GGC）构建SFG，将SF尾数乘以固定量化电平集合（如-7.5至7.5）。
电平检测电路（LDC）：32个LDC并行工作，将各OA与SFG条目比较，确定量化电平。
迭代支持多精度：MSB切片使用OA算术移位后的值作为比较输入；LSB切片使用（原始OA - 已量化值 × SF尾数）作为输入，同一电路支持4/8/12/16-bit量化。

性能收益：

共享GGC设计使峰值功耗降低95.4%、面积降低66.7%（vs. 朴素FP实现）。
能量节省5.4×~21.7×（依目标位宽而定）。

三、芯片实现与实测结果

3.1 芯片规格

参数	数值
工艺	28nm CMOS
面积	20.25 mm²
电压	0.68 – 1.0 V
频率	50 – 250 MHz
SRAM	MGPC 600KB + 全局存储器 1.28MB
精度支持	IA/W: INT4/8/12/16；SF: FP8/FP16 (IA), INT4 (W)
峰值能效	34.4 TOPS/W @ 50MHz, 0.68V (INT4)
峰值性能	8.6 TOPS @ 250MHz, 1.0V

3.2 端到端生成能耗与延迟

任务	步数	能耗 (mJ/图)	备注
T2I	1步	418.4	3.3×优于此前最优[13][14]
T2I	4步	786.3	—
I2I	1步	506.5	—
I2I	4步	846.0	—

3.3 各技术模块贡献

CRMP对延迟的加速比：

编码器：1.6×~2.0×
UNet：1.5×~1.8×（四步）/ 1.4×~1.6×（一步）
解码器：1.4×~1.6×

各模块功耗降低：

CAA + BST + TAU：MGPC功耗显著下降
GQU：量化单元功耗降低
综合系统功耗较基线降低41.6%

总体加速比（vs. 50步4-bit基线）：

T2I：15.7×（含FSDM的9.4× + CRMP的1.67×）
I2I：13.1×（含FSDM的7.9× + CRMP的1.66×）

3.4 图像质量评估

T2I（MS-COCO, 30k prompts）：

配置	FID ↓	CLIP ↑
FP32基线	19.76	0.321
EdgeDiff（混合精度）	20.09	0.310

I2I（PSNR）：各prompt下均保持>30 dB PSNR，与FP基线输出高度一致。

精度-速度权衡：静态INT4量化FID严重退化；CRMP混合精度在接近INT8质量的同时保留显著性能增益。

3.5 与SOTA对比

对比维度	EdgeDiff	[13] VLSI’24	[14] ISSCC’24	[15] ESSERC’24
支持的DM阶段	编码器+UNet+解码器	仅UNet	仅UNet	全流水线
支持FSDM	✓	×	×	×
支持多模态	✓	×	×	×
峰值能效 (TOPS/W)	34.4	52.0 (FP8)	74.3 (BF16)	4.96
T2I单图能耗 (mJ)	418.4	~1400*	~1400*	—

*注：对比值基于报告峰值能效推算，[13][14]仅支持多步DM，无法直接运行FSDM。

四、技术总结

EdgeDiff通过以下技术路径实现FSDM端侧高效推理：

算法层面：CRMP通过运行时通道显著性监测与重排，解决FSDM中通道重要性随输入条件剧烈波动的难题，使组量化和混合精度可有效部署。
计算架构层面：CAA PE通过颠倒累加顺序（通道间先于位间），将符号重配开销从乘法器级迁移至共享加法器级；BST通过比特流极化降低压缩器翻转率；两者协同实现低开销混合精度整数MAC。
量化支持层面：TAU以整数累加器为主路径、FP累加器为备用路径，降低组量化中FP累加能耗；GQU以网格比较替代FP除法，支持可扩展的多精度量化。
系统层面：通过统一加速编码器、UNet与解码器，EdgeDiff支持端到端FSDM推理，在多模态条件下保持图像质量（FID 20.09，PSNR >30 dB）的同时，实现418.4 mJ/图的单步生成能耗，较此前最优设计降低3.3倍。该芯片证明：通过算法-架构协同设计，可在28nm成熟工艺下实现实时、高能效的端侧生成式AI推理。

编程学习技术分享实战经验

资讯详情

EdgeDiff：面向多模态少步扩散模型的混合精度与重排序分组量化加速器

EdgeDiff: Energy-Efficient Multi-Modal Few-Step Diffusion Model Accelerator Using Mixed-Precision and Reordered Group Quantization 阅读总结

摘要

核心专有名词解析

一、研究背景与动机

1.1 扩散模型的三项关键演进

1.2 此前硬件方案的局限性

1.3 三项硬件挑战

二、核心架构与技术方案

2.1 整体架构

2.2 条件感知重排序分组混合精度（CRMP）

2.3 压缩-累加处理单元（CAA PE）

2.4 位混洗树（BST）

2.5 分层累加单元（TAU）

2.6 网格化量化单元（GQU）

三、芯片实现与实测结果

3.1 芯片规格

3.2 端到端生成能耗与延迟

3.3 各技术模块贡献

3.4 图像质量评估

3.5 与SOTA对比

四、技术总结

最新新闻

日新闻

周新闻

月新闻

资讯详情

EdgeDiff：面向多模态少步扩散模型的混合精度与重排序分组量化加速器

EdgeDiff: Energy-Efficient Multi-Modal Few-Step Diffusion Model Accelerator Using Mixed-Precision and Reordered Group Quantization 阅读总结

摘要

核心专有名词解析

一、研究背景与动机

1.1 扩散模型的三项关键演进

1.2 此前硬件方案的局限性

1.3 三项硬件挑战

二、核心架构与技术方案

2.1 整体架构

2.2 条件感知重排序分组混合精度（CRMP）

2.3 压缩-累加处理单元（CAA PE）

2.4 位混洗树（BST）

2.5 分层累加单元（TAU）

2.6 网格化量化单元（GQU）

三、芯片实现与实测结果

3.1 芯片规格

3.2 端到端生成能耗与延迟

3.3 各技术模块贡献

3.4 图像质量评估

3.5 与SOTA对比

四、技术总结

相关新闻

最新新闻

日新闻

周新闻

月新闻