EdgeDiff:面向多模态少步扩散模型的混合精度与重排序分组量化加速器
EdgeDiff: Energy-Efficient Multi-Modal Few-Step Diffusion Model Accelerator Using Mixed-Precision and Reordered Group Quantization 阅读总结
中文标题:EdgeDiff:面向多模态少步扩散模型的混合精度与重排序分组量化加速器
作者:Sangjin Kim, Jungjun Oh, Jeonggyu So, Yuseon Choi, Sangyeob Kim, Dongseok Im, Gwangtae Park, Hoi-Jun Yoo
发表:IEEE JSSC
工艺:28nm CMOS
芯片面积:20.25 mm²
摘要
EdgeDiff是首款支持端到端、少步(few-step)、多模态(multi-modal)扩散模型(DM)推理的专用处理器。针对少步扩散模型(FSDM)中时间步间冗余消失、编解码器计算占比剧增及量化敏感度显著提升三大特征变化,提出条件感知重排序分组混合精度(CRMP)方案,并配套设计了压缩-累加(CAA)处理单元、位混洗树(BST)、分层累加单元(TAU)与网格化量化单元(GQU)等微架构。芯片在28nm CMOS实现,峰值能效34.4 TOPS/W,单步文生图能耗418.4 mJ/图,较此前最优工作降低3.3倍。
核心专有名词解析
| 术语 | 缩写 | 定义(面向跨专业读者) |
|---|---|---|
| 扩散模型 | DM | 通过渐进去噪过程从随机噪声生成图像的生成式AI模型。 |
| 少步扩散模型 | FSDM | 通过知识蒸馏将去噪步数从数十至数千步压缩至1~4步的扩散模型变体。 |
| 多模态条件 | Multi-modal | 同时接受文本、图像等多种输入模态作为生成条件的机制。 |
| 通道显著性 | Channel Saliency | 激活张量中某些通道的幅值系统性大于其他通道的特性,这些通道对输出起主导作用。 |
| 组量化 | Group Quantization | 将通道分组,每组共享一个浮点缩放因子(SF),以提升低比特量化精度。 |
| 混合精度 | Mixed Precision | 对不同通道组采用不同位宽(INT4/INT8)执行计算,平衡精度与能效。 |
| 条件感知重排序分组混合精度 | CRMP | EdgeDiff提出的量化策略:根据输入条件动态监测通道显著性,重排通道顺序后实施分组量化与混合精度分配。 |
| 压缩-累加处理单元 | CAA PE | 改变传统乘加顺序:先做通道间压缩累加,再做位间移位累加,将符号重配开销从乘法器转移到共享加法器。 |
| 位混洗树 | BST | 由单元混洗逻辑(USL)构成的蝴蝶网络,将输入比特流极化(1集中左侧、0集中右侧),降低压缩器翻转率。 |
| 分层累加单元 | TAU | 两级累加结构:默认使用24-bit整数累加器(I-AC),仅当溢出或离群值出现时启用浮点累加器(F-AC),减少FP累加能耗。 |
| 网格化量化单元 | GQU | 替代FP除法的量化电路:生成缩放因子网格(SFG),通过比较器查找量化电平,支持4/8/12/16-bit迭代量化。 |
| 单元混洗逻辑 | USL | BST的基本单元,接收两比特输入,输出对齐的(密集,稀疏)对,保持1的个数不变,由1个AND门和1个OR门实现。 |
一、研究背景与动机
1.1 扩散模型的三项关键演进
演进一:少步去噪(FSDM)
- 传统DM需数千步迭代生成单张图像。
- FSDM通过对抗性蒸馏(Adversarial Diffusion Distillation)将步数压缩至14步,计算量降低9.722.0倍,EMA降低12.0~42.3倍。
- 硬件影响:相邻时间步的激活值不再相似(相关性消失),此前利用时间步间冗余跳过计算的优化技术[13][14]完全失效。
演进二:多模态条件输入
- 传统DM仅支持无条件生成或类别条件生成。
- 现代DM支持文本+图像等多模态条件输入(如SDXL)。
- 硬件影响:新增编码器(文本编码器、图像编码器)的计算负载大幅上升,编解码器在总计算中的占比显著增加。
演进三:量化敏感度剧增
- 传统多步DM对INT8量化鲁棒,可采用逐通道/逐张量静态量化。
- FSDM对激活和权重量化的敏感度急剧上升,需采用组量化(group quantization)与混合精度方可维持图像质量。
1.2 此前硬件方案的局限性
| 此前方案 | 依赖技术 | 在FSDM下的失效原因 |
|---|---|---|
| Qin et al. [13] | 时间步间背景像素重用 | FSDM仅1~4步,相邻步激活不相关 |
| Guo et al. [14] | 相邻步激活差分计算 | 同上 |
| Yoo et al. [15] | 自定义FP单元 | FP运算固有能效低,不适用于低比特整数推理 |
1.3 三项硬件挑战
挑战一:通道显著性的动态变化
- LLM等模型中,离群通道在不同输入批次下重叠率达71%~93%,可静态处理。
- FSDM中,输入条件或初始噪声变化时,离群通道重叠率低于5%,需运行时动态感知。
挑战二:混合精度PE的符号重配开销
- 比特切片(bit-slice)计算中,高位切片为有符号数、低位切片为无符号数,产生SS/SU/US/UU四种符号模式。
- 传统方案[22][24]需为每种模式复制逻辑,或采用位宽放大MAC,面积与功耗开销显著。
挑战三:组量化带来的FP运算开销
- 组量化依赖浮点缩放因子,涉及FP缩放、累加与除法,功耗极高。
- 需设计专用低开销FP单元支持组量化运算。
二、核心架构与技术方案
2.1 整体架构
EdgeDiff由四大模块构成:
- 动态分组与重排序单元(DGRU):包含通道分组单元(CGU)与重排序量化单元(RQU),运行时分析激活显著性,执行通道重排与组量化。
- 8个混合组精度核心(MGPC):每个核心含16×16×32张量PE阵列、本地存储器及专用精度控制通路。
- 1.28 MB全局存储器:双Bank 640KB,含1D SIMD核心处理非线性运算。
- 顶层控制器:协调各模块通信与调度。
2.2 条件感知重排序分组混合精度(CRMP)
CRMP包含三个步骤:
步骤一:显著性监测(Saliency Monitoring)
- MGPC计算输出激活(OA)后送入全局存储器。
- 1D SIMD引擎以流式方式计算各通道的通道均值,作为显著性指标。
步骤二:分组(Grouping)
- 按显著性值对通道排序,将320个通道划分为多个32通道组,组内显著性分布均匀。
- CGU采用递归分割(recursive partitioning)实现排序,并支持组内排序旁路(bypass)——因组量化仅依赖组内最大值,组内顺序不影响结果,旁路可降低29.8%分组延迟。
步骤三:重排序(Reordering)
- IA和W从全局存储器加载至MGPC时,依据分组结果进行物理地址重排。
- IA:监测→分组→重排序三步全流程。
- W:仅依据对应IA的分组结果执行重排序。
- 重排后,组内数据范围收窄:FFN层SQNR从18.17 dB提升至19.38 dB。
混合精度策略:
- 每组静态配置INT4或INT8,高精度组比例根据网络模块和步数预先确定。
- 单步推理对量化更敏感,高精度组比例高于四步推理。
2.3 压缩-累加处理单元(CAA PE)
传统架构问题:
- 并行乘法器→加法树:位间累加在先(乘法器内),通道间累加在后(加法树)。
- 支持四种符号模式需重配每个乘法器,开销巨大。
CAA创新点:
- 交换累加顺序:通道间累加在先(压缩器)→位间累加在后(移位加法器)。
- 符号模式重配从乘法器级转移到共享加法器级,显著降低开销。
- 第一级:16个位压缩器(BC),各对应4×4-bit乘法的一个位积。每BC接收32对1-bit输入,执行AND后压缩为6-bit结果。
- 第二级:位间加法器(IBA),包含两个4路移位-加结构(分别对应IA和W),采用加法器-减法器处理MSB有符号路径。
性能收益:相比传统Mult.+AT设计,MAC功耗降低36.6%,面积几乎不变(1.058×)。
2.4 位混洗树(BST)
问题:CAA架构中,32:6压缩器功耗占MAC总功耗的主导地位。
BST结构:
- 由单元混洗逻辑(USL)构成2.5级蝴蝶网络。
- USL:2-bit输入→(密集,稀疏)输出,保持1的个数不变,由1个AND门+1个OR门实现。
- 第一级:分离密集(D)与稀疏(S)组;第二级:进一步分为DD/DS/SD/SS;第三级:仅混洗DS与SD分支。
效果:
- 比特流极化:1集中左侧、0集中右侧。
- 压缩器翻转率从0.867降至0.503(1.72×降低)。
- 静态功耗微增,但因USL仅2门/级,优于压缩器中5门/FA,整体MAC功耗降低36.6%。
2.5 分层累加单元(TAU)
问题:组量化需要FP缩放因子,FP累加功耗高昂。
TAU结构:
- 第一级(默认):24-bit整数累加器(I-AC),低功耗。
- 第二级(条件激活):浮点累加器(F-AC),仅当I-AC溢出或检测到离群值时启用。
- 溢出检测单元(ORDU):使用前导1检测器估算所需动态范围,结合缩放因子指数判断是否超出24-bit范围。
能耗收益:
- I-AC替代纯FP累加降低76.2%累加能耗。
- TAU使核心能效提升:4-bit模式提升80.3%,8-bit模式提升9.8%,面积开销仅3.4%。
2.6 网格化量化单元(GQU)
问题:组量化涉及FP除法(激活 ÷ 缩放因子),功耗高昂。
GQU原理:
- 生成缩放因子网格(SFG):由网格生成电路(GGC)构建SFG,将SF尾数乘以固定量化电平集合(如-7.5至7.5)。
- 电平检测电路(LDC):32个LDC并行工作,将各OA与SFG条目比较,确定量化电平。
- 迭代支持多精度:MSB切片使用OA算术移位后的值作为比较输入;LSB切片使用(原始OA - 已量化值 × SF尾数)作为输入,同一电路支持4/8/12/16-bit量化。
性能收益:
- 共享GGC设计使峰值功耗降低95.4%、面积降低66.7%(vs. 朴素FP实现)。
- 能量节省5.4×~21.7×(依目标位宽而定)。
三、芯片实现与实测结果
3.1 芯片规格
| 参数 | 数值 |
|---|---|
| 工艺 | 28nm CMOS |
| 面积 | 20.25 mm² |
| 电压 | 0.68 – 1.0 V |
| 频率 | 50 – 250 MHz |
| SRAM | MGPC 600KB + 全局存储器 1.28MB |
| 精度支持 | IA/W: INT4/8/12/16;SF: FP8/FP16 (IA), INT4 (W) |
| 峰值能效 | 34.4 TOPS/W @ 50MHz, 0.68V (INT4) |
| 峰值性能 | 8.6 TOPS @ 250MHz, 1.0V |
3.2 端到端生成能耗与延迟
| 任务 | 步数 | 能耗 (mJ/图) | 备注 |
|---|---|---|---|
| T2I | 1步 | 418.4 | 3.3×优于此前最优[13][14] |
| T2I | 4步 | 786.3 | — |
| I2I | 1步 | 506.5 | — |
| I2I | 4步 | 846.0 | — |
3.3 各技术模块贡献
CRMP对延迟的加速比:
- 编码器:1.6×~2.0×
- UNet:1.5×~1.8×(四步)/ 1.4×~1.6×(一步)
- 解码器:1.4×~1.6×
各模块功耗降低:
- CAA + BST + TAU:MGPC功耗显著下降
- GQU:量化单元功耗降低
- 综合系统功耗较基线降低41.6%
总体加速比(vs. 50步4-bit基线):
- T2I:15.7×(含FSDM的9.4× + CRMP的1.67×)
- I2I:13.1×(含FSDM的7.9× + CRMP的1.66×)
3.4 图像质量评估
T2I(MS-COCO, 30k prompts):
| 配置 | FID ↓ | CLIP ↑ |
|---|---|---|
| FP32基线 | 19.76 | 0.321 |
| EdgeDiff(混合精度) | 20.09 | 0.310 |
I2I(PSNR):各prompt下均保持>30 dB PSNR,与FP基线输出高度一致。
精度-速度权衡:静态INT4量化FID严重退化;CRMP混合精度在接近INT8质量的同时保留显著性能增益。
3.5 与SOTA对比
| 对比维度 | EdgeDiff | [13] VLSI’24 | [14] ISSCC’24 | [15] ESSERC’24 |
|---|---|---|---|---|
| 支持的DM阶段 | 编码器+UNet+解码器 | 仅UNet | 仅UNet | 全流水线 |
| 支持FSDM | ✓ | × | × | × |
| 支持多模态 | ✓ | × | × | × |
| 峰值能效 (TOPS/W) | 34.4 | 52.0 (FP8) | 74.3 (BF16) | 4.96 |
| T2I单图能耗 (mJ) | 418.4 | ~1400* | ~1400* | — |
*注:对比值基于报告峰值能效推算,[13][14]仅支持多步DM,无法直接运行FSDM。
四、技术总结
EdgeDiff通过以下技术路径实现FSDM端侧高效推理:
算法层面:CRMP通过运行时通道显著性监测与重排,解决FSDM中通道重要性随输入条件剧烈波动的难题,使组量化和混合精度可有效部署。
计算架构层面:CAA PE通过颠倒累加顺序(通道间先于位间),将符号重配开销从乘法器级迁移至共享加法器级;BST通过比特流极化降低压缩器翻转率;两者协同实现低开销混合精度整数MAC。
量化支持层面:TAU以整数累加器为主路径、FP累加器为备用路径,降低组量化中FP累加能耗;GQU以网格比较替代FP除法,支持可扩展的多精度量化。
系统层面:通过统一加速编码器、UNet与解码器,EdgeDiff支持端到端FSDM推理,在多模态条件下保持图像质量(FID 20.09,PSNR >30 dB)的同时,实现418.4 mJ/图的单步生成能耗,较此前最优设计降低3.3倍。该芯片证明:通过算法-架构协同设计,可在28nm成熟工艺下实现实时、高能效的端侧生成式AI推理。