EdgeDiff:面向多模态少步扩散模型的混合精度与重排序分组量化加速器

📅 2026/7/5 8:05:03 👁️ 阅读次数 📝 编程学习
EdgeDiff:面向多模态少步扩散模型的混合精度与重排序分组量化加速器

EdgeDiff: Energy-Efficient Multi-Modal Few-Step Diffusion Model Accelerator Using Mixed-Precision and Reordered Group Quantization 阅读总结

中文标题:EdgeDiff:面向多模态少步扩散模型的混合精度与重排序分组量化加速器

作者:Sangjin Kim, Jungjun Oh, Jeonggyu So, Yuseon Choi, Sangyeob Kim, Dongseok Im, Gwangtae Park, Hoi-Jun Yoo
发表:IEEE JSSC
工艺:28nm CMOS
芯片面积:20.25 mm²


摘要

EdgeDiff是首款支持端到端、少步(few-step)、多模态(multi-modal)扩散模型(DM)推理的专用处理器。针对少步扩散模型(FSDM)中时间步间冗余消失编解码器计算占比剧增量化敏感度显著提升三大特征变化,提出条件感知重排序分组混合精度(CRMP)方案,并配套设计了压缩-累加(CAA)处理单元、位混洗树(BST)、分层累加单元(TAU)与网格化量化单元(GQU)等微架构。芯片在28nm CMOS实现,峰值能效34.4 TOPS/W,单步文生图能耗418.4 mJ/图,较此前最优工作降低3.3倍。


核心专有名词解析

术语缩写定义(面向跨专业读者)
扩散模型DM通过渐进去噪过程从随机噪声生成图像的生成式AI模型。
少步扩散模型FSDM通过知识蒸馏将去噪步数从数十至数千步压缩至1~4步的扩散模型变体。
多模态条件Multi-modal同时接受文本、图像等多种输入模态作为生成条件的机制。
通道显著性Channel Saliency激活张量中某些通道的幅值系统性大于其他通道的特性,这些通道对输出起主导作用。
组量化Group Quantization将通道分组,每组共享一个浮点缩放因子(SF),以提升低比特量化精度。
混合精度Mixed Precision对不同通道组采用不同位宽(INT4/INT8)执行计算,平衡精度与能效。
条件感知重排序分组混合精度CRMPEdgeDiff提出的量化策略:根据输入条件动态监测通道显著性,重排通道顺序后实施分组量化与混合精度分配。
压缩-累加处理单元CAA PE改变传统乘加顺序:先做通道间压缩累加,再做位间移位累加,将符号重配开销从乘法器转移到共享加法器。
位混洗树BST由单元混洗逻辑(USL)构成的蝴蝶网络,将输入比特流极化(1集中左侧、0集中右侧),降低压缩器翻转率。
分层累加单元TAU两级累加结构:默认使用24-bit整数累加器(I-AC),仅当溢出或离群值出现时启用浮点累加器(F-AC),减少FP累加能耗。
网格化量化单元GQU替代FP除法的量化电路:生成缩放因子网格(SFG),通过比较器查找量化电平,支持4/8/12/16-bit迭代量化。
单元混洗逻辑USLBST的基本单元,接收两比特输入,输出对齐的(密集,稀疏)对,保持1的个数不变,由1个AND门和1个OR门实现。

一、研究背景与动机

1.1 扩散模型的三项关键演进

演进一:少步去噪(FSDM)

  • 传统DM需数千步迭代生成单张图像。
  • FSDM通过对抗性蒸馏(Adversarial Diffusion Distillation)将步数压缩至14步,计算量降低9.722.0倍,EMA降低12.0~42.3倍。
  • 硬件影响:相邻时间步的激活值不再相似(相关性消失),此前利用时间步间冗余跳过计算的优化技术[13][14]完全失效。

演进二:多模态条件输入

  • 传统DM仅支持无条件生成或类别条件生成。
  • 现代DM支持文本+图像等多模态条件输入(如SDXL)。
  • 硬件影响:新增编码器(文本编码器、图像编码器)的计算负载大幅上升,编解码器在总计算中的占比显著增加。

演进三:量化敏感度剧增

  • 传统多步DM对INT8量化鲁棒,可采用逐通道/逐张量静态量化。
  • FSDM对激活和权重量化的敏感度急剧上升,需采用组量化(group quantization)与混合精度方可维持图像质量。

1.2 此前硬件方案的局限性

此前方案依赖技术在FSDM下的失效原因
Qin et al. [13]时间步间背景像素重用FSDM仅1~4步,相邻步激活不相关
Guo et al. [14]相邻步激活差分计算同上
Yoo et al. [15]自定义FP单元FP运算固有能效低,不适用于低比特整数推理

1.3 三项硬件挑战

挑战一:通道显著性的动态变化

  • LLM等模型中,离群通道在不同输入批次下重叠率达71%~93%,可静态处理。
  • FSDM中,输入条件或初始噪声变化时,离群通道重叠率低于5%,需运行时动态感知。

挑战二:混合精度PE的符号重配开销

  • 比特切片(bit-slice)计算中,高位切片为有符号数、低位切片为无符号数,产生SS/SU/US/UU四种符号模式。
  • 传统方案[22][24]需为每种模式复制逻辑,或采用位宽放大MAC,面积与功耗开销显著。

挑战三:组量化带来的FP运算开销

  • 组量化依赖浮点缩放因子,涉及FP缩放、累加与除法,功耗极高。
  • 需设计专用低开销FP单元支持组量化运算。

二、核心架构与技术方案

2.1 整体架构

EdgeDiff由四大模块构成:

  • 动态分组与重排序单元(DGRU):包含通道分组单元(CGU)与重排序量化单元(RQU),运行时分析激活显著性,执行通道重排与组量化。
  • 8个混合组精度核心(MGPC):每个核心含16×16×32张量PE阵列、本地存储器及专用精度控制通路。
  • 1.28 MB全局存储器:双Bank 640KB,含1D SIMD核心处理非线性运算。
  • 顶层控制器:协调各模块通信与调度。

2.2 条件感知重排序分组混合精度(CRMP)

CRMP包含三个步骤:

步骤一:显著性监测(Saliency Monitoring)

  • MGPC计算输出激活(OA)后送入全局存储器。
  • 1D SIMD引擎以流式方式计算各通道的通道均值,作为显著性指标。

步骤二:分组(Grouping)

  • 按显著性值对通道排序,将320个通道划分为多个32通道组,组内显著性分布均匀。
  • CGU采用递归分割(recursive partitioning)实现排序,并支持组内排序旁路(bypass)——因组量化仅依赖组内最大值,组内顺序不影响结果,旁路可降低29.8%分组延迟。

步骤三:重排序(Reordering)

  • IA和W从全局存储器加载至MGPC时,依据分组结果进行物理地址重排。
  • IA:监测→分组→重排序三步全流程。
  • W:仅依据对应IA的分组结果执行重排序。
  • 重排后,组内数据范围收窄:FFN层SQNR从18.17 dB提升至19.38 dB。

混合精度策略

  • 每组静态配置INT4或INT8,高精度组比例根据网络模块和步数预先确定。
  • 单步推理对量化更敏感,高精度组比例高于四步推理。

2.3 压缩-累加处理单元(CAA PE)

传统架构问题

  • 并行乘法器→加法树:位间累加在先(乘法器内),通道间累加在后(加法树)。
  • 支持四种符号模式需重配每个乘法器,开销巨大。

CAA创新点

  • 交换累加顺序:通道间累加在先(压缩器)位间累加在后(移位加法器)
  • 符号模式重配从乘法器级转移到共享加法器级,显著降低开销。
  • 第一级:16个位压缩器(BC),各对应4×4-bit乘法的一个位积。每BC接收32对1-bit输入,执行AND后压缩为6-bit结果。
  • 第二级:位间加法器(IBA),包含两个4路移位-加结构(分别对应IA和W),采用加法器-减法器处理MSB有符号路径。

性能收益:相比传统Mult.+AT设计,MAC功耗降低36.6%,面积几乎不变(1.058×)。

2.4 位混洗树(BST)

问题:CAA架构中,32:6压缩器功耗占MAC总功耗的主导地位。

BST结构

  • 由单元混洗逻辑(USL)构成2.5级蝴蝶网络。
  • USL:2-bit输入→(密集,稀疏)输出,保持1的个数不变,由1个AND门+1个OR门实现。
  • 第一级:分离密集(D)与稀疏(S)组;第二级:进一步分为DD/DS/SD/SS;第三级:仅混洗DS与SD分支。

效果

  • 比特流极化:1集中左侧、0集中右侧。
  • 压缩器翻转率从0.867降至0.503(1.72×降低)。
  • 静态功耗微增,但因USL仅2门/级,优于压缩器中5门/FA,整体MAC功耗降低36.6%。

2.5 分层累加单元(TAU)

问题:组量化需要FP缩放因子,FP累加功耗高昂。

TAU结构

  • 第一级(默认):24-bit整数累加器(I-AC),低功耗。
  • 第二级(条件激活):浮点累加器(F-AC),仅当I-AC溢出或检测到离群值时启用。
  • 溢出检测单元(ORDU):使用前导1检测器估算所需动态范围,结合缩放因子指数判断是否超出24-bit范围。

能耗收益

  • I-AC替代纯FP累加降低76.2%累加能耗。
  • TAU使核心能效提升:4-bit模式提升80.3%,8-bit模式提升9.8%,面积开销仅3.4%。

2.6 网格化量化单元(GQU)

问题:组量化涉及FP除法(激活 ÷ 缩放因子),功耗高昂。

GQU原理

  • 生成缩放因子网格(SFG):由网格生成电路(GGC)构建SFG,将SF尾数乘以固定量化电平集合(如-7.5至7.5)。
  • 电平检测电路(LDC):32个LDC并行工作,将各OA与SFG条目比较,确定量化电平。
  • 迭代支持多精度:MSB切片使用OA算术移位后的值作为比较输入;LSB切片使用(原始OA - 已量化值 × SF尾数)作为输入,同一电路支持4/8/12/16-bit量化。

性能收益

  • 共享GGC设计使峰值功耗降低95.4%、面积降低66.7%(vs. 朴素FP实现)。
  • 能量节省5.4×~21.7×(依目标位宽而定)。

三、芯片实现与实测结果

3.1 芯片规格

参数数值
工艺28nm CMOS
面积20.25 mm²
电压0.68 – 1.0 V
频率50 – 250 MHz
SRAMMGPC 600KB + 全局存储器 1.28MB
精度支持IA/W: INT4/8/12/16;SF: FP8/FP16 (IA), INT4 (W)
峰值能效34.4 TOPS/W @ 50MHz, 0.68V (INT4)
峰值性能8.6 TOPS @ 250MHz, 1.0V

3.2 端到端生成能耗与延迟

任务步数能耗 (mJ/图)备注
T2I1步418.43.3×优于此前最优[13][14]
T2I4步786.3
I2I1步506.5
I2I4步846.0

3.3 各技术模块贡献

CRMP对延迟的加速比

  • 编码器:1.6×~2.0×
  • UNet:1.5×~1.8×(四步)/ 1.4×~1.6×(一步)
  • 解码器:1.4×~1.6×

各模块功耗降低

  • CAA + BST + TAU:MGPC功耗显著下降
  • GQU:量化单元功耗降低
  • 综合系统功耗较基线降低41.6%

总体加速比(vs. 50步4-bit基线)

  • T2I:15.7×(含FSDM的9.4× + CRMP的1.67×)
  • I2I:13.1×(含FSDM的7.9× + CRMP的1.66×)

3.4 图像质量评估

T2I(MS-COCO, 30k prompts)

配置FID ↓CLIP ↑
FP32基线19.760.321
EdgeDiff(混合精度)20.090.310

I2I(PSNR):各prompt下均保持>30 dB PSNR,与FP基线输出高度一致。

精度-速度权衡:静态INT4量化FID严重退化;CRMP混合精度在接近INT8质量的同时保留显著性能增益。

3.5 与SOTA对比

对比维度EdgeDiff[13] VLSI’24[14] ISSCC’24[15] ESSERC’24
支持的DM阶段编码器+UNet+解码器仅UNet仅UNet全流水线
支持FSDM×××
支持多模态×××
峰值能效 (TOPS/W)34.452.0 (FP8)74.3 (BF16)4.96
T2I单图能耗 (mJ)418.4~1400*~1400*

*注:对比值基于报告峰值能效推算,[13][14]仅支持多步DM,无法直接运行FSDM。


四、技术总结

EdgeDiff通过以下技术路径实现FSDM端侧高效推理:

  1. 算法层面:CRMP通过运行时通道显著性监测与重排,解决FSDM中通道重要性随输入条件剧烈波动的难题,使组量化和混合精度可有效部署。

  2. 计算架构层面:CAA PE通过颠倒累加顺序(通道间先于位间),将符号重配开销从乘法器级迁移至共享加法器级;BST通过比特流极化降低压缩器翻转率;两者协同实现低开销混合精度整数MAC。

  3. 量化支持层面:TAU以整数累加器为主路径、FP累加器为备用路径,降低组量化中FP累加能耗;GQU以网格比较替代FP除法,支持可扩展的多精度量化。

  4. 系统层面:通过统一加速编码器、UNet与解码器,EdgeDiff支持端到端FSDM推理,在多模态条件下保持图像质量(FID 20.09,PSNR >30 dB)的同时,实现418.4 mJ/图的单步生成能耗,较此前最优设计降低3.3倍。该芯片证明:通过算法-架构协同设计,可在28nm成熟工艺下实现实时、高能效的端侧生成式AI推理。