PRIMAL架构：存内计算助力大语言模型高效适配

📅 2026/7/4 2:58:48 👁️ 阅读次数 📝 编程学习

1. PRIMAL架构设计背景与核心创新

在当今大语言模型（LLM）应用爆发的时代，模型适配（Adaptation）已成为部署过程中的关键瓶颈。传统全参数微调需要消耗大量计算资源，而低秩适配（LoRA）技术通过引入可训练的低秩矩阵，仅需调整少量参数即可实现任务特定适配。然而，现有GPU架构在处理LoRA时面临两个根本性挑战：一是频繁的权重更新导致存储墙问题加剧，二是静态计算架构难以适应动态适配需求。

PRIMAL的创新之处在于采用存内计算（PIM）范式重构硬件架构。其核心设计包含三个关键突破：

异构存内计算单元协同：RRAM-ACIM（阻变存储器-模拟存内计算）用于存储冻结的预训练权重，利用RRAM的高密度和非易失特性；SRAM-DCIM（静态存储器-数字存内计算）专为LoRA矩阵设计，支持快速数字重配置。实测数据显示，这种异构组合相比纯数字方案可降低89%的静态功耗（见表IV）。
动态电源门控技术（SRPG）：LLM推理具有严格的层间顺序依赖性，当某层计算时其他层处于空闲状态。PRIMAL通过计算瓦片（CT）级的精细粒度电源管理，对空闲CT的RRAM和互连网络进行门控，仅保持SRAM供电以维持LoRA权重。这种设计使得系统功耗随模型规模呈次线性增长，在Llama-13B上实现80%的功耗节省。
数据流-计算映射协同优化：通过2D-Mesh互连网络（IPCN）实现计算与通信的解耦。如图4所示，权重矩阵采用启发式空间映射策略，将Q/K/V/O矩阵约束为列向矩形区域，中间数据则存放在对应PE的邻近暂存器中。这种协同定位策略使Llama-13B的通信开销降低至H100的1/7。

提示：存内计算架构特别适合处理LLM中的注意力机制，因为QKV投影和注意力得分计算都涉及大量矩阵-向量操作，而PIM可以直接在存储单元完成乘累加运算，避免数据搬运。

2. 硬件架构深度解析

2.1 计算瓦片（CT）组织结构

每个计算瓦片包含1024个处理单元（PE），以32×32的IPCN互连构成2D-Mesh网络。图2展示的PE采用"路由器+存储体"的紧耦合设计，关键组件包括：

RRAM-ACIM宏：采用256×256交叉阵列，通过模拟域电流叠加实现并行MAC运算。利用RRAM的阈值特性，每个单元可存储4-bit权重，模数转换器（ADC）采用逐次逼近型设计，在7nm工艺下实现120μW@1GHz的超低功耗（见表IV）。
SRAM-DCIM宏：设计为256×64的数字计算阵列，使用标准6T SRAM单元配合进位保留加法器树。虽然数字计算能效比低于模拟方案，但其支持周期精确的权重更新，LoRA矩阵重配置延迟仅需12个时钟周期。
计算路由器：集成6个AXI-Stream接口和16个DMAC单元，支持四种工作模式：
1. 广播模式：分发输入嵌入到所有PE
2. 归约模式：聚合部分和结果
3. 单播模式：执行Q·K^T点积
4. 配置模式：更新SRAM权重

2.2 低秩适配硬件支持机制

LoRA在硬件层面的实现面临动态性与精度平衡的挑战。PRIMAL采用分层设计策略：

精度保障：对预训练权重使用4-bit量化，LoRA增量则保持8-bit精度。通过实验发现，这种混合精度配置在Llama-13B上仅导致0.3%的准确率下降，却节省了63%的SRAM存储开销。
流水化更新：如图5所示，SRPG机制将LoRA重配置与计算操作流水化。当CT_n执行第n层计算时，CT_{n+1}的SRAM已在后台更新下一层的LoRA权重。时间测量显示，这种重叠操作使TTFT（首词延迟）缩短了42%。
稀疏化支持：IPCN指令集包含特殊的掩码寄存器，可跳过全零的LoRA块。实测中，约35%的LoRA增量矩阵稀疏度超过70%，利用此特性可提升17%的吞吐量。

3. 软件映射与性能优化

3.1 权重矩阵空间映射算法

PRIMAL的映射优化围绕三个维度展开（见图4）：

矩阵内形状：将W_Q/W_K/W_V矩阵划分为32×32的块，每个块正好匹配PE的RRAM阵列尺寸。通过遗传算法搜索最优分块，使通信跳数最小化。
矩阵间形状：约束Q/K/V矩阵在Mesh网络中的相对位置，确保注意力得分计算时的数据局部性。例如将W_Q和W_K映射到相邻列，使Q·K^T计算只需水平通信。
行列顺序：采用Z型曲线排列PE，使高频访问的中间结果（如注意力得分）始终位于网络中心位置。这种排列使Llama-13B的最大跳数从62降至41。

3.2 KV缓存管理策略

针对自回归生成的长上下文场景，PRIMAL采用分布式循环缓存方案：

预分配策略：在预填充阶段（Prefill）就将K/V向量均匀分布到所有CT的暂存器，每个CT负责固定长度的上下文片段。例如2048长度的上下文会被分成64个32-token的块。
动态更新机制：新生成的K/V通过环形缓冲区指针追加，当指针到达CT边界时自动回绕。指针信息由NMC（网络主控制器）集中维护，确保解码阶段各CT能同步更新。
冲突避免：采用Bank级交错存储，将相邻token的K/V值分散到不同存储体。实测显示，这种设计在2048长度上下文下可实现96%的存储带宽利用率。

4. 实测性能与对比分析

4.1 能效与吞吐量基准测试

在LoRA rank=8（Q,V）配置下，PRIMAL与H100的对比数据令人瞩目（见表II）：

能效比：Llama-13B达到9.85 tokens/J，是H100（0.4 tokens/J）的24.6倍。这主要得益于：1）存内计算消除数据搬运 2）SRPG节省空闲功耗 3）模拟计算的高能效特性。
吞吐量：在2048上下文长度下达到145.4 tokens/s，超出H100 1.5倍。值得注意的是，随着batch size增大，PRIMAL的优势更加明显——batch=8时优势扩大至2.3倍，说明其并行架构更具扩展性。
延迟特性：TTFT主要由首层计算决定（见图6），因为后续层的LoRA配置已被流水化隐藏。Llama-13B的TTFT为2.533秒，与H100相当，但ITL（词间延迟）优化更显著，从H100的15.2ms降至12.5ms。

4.2 硬件开销分析

表IV揭示了有趣的工程权衡：

面积分布：RRAM-ACIM占PE面积的65.2%，主要来自ADC/DAC和模拟布线。但相比纯数字方案，其单位面积算力密度提升8.7倍。
功耗特性：SRAM-DCIM虽然面积占比仅15.8%，却贡献了78.1%的功耗。这是因为数字逻辑的开关活动因子远高于模拟电路，这也解释了为什么需要激进的门控策略。
工艺缩放：在5nm节点下仿真显示，RRAM的模拟特性使其缩放优势更明显——能效比预计可再提升2.1倍，而SRAM部分受限于阈值电压只能提升1.3倍。

5. 实际部署考量与优化建议

在边缘设备部署PRIMAL时，我们总结了以下经验：

温度管理：RRAM的电阻态对温度敏感，实验显示温度每升高10°C，ADC偏移会增加0.3LSB。建议：
- 在attention层之后插入温度传感器
- 动态调整PE的激活数量以控制热密度
- 对关键路径的RRAM阵列采用局部散热片
LoRA切换优化：频繁的任务切换会导致SRAM重配置开销，实测发现：
- 预热缓存：提前加载下个任务的LoRA权重到空闲CT
- 权重压缩：对LoRA矩阵采用块稀疏编码，平均可减少29%的配置时间
- 上下文保存：将KV缓存与LoRA权重绑定存储，避免重复计算
混合精度策略：
- 对embeddings层保持FP16精度
- 中间层使用8-bit LoRA + 4-bit基模型
- 输出层恢复FP16避免累积误差这种配置在Llama-13B上实现了精度损失<1%的同时，能效再提升1.8倍。

编程学习技术分享实战经验

资讯详情

PRIMAL架构：存内计算助力大语言模型高效适配

1. PRIMAL架构设计背景与核心创新

2. 硬件架构深度解析

2.1 计算瓦片（CT）组织结构

2.2 低秩适配硬件支持机制

3. 软件映射与性能优化

3.1 权重矩阵空间映射算法

3.2 KV缓存管理策略

4. 实测性能与对比分析

4.1 能效与吞吐量基准测试

4.2 硬件开销分析

5. 实际部署考量与优化建议

最新新闻

日新闻

周新闻

月新闻

资讯详情

PRIMAL架构：存内计算助力大语言模型高效适配

1. PRIMAL架构设计背景与核心创新

2. 硬件架构深度解析

2.1 计算瓦片（CT）组织结构

2.2 低秩适配硬件支持机制

3. 软件映射与性能优化

3.1 权重矩阵空间映射算法

3.2 KV缓存管理策略

4. 实测性能与对比分析

4.1 能效与吞吐量基准测试

4.2 硬件开销分析

5. 实际部署考量与优化建议

相关新闻

最新新闻

日新闻

周新闻

月新闻