大模型推理总是卡顿?你可能被传统的“三网分离”网络架构坑了
我们为什么需要融合推理网络?
大模型从训练走向推理:AI网络需求的结构性变化
大模型的发展已从技术研发阶段全面进入商业落地阶段。在AI的完整生命周期中,训练与推理是两个核心阶段:训练如同在封闭教室中学习技能,是阶段性的;而推理则像正式上岗,需要7×24小时不间断地向用户提供服务。随着ChatGPT等应用的广泛普及,融合推理网络的性能和稳定性直接决定了终端用户的体验——首字延迟每多100毫秒,用户流失率就可能上升一个量级。
在这一背景下,传统的三网分离架构暴露出越来越明显的局限性。
三网分离架构的三大痛点
在传统的智算中心建设中,标准做法是部署三张物理独立的网络:GPU后端计算网、分布式存储网和前端业务网,再加上带外管理网,共四张网络。每张网络都需要独立的交换机、网卡和光模块。
这种架构存在三个突出问题:
硬件采购成本高:每张网络独立采购设备,整体CAPEX被成倍放大。
运维复杂度高:多张网络并行运行,配置、监控、故障排查需在多个平面上分别进行。
带宽资源无法弹性共享:一次推理任务中,模型加载完成后存储网络90%的时间处于闲置状态,而计算网可能因高并发已被堵得水泄不通——两侧带宽无法动态调配,造成严重的资源浪费。
这正是融合推理网络概念提出的核心驱动力。
融合推理网络的核心思想与流量挑战
统一物理拓扑下的逻辑隔离
融合推理网络的核心思想是:用一套统一的物理网络拓扑,承载此前三张物理网络的全部功能——计算、存储、前端业务流量全部融合到同一张高性能网络中。它不是简单的"合并",而是在物理层面打破隔离后,通过交换机端的QoS业务分级机制实现逻辑层面的精细化管控,让无损流量(计算、存储)与有损流量(前端业务)弹性共存。
从服务器侧来看,一台GPU服务器不再需要插三张不同类型的网卡,只需一张统一的网卡即可跑通所有流量——无论是跨节点的集合通信、分布式存储的读写,还是前端的用户请求。
推理流量的独特形态:老鼠流与大象流并存
推理网络的流量特征与训练网络和传统数据中心有本质区别。一次典型的推理请求包含两种截然不同的流量形态:
老鼠流:用户提交prompt时产生的流量,并发度极高但单次数据量极小。
大象流:模型权重加载、KV缓存跨节点迁移时产生的流量,吞吐量极大、瞬间爆发。
这两种流量在推理网络中同时存在,且具有高度不确定性。此外,推理网络对丢包零容忍、对时延极度敏感——两个关键指标尤为突出:
首字延迟:用户提交问题后,模型输出第一个字所需的时间,直接决定用户对"流畅度"的主观感知。
长尾时延:网络中前99%以外最慢请求的时延。在分布式推理的"木桶效应"下,整体响应速度取决于最慢的那台服务器,长尾时延一旦失控,整个推理集群的响应都会变慢。
支撑融合推理网络的四大关键技术
融合推理要落地,必须解决一个核心矛盾:如何在同一张物理网络里,让对丢包零容忍的无损RoCE流量与可以容忍丢包重传的TCP/IP流量和平共处?以下四项关键技术共同构建了答案。
ECN over VXLAN:打通Overlay拥塞感知
在智算中心的多租户场景中,VXLAN是最常用的Overlay技术。传统架构下存在一个关键问题:VXLAN封装会在原始报文外层再封一层头部,如果外层头部未启用ECN标记,那么当Spine层发生拥塞时,解封装后的内层报文仍然保持原始的非拥塞状态——意味着服务器端完全感知不到网络中的拥塞,CNP拥塞通知永远不会被触发。
ECN over VXLAN机制解决了这一问题:在VXLAN封装时,将内层ECN标记映射到外层头部;当Spine层发生拥塞时,外层头部被置位为拥塞状态;解封装后,再将外层状态反向映射回内层。端侧网卡收到E1标记后,即可正常触发CNP并通知发送端降速,打通了Overlay网络中的拥塞感知闭环。
QoS业务分级与混合调度:无损流量不被抢占
三网融合后,不同优先级报文共享同一物理链路。QoS业务分级机制通过DSCP优先级映射,将报文分配到不同队列,再结合SP(严格优先级)和DWRR(赤字加权轮询)混合调度算法进行转发:
| 队列 | 流量类型 | 调度策略 | 说明 |
| 队列7 | 集群控制与管理 | SP严格优先级 | 带宽占比低但关系集群生死,最高转发特权 |
| 队列6 | CNP拥塞控制报文 | 高优先级 | 仅次于控制流,确保拥塞被及时感知 |
| 队列4 | 计算流量(RoCE无损) | DWRR 50%权重 | GPU间集合通信的无损流量 |
| 队列3 | 存储流量(RoCE无损) | DWRR 30%权重 | 分布式存储读写的无损流量 |
| 队列0 | 前端业务(TCP/IP) | 低优先级 | 拥塞时主动丢包,TCP重传兜底 |
当网络拥塞发生时,系统优先对有损队列(队列0)进行主动丢包,确保高优先级的无损流量不被抢占。
Fast CNP:拥塞反馈路径缩短一半以上
传统的DCQCN拥塞控制机制存在反馈延迟问题:拥塞通知需要经过完整的往返路径——从发送端到接收端(0.5个RTT),再由接收端发回CNP给发送端(又0.5个RTT),总计1个RTT。在微秒级敏感的推理场景中,这个延迟可能导致降速不及时,进而触发PFC兜底,影响整体吞吐。
Fast CNP通过在交换机内部维护一张包含源目的IP和QP对号的流表,直接在交换机芯片内部反向构造CNP拥塞通知报文,使反馈路径缩短一半以上——实测可达到微秒级响应。这能显著降低PFC触发频率,保障推理网络在拥塞状态下的整体吞吐量。
微分段:租户内部的主机级精细化隔离
传统Overlay网络通过VRF或VNI实现租户间的粗粒度隔离。但在实际业务中,同一租户内部可能运行不同的业务实例,需要更精细的访问控制。微分段技术能够在VRF或VPC内部,基于主机IP地址或IP网段划定精细化的隔离组,实现同一租户内主机粒度的安全策略控制。例如,允许同一租户下的A1/A2网段与A3/A4网段互通,同时禁止A1/A2与A5/A6网段通信。
融合推理网络的设计原则与两条技术路线
收敛比设计:不追求1:1无阻塞
在传统无损网络中,通常追求1:1的无阻塞设计。但融合推理网络得益于Fabric带宽可弹性共享的特性,允许更灵活的收敛比:
推荐范围:1.5:1至3:1
推荐值:2:1(以CX308交换机为例,48×25G下行 + 6×100G上行)
优势:最大化利用网络容量,降低建设成本
此外,速率对齐是另一项关键原则——计算节点网卡速率与存储节点网卡速率必须匹配,否则不匹配可能造成长尾时延突出。计算与存储节点的网络接入容量配比则需参照客户侧节点规格要求。
两条技术路线:两网融合 vs 三网融合
在融合推理的实际部署中,Overlay协议的选择取决于技术路线和业务需求:
两网融合路线(计算+存储):网络内运行的是纯净的RoCE无损流量,建议保持纯Underlay架构,通过等价多路径(ECMP)实现全路径转发以保证低时延。
三网融合路线(计算+存储+前端):引入了前端业务网络和虚拟化租户需求,建议使用EVPN-VXLAN实现Overlay虚拟化租户隔离。
高可靠接入方面,服务器通常采用双上行网卡做Bond接入。纯Underlay场景可选MC-LAG或ARP-to-Host路由做双归;Overlay场景推荐EVPN MC-LAG或EVPN Multipoint Homing,确保链路或设备故障时推理业务无感切换。
当前业界存在两条主流技术路线:
| 方案 | 融合范围 | 代表厂商 | 适用场景 |
| 路线一:两网融合 | 计算后端 + 存储后端 | 微软、阿里云 | 纯RoCE流量场景 |
| 路线二:三网融合 | 计算 + 存储 + 前端业务 | 英伟达、亚马逊、华为 | 需承载前端业务与多租户虚拟化 |
需要特别指出的是,在使用消费级GPU(如RTX 4090)的推理集群中,必须选择融合网络架构。这类GPU没有NVLink互联通道,GPU之间集合通信的流量全部走PCIe或外部网络,既不具备网络分离的物理条件,也没有多余的PCIe插槽插高速无损网卡。融合推理网络是这类场景的必然选择。
实战案例:千台服务器的轻量化融合推理集群
国内某算力服务提供商的轻量化融合推理网络案例提供了一个可参考的落地范式。该方案单Pod支持1000多台服务器的高密接入,包含前端服务器、GPU推理服务器和存储服务器,全部接入同一张物理网络:
- Spine层:4台64×100G交换机(CX564型号),负责跨Leaf流量转发。
- Leaf接入层:62台CX308交换机(48×25G下行 + 8×100G上行),以25G速率接入推理节点、管理服务器和存储服务器。上下行收敛比约2:1。
- Border Leaf:2台CX532交换机,连接边界路由器和防火墙,向外网提供推理API服务。
该方案通过扁平一体化组网,帮助客户实现了较低的初期建设成本,同时运维体验显著优于多网分离方案。25G接入凭借其性价比优势,已成为中小型企业轻量推理集群的主力军。
【实测数据验证】AI 智算场景性能测试(部分)
NCCL测试:双机16卡(连接NVIDIA H100集群,400G CX-7 NIC)
端到端All-Reduce吞吐量190GB/s; 端到端All-to-All吞吐量约320GB/s; 均与背靠背连接时性能相当。
部署DeepSeek 671B 大模型测试推理性能测试: 双机16卡(NVIDIA H20 GPU卡 + 400G CX-7 NIC)
在不同的并发推理请求场景下(20~100),使用 Asterfusion RoCE 交换机的推理延迟始终低于使用 InfiniBand(IB)交换机。在 50 个并发请求下,90% 推理延迟降低了 20.4%
Token生成速率:对于 20 到 100 个并发推理请求,星融元Asterfusion的 RoCE 交换机始终提供比 InfiniBand (IB) 交换机更高的Token 生成速率。随着并发请求数量的增加,增长幅度进一步扩大,在 100 个请求时,TGR 提升了 27.5%。
融合推理是AI推理时代的必然选择
融合推理网络不是对传统三网分离架构的简单替代,而是AI基础设施从"以训练为中心"转向"以推理为中心"过程中的一次架构性变革。它通过统一物理拓扑、QoS逻辑隔离、Fast CNP拥塞控制和微分段安全策略等技术组合,在保障推理低时延、零丢包核心诉求的同时,显著降低了硬件采购与运维成本。
对于AI基础设施工程师和技术决策者而言,理解融合与推理之间的深层关系——尤其是在不同GPU规格、不同业务规模下如何选择合适的网络架构——正在成为一项关键能力。随着大模型推理需求的持续爆发,三网融合方案将在更多场景中成为默认选项。