hpcpilot网卡驱动配置:Mellanox网卡安装与优化的终极方案

📅 2026/7/2 21:17:00 👁️ 阅读次数 📝 编程学习
hpcpilot网卡驱动配置:Mellanox网卡安装与优化的终极方案

hpcpilot网卡驱动配置:Mellanox网卡安装与优化的终极方案

【免费下载链接】hpcpilotA collection of HPC delivery tools, including basic system configuration, node inspection, performance testing, third-party service installation, etc.项目地址: https://gitcode.com/openeuler/hpcpilot

前往项目官网免费下载:https://ar.openeuler.org/ar/

hpcpilot是openEuler社区提供的HPC交付工具集,包含系统基础配置、节点检查、性能测试和第三方服务安装等功能。本文将详细介绍如何使用hpcpilot实现Mellanox网卡驱动的自动化安装与性能优化,帮助新手用户快速完成高性能计算环境的网络配置。

为什么选择Mellanox网卡?

Mellanox ConnectX系列网卡以其卓越的RDMA性能和低延迟特性,成为高性能计算集群的理想选择。通过hpcpilot提供的自动化脚本,用户可以轻松完成驱动安装、网络配置和参数优化,充分发挥Mellanox网卡的硬件潜力。

准备工作:环境检查与依赖安装

在开始安装前,请确保您的系统满足以下条件:

  • 物理机部署(虚拟机无需安装Mellanox驱动)
  • 网络类型配置为IB(1)或RoCE(2)模式(TCP模式无需安装)
  • 已下载Mellanox驱动文件(MLNX_OFED_LINUX开头的tgz包)

hpcpilot提供了完整的依赖检查与安装功能,执行以下命令即可自动处理不同操作系统的依赖包:

# 依赖检查脚本位置 hpc_script/basic_script/cas_mellanox.sh

该脚本会根据系统类型(openEuler、CentOS或Kylin)自动安装tcsh、pciutils-devel等必要依赖,确保驱动安装顺利进行。

一键安装:Mellanox驱动自动化部署

hpcpilot的cas_mellanox.sh脚本实现了驱动安装的全自动化流程,核心步骤包括:

  1. 驱动文件检测:自动查找sourcecode_dir目录下的MLNX_OFED_LINUX驱动包
  2. 依赖处理:根据操作系统类型安装相应的依赖库
  3. 驱动解压与安装:使用mlnxofedinstall --force命令执行无交互安装
  4. 模块加载:重启openibd服务并加载必要内核模块
  5. 网络配置:根据网络类型(IB/RoCE)自动配置IP和VLAN

执行安装命令:

# 执行安装脚本 hpc_script/basic_script/cas_mellanox.sh

安装完成后,可通过以下命令验证驱动版本:

ofed_info -n

性能优化:释放Mellanox网卡潜力

hpcpilot提供了专门的优化脚本cx.sh,通过调整网卡参数实现性能最大化。优化内容包括:

1. 基础网络参数配置

# 设置MTU为4500(Jumbo Frame) ifconfig ${if_dev} mtu 4500

2. RDMA QoS优化

# 配置RDMA-CM QP默认TOS为106 cma_roce_tos -d ${mlx_dev} -t 106 # 配置PFC队列和DSCP映射 mlnx_qos -i ${if_dev} --pfc 0,0,0,0,1,0,0,0 --trust dscp mlnx_qos -i ${if_dev} --dscp2prio set,26,4

3. ECN功能启用

# 配置CNP报文DSCP为48 echo 48 >/sys/class/net/${if_dev}/ecn/roce_np/cnp_dscp # 启用4队列ECN功能 echo 1 >/sys/class/net/${if_dev}/ecn/roce_np/enable/4 echo 1 >/sys/class/net/${if_dev}/ecn/roce_rp/enable/4

优化脚本会自动对所有Mellanox网卡应用上述配置,您可以在以下路径找到该脚本:

hpc_script/basic_script/cx.sh

验证与故障排除

安装完成后,hpcpilot会自动执行检查流程,您也可以手动运行检查命令:

# 检查Mellanox驱动状态 hpc_script/basic_script/auto_check_script.sh

常见问题处理:

  • 驱动未启动:检查网线连接状态,执行/etc/init.d/openibd restart
  • 依赖缺失:确保sourcecode目录包含所需的依赖包(如tcsh的rpm包)
  • IP配置错误:检查hostname.csv文件中的高速网卡IP配置

总结

通过hpcpilot提供的cas_mellanox.shcx.sh脚本,用户可以轻松完成Mellanox网卡的驱动安装与性能优化。这种自动化方案不仅降低了配置难度,还确保了集群环境的一致性和最佳性能。无论是IB还是RoCE网络环境,hpcpilot都能提供完整的解决方案,帮助您快速构建高效稳定的HPC集群网络。

如需了解更多hpcpilot功能,请参考项目中的脚本介绍文档:hpc_script/hpcpilot脚本介绍.md

【免费下载链接】hpcpilotA collection of HPC delivery tools, including basic system configuration, node inspection, performance testing, third-party service installation, etc.项目地址: https://gitcode.com/openeuler/hpcpilot

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考